首页分享视频分析模型（行为识别）：C3D

视频分析模型（行为识别）：C3D

来源：萌宠菠菠乐园时间：2024-09-30 13:13

C3D

文章目录 C3D 1. 简介 1.1 背景 1.2 C3D特点 1.3 视频描述符 1.4 C3D的结果 2. 架构 2.1 工作流程 2.2 网络结构 2.3 3D卷积和池化 2.4 kernel 的时间深度 3. 可视化 3.1 特征图 3.2 特征嵌入 4. 应用场景 4.1 动作识别 4.2 动作相似度标注 4.3 场景和目标识别 4.4 运行时间分析 1. 简介

论文：https://arxiv.org/abs/1412.0767v4

github：

原代码：https://github.com/facebook/C3D

TensorFlow：https://github.com/hx173149/C3D-tensorflow

1.1 背景

卷积神经网络（CNN）被广泛应用于计算机视觉中，包括分类、检测、分割等任务。

这些任务一般都是针对图像进行的，使用的是二维卷积（即卷积核的维度为二维）。而对于基于视频分析的问题，2D convolution不能很好得捕获时序上的信息，因此3D卷积就被提出来了。

3D卷积最早应该是在《3D convolutional neural networks for human action recognition》这片论文中被提出并用于行为识别的，而C3D是作为一个通用的网络提出的，论文中将其用于行为识别，场景识别，视频相似度分析等领域。

1.2 C3D特点 3D ConvNets比2D ConvNets更适用于时空特征的学习对于3D ConvNet而言，在所有层使用3×3×3的小卷积核效果最好通过简单的线性分类器学到的特征名为C3D(Convolutional 3D)，在4个不同的任务和6个基准上表现优秀，在2015年达到SOTA 特征紧凑：在UCF101数据集上得到52.8%的准确率只用了10维（PCA+SVM）推断快，计算效率非常高，在论文中实验时就有300帧以上的FPS，使用 NVIDIA 1080 GPU 能达到600帧以上概念简单，易于训练和使用 1.3 视频描述符

一个有效的视频描述符有四个属性：

通用性。可以表示不同类型的视频，同时具有可区分性。例如，网络视频可以是自然风光、运动、电视节目、电影、宠物、食物等描述符必须是紧凑的。由于我们需要处理数百万的视频，一个紧凑的描述符有助于处理，存储和检索任务，更具可扩展性；计算高效。因为在现实世界中，每一分钟都需要处理成千上万的视频；实现简单。不使用复杂的特征编码方法和分类器，一个好的描述符即使是一个简单