视频分析模型(行为识别):C3D
来源:
时间:2024-09-30 13:13C3D
文章目录 C3D 1. 简介 1.1 背景 1.2 C3D特点 1.3 视频描述符 1.4 C3D的结果 2. 架构 2.1 工作流程 2.2 网络结构 2.3 3D卷积和池化 2.4 kernel 的时间深度 3. 可视化 3.1 特征图 3.2 特征嵌入 4. 应用场景 4.1 动作识别 4.2 动作相似度标注 4.3 场景和目标识别 4.4 运行时间分析 1. 简介论文:https://arxiv.org/abs/1412.0767v4
github:
原代码:https://github.com/facebook/C3D
TensorFlow:https://github.com/hx173149/C3D-tensorflow
1.1 背景卷积神经网络(CNN)被广泛应用于计算机视觉中,包括分类、检测、分割等任务。
这些任务一般都是针对图像进行的,使用的是二维卷积(即卷积核的维度为二维)。而对于基于视频分析的问题,2D convolution不能很好得捕获时序上的信息,因此3D卷积就被提出来了。
3D卷积 最早应该是在 《3D convolutional neural networks for human action recognition》 这片论文中被提出并用于行为识别的,而C3D是作为一个通用的网络提出的,论文中将其用于行为识别,场景识别,视频相似度分析等领域。
1.2 C3D特点 3D ConvNets比2D ConvNets更适用于时空特征的学习 对于3D ConvNet而言,在所有层使用3×3×3的小卷积核效果最好 通过简单的线性分类器学到的特征名为C3D(Convolutional 3D),在4个不同的任务和6个基准上表现优秀,在2015年达到SOTA 特征紧凑:在UCF101数据集上得到52.8%的准确率只用了10维(PCA+SVM) 推断快,计算效率非常高,在论文中实验时就有300帧以上的FPS,使用 NVIDIA 1080 GPU 能达到600帧以上 概念简单,易于训练和使用 1.3 视频描述符一个有效的视频描述符有四个属性:
通用性。可以表示不同类型的视频,同时具有可区分性。例如,网络视频可以是自然风光、运动、电视节目、电影、宠物、食物等 描述符必须是紧凑的。由于我们需要处理数百万的视频,一个紧凑的描述符有助于处理,存储和检索任务,更具可扩展性; 计算高效。因为在现实世界中,每一分钟都需要处理成千上万的视频; 实现简单。不使用复杂的特征编码方法和分类器,一个好的描述符即使是一个简单相关知识
视频分析模型(行为识别):C3D
【深度学习论文翻译】Learning Spatiotemporal Features with 3D Convolutional Networks全文对照翻译
OpenCV怎么进行宠物识别和行为分析
视频理解综述:动作识别、时序动作定位、视频Embedding
运用高斯混合模型识别动物声音情绪
一种基于深度学习的宠物行为识别方法及系统
基于自然行为的新物体识别模型,为研究啮齿动物记忆提供非侵入性方法
动物视频跟踪和行为分析系统
基于DOG的异常行为监测模型的设计
模型案例:| 音频识别-鸟声识别模型!
网址: 视频分析模型(行为识别):C3D https://www.mcbbbk.com/newsview292744.html
上一篇: 用ROC曲线解析预测模型 |
下一篇: 蚁群算法+Dijkstra算法= |
推荐分享

- 1我的狗老公李淑敏33——如何 5096
- 2南京宠物粮食薄荷饼宠物食品包 4363
- 3家养水獭多少钱一只正常 3825
- 4豆柴犬为什么不建议养?可爱的 3668
- 5自制狗狗辅食:棉花面纱犬的美 3615
- 6狗交配为什么会锁住?从狗狗生 3601
- 7广州哪里卖宠物猫狗的选择性多 3535
- 8湖南隆飞尔动物药业有限公司宠 3477
- 9黄金蟒的价格 3396
- 10益和 MATCHWELL 狗 3352
分享热点排名
分享热点