前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >I3D笔记 - plus studio

I3D笔记 - plus studio

作者头像
plus sign
发布2024-02-28 21:29:13
1310
发布2024-02-28 21:29:13
举报
文章被收录于专栏:个人博客个人博客

I3D笔记

I3D是一个视频理解模型,采用双流网络的架构,他的核心贡献是提出了如何对2d网络进行膨胀操作,同时提出了一个新的数据集 Kinetics

工作回顾

在以前,视频理解有三种做法 1. LSTM 2. 3D ConvNets 3. Two-Stream Networks(双流网络)

Two-Stream Inflated 3D ConvNets

这篇文章提出的模型被称为 Two-Stream Inflated 3D ConvNets

Inflate 是模型的核心操作,含义是将一个2d模型"膨胀"成3d模型,做法很简单,就是把一个\(N*N\) 的层变成\(N*N*N\) ,同时也将参数复制了\(N\) 遍。

Kinetics

在视频领域,在一个足够大的数据集上训练一个动作分类网络,当应用于不同的时间任务或数据集时,是否会有类似的性能提升是一个悬而未决的问题。构建视频数据集的挑战意味着大多数流行的动作识别基准。

Kinetics 有400个人体动作类,每个类有400多个例子,每个都来自一个独特的 YouTube 视频

整体架构

作者选择了 Inception-v1 构建整个神经网络(作者当时不适用Inception-v1是因为当时认为Inception在视频理解更合适,但架不住ResNet 太棒了,作者在18年也换成了ResNet)

图中的Inc. 就是经典的Inception-v1 块了,只是做了Inflating 操作

本文参与?腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2023-4-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客?前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • I3D笔记
    • 工作回顾
      • Two-Stream Inflated 3D ConvNets
        • Kinetics
          • 整体架构
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
      http://www.vxiaotou.com