UniFormer v2改进升级 | CUENet优化SA注意力，用高效加性注意力机制，加速Transformer落地！

集智书童公众号

发布于 2024-05-10 14:16:40

2000

发布于 2024-05-10 14:16:40

在本文中，作者介绍了CUE-Net，一种用于视频监控中自动暴力检测的新颖架构。随着技术的进步和成本的降低，监控系统变得越来越普遍，有效监控大量视频数据挑战也日益加大。 CUE-Net通过结合空间裁剪与改进版的UniformV2架构，并整合卷积和自注意力机制以及一种新颖的改进高效加性注意力机制（该机制减少了自注意力的二次时间复杂度），来有效地识别暴力活动。这种方法旨在克服传统挑战，例如捕捉视频帧中远距离或部分遮挡的主体。通过关注局部和全局时空特征，CUE-Net在RWF-2000和RLVS数据集上取得了最先进的表现，超过了现有方法。

1 引言

根据世界银行的数据，过去五年全局犯罪率有所上升。监控摄像头通常被部署以帮助威慑暴力，提供实时监控并收集犯罪或暴力活动的证据。得益于技术的进步，监控系统越来越经济实惠，部署也变得更加容易。随着部署的监控摄像头数量的增加，对于人工操作员来说，手动监控摄像馈送变得既昂贵又具有挑战性。因此，对于简化暴力检测（VD）的过程，实现自动化监控摄像头的方法具有极大的需求，这种方式要更加准确和高效。

为了应对从视频中高效、自动地检测暴力的挑战，需要有效的计算机视觉方法。如卷积神经网络（CNN）和最近基于Transformer的架构等深度学习方法，在解决与计算机视觉相关的自动暴力检测问题上显示出巨大潜力。暴力检测的成功在很大程度上取决于视频中出现的物体和人。当暴力事件的相关特征没有被正确捕捉时，检测变得困难，例如当涉及暴力事件的人距离较远并且只占画面的一小部分时，正如在RWF-2000数据集中的一个示例视频中看到的图2（a）。尽管已经探索了不同的机制用于自动暴力检测，但由于跟踪和提取涉及暴力的快速移动人或者物体、低分辨率场景和遮挡相关问题等挑战，仍有机会进行改进。

另一个研究问题涉及到寻找一种在视频中检测暴力的有效且健壮的处理架构。理想的架构应该能够同时捕捉时间维度和空间维度上的局部和全局重要特征。如文献[29, 30]所讨论的，基于CNN的架构能更好地捕捉局部重要特征，但不是全局重要特征；而文献[14]认为，在Transformer架构中的自注意力机制似乎能更好地在时间上捕捉全局重要特征。然而，由于二次计算复杂度[24]，Transformer架构可能难以处理视频数据。因此，探索一种新颖的解决方案，结合卷积捕捉局部时间特征的优点和Transformer捕捉全局特征的轻量级注意力机制是值得的。

在本文中，作者提出了一种名为CUE-Net的新颖架构，它结合了空间裁剪与UniformEV2架构的增强版，该增强版融合了卷积和自注意力的优点。在这个架构中，作者提出了一种改进的Efficient Additive Attention（MEAA），这是一种新颖的高效注意力机制，它将自注意力的二次时间复杂度降低，以捕捉重要的全局时空特征，从而减轻上述瓶颈。据作者所知，这是首次在视频暴力检测的背景下研究结合了卷积、自注意力以及改进的Efficient Additive Attention机制的模型。

作者的贡献如下：

作者提出了CUE-Net，这是一种新颖的视频暴力检测分析架构，它融合了一种改进版的UniformEV2架构以及Modified Efficient Additive Attention（MEAA），这是一种新颖的注意力机制，用于捕捉重要的全局时空特征。
作者在视频输入主学习算法之前，根据检测到的人数引入了一种空间裁剪机制，使方法聚焦于暴力发生的区域，同时不丢失重要的周围信息。
作者在RWF-2000和RLVS数据集上的结果创造了新的最先进水平，超过了最近发布的方法。

2 Related Work

本节概述了当前针对VD的最先进方法，并将在暴力检测背景下使用的不同方法分为作为动作识别任务与异常检测任务的两类。

Deep Learning Architectures for Violence Detection using Anomaly Detection

在异常检测场景中，暴力事件被视为偏离日常正常事件的稀缺异常事件。算法学习表征正常事件的特征，而暴力检测是基于检测不在正常分布中的事件。然而，在实际中，正常行为与异常行为之间的界限可能模糊。在现实情况下，根据不同条件，相似的行为可能是正常的也可能是异常的，例如，拳头撞击的动作在友好击拳中是正常的，但在暴力一拳中则是异常的[21, 31]。[27]的工作提出通过深度多实例学习（MIL）框架来学习异常，将视频视为一个包含每个视频短片段/剪辑的包，每个包中的实例。

然而，[28]认为，在数据中占主导地位的正常（非暴力）实例在很大程度上影响了异常实例的识别，尤其是当异常事件是微妙的异常，与正常事件相比仅显示出很小的差异时。当试图将VD问题置于异常检测的背景下时，通过主要关注正常情况的外观学习，而不是关注暴力行为发生的上下文来识别暴力（异常）事件。通常，暴力也取决于上下文以及场景中发生的行为。以这种方式训练来检测异常的模型可能不足以理解某些暴力行为发生的上下文，因此可能无法很好地泛化，因为它们的主要任务不是学习暴力事件的具体上下文特征[3]。

Deep Learning Architectures for Violence Detection in an Action Recognition Context

[30]的工作首次使用了3D-CNN与softmax分类器进行暴力检测。作为一个预处理步骤，首先识别出有人存在的帧，基于这样的前提：暴力行为只会在有人在场时发生。然后，3D-CNN从过滤后的帧中提取时空特征，并通过softmax层对结果进行分类。[26]在动作识别空间中引入了一种新颖的方法，通过学习使用人体骨架点之间的人际关系来进行暴力检测。

与之前的参考文献不同，[26]从视频中提取人体骨架序列，构建了3D骨架点云，并使用图卷积网络（Graph CNNs）将这些3D骨架点云视为非欧几里得图进行交互学习。[26]是首批在真实世界监控暴力检测数据集（RWF-2000）上评估性能的论文之一，而几乎所有之前的文献都是在非监控数据集上进行评估，如曲棍球打斗数据集。[8]引入了一种新颖的深度架构，包括两个同时进行的流水线，一个使用姿态估计模型提取人的骨架，另一个估计帧之间的动态时间变化，两个流水线的输出通过加法融合在一起，即使其中一个输入提供零值信号也能传递信息。

在RWF-2000数据集上，当前最先进的暴力检测方法依赖于视频Swin Transformer。这项工作采用了一种方法，基于帧的颜色、纹理和运动特征，使用颜色直方图、灰度共生矩阵和光流从视频中提取关键帧。然后，视频Swin Transformer从处理视频的小块开始，逐渐将它们融合到更深层次的 Transformer 层中，在时空背景下创建分层表示。这种方法使得从局部到全局上下文中聚集特征成为可能。

总之，使用动作识别来构建暴力检测问题比异常检测具有优势。最近的文献更多地关注提取暴力动作的丰富和代表性特征，并为了从正常活动中分离出暴力动作而获得更好的上下文理解。

3 Proposed Method

在本节中，作者首先阐述作者的工作动机，然后详细讨论作者提出的CUE-Net方法。

动机：作者的工作从动作识别文献中获得灵感，因为它为视频动作识别提供了一个有效的监督方法。在动作识别领域，引入了一种新颖的深度架构，称为统一 Transformer （UniFormer），它通过同时实现卷积和自注意力模块，简洁地整合了3D卷积和时空自注意力的优点，以在计算复杂度和准确性之间取得平衡。

后来，统一器版本2（UniformerV2）架构修改了之前统一器架构中的这些模块，以同时实现并在 Pipeline 末端融合，以捕捉相关的时空特征。此外，UniformerV2利用预训练的ViT嵌入来初始化架构的某些部分，以便更好地利用来自大型图像数据集的预训练知识。

然而，自注意力与序列长度的二次计算复杂度相关，这使得处理如视频中 Token 的长序列具有挑战性。为了缓解这个问题，[24]引入了一种重新设计的注意力机制，名为高效加性注意力，如图1（a）所示。这个提出的机制使用Key-值交互，用元素乘法和线性变换替换昂贵的矩阵乘法操作。然而，据作者所知，这些方法尚未被研究用于暴力检测任务。这为作者提供了一个修改和增强所讨论概念的机会，以创建一个改进的、定制的解决方案，用于暴力检测问题。

CUE-Net Architecture

作者介绍了作者的新颖架构，即空间裁剪增强型统一器V2与改进的效率加性注意力网络（CUE-Net），如图2所示，用于视频中的暴力检测。该架构包含五个主要组件，分别为：(a) 空间裁剪模块；(b) 3D卷积 Backbone 网络；(c) 局部统一块V2；(d) 全局统一块V3；以及(e) 融合块，这些组件的灵感来源于前一段中讨论的激励因素。

3.1.1 Spatial Cropping Module

进行视频空间裁剪的动机是基于观察到的暴力行为通常是在两个人或更多人之间发生的。作者选择提取行人，并使用包含行人的最大边界框来空间裁剪视频帧，这样既不会丢失围绕行人的信息，又能通过移除行人不在的环境部分来最大化关注的重要区域。作者选择不进行时间上的裁剪，以避免因未检测到行人而造成的信息丢失。

当视频

\mathbf{X}\in\mathbb{R}^{T\times H\times W\times c}

（其中

、

和

分别代表视频帧的时间维度、高度、宽度和颜色通道）输入到这个空间裁剪模块时，为了检测行人，作者使用了YOLO（You Only Look Once）V8算法，该算法在单次传递中使用基于CNN的架构对物体进行分类，其中整个图像作为输入。算法1详细阐述了视频中最大边界框的空间裁剪过程。如果检测到多个行人，它将输出

\mathbf{X}^{\prime}\in\mathbb{R}^{T\times H\times W\times c}

，这是空间裁剪后的视频。如果只检测到一个人或没有人，

\mathbf{X}^{\prime}

将是整个初始视频，以确保该方法不会遗漏任何信息。

3.1.2 3D Convolution Backbone

随后，之前模块裁剪的空间视频帧

\mathbf{X}^{\prime}

作为输入传递到3D卷积 Backbone 网络中，在这里使用3D卷积（即3

\times

16）将输入视频编码并投射为时空标记

\mathbf{V}^{0}\in\mathbb{R}^{T\times H\times W\times d}

，（

，

和

分别代表时间维度、帧的高度和宽度以及隐藏维度）。之后，根据原始的ViT设计，执行空间下采样16

\times

，然后进行时间下采样2

\times

以减少时空分辨率。在整个架构模块中，保持编码的隐藏维度

不变，以方便残差连接。在这一阶段结束时，处理过的输入被发送到Local UniBlock V2。

3.1.3 Local UniBlock V2

局部UniBlock V2被特别引入以在作者的CUE-Net架构中建模局部依赖关系。这是由于作者进行的消融研究，从UniformerV2架构中未经修改地提取出来的。在这里，使用了两种类型的多头关系聚合器（MHRA）单元，即局部时间MHRA（LT_MHRA）和全局空间（GS_MHRA），以及前馈网络（FFN）模块。此块的输入是

\mathbf{V}^{0}\in\mathbb{R}^{T\times H\times W\times d}

，即前一个3D卷积 Backbone 网络的输出，此块通过FFN后输出

\mathbf{V}^{3}\in\mathbb{R}^{T\times H\times W\times d}

。

局部UniBlock V2内的处理可以表示为：

\mathbf{V}^{1} =\mathbf{V}^{0}+\mathrm{LT\_MHRA}\left(\mathrm{LN}\left(\mathbf{V} ^{0}\right)\right), \tag{1}

\mathbf{V}^{2} =\mathbf{V}^{1}+\mathrm{GS\_MHRA}\left(\mathrm{LN}\left(\mathbf{V }^{1}\right)\right),

(2)

\mathbf{V}^{3} =\mathbf{V}^{2}+\mathrm{FFN}\left(\mathrm{LN}\left(\mathbf{V}^{2 }\right)\right), \tag{3}

其中

\mathrm{LN}(\cdot)

表示层归一化。一个多头关系聚合器（MHRA）单元连接多个头，可以描述为：

在作者的工作中，第

个 Head 的关联聚合器由

\mathrm{S}_{n}(\cdot)

表示，其中

\mathbf{B}_{n}

表示表征 Token 间关系的亲和力矩阵，并且在LT_MHRA和GB_MHRA中相应地改变

\mathbf{B}_{n}

以达到各自的目标。线性投影由

\mathrm{L}_{n}(\cdot)

表示。使用一个可学习的融合矩阵

\mathbf{M}\in\mathbb{R}^{d\times d}

，在连接由

[...]

表示的 Head 时整合

个 Head 。

LT_MHRA：局部时间MHRA（LT_MHRA）接收来自3D卷积 Backbone 网络的输入

\mathbf{V}^{0}

，在上一段中描述的亲和力矩阵

\mathbf{B}_{n}

的帮助下实现深度卷积（DWConv），因为该单元的目标是减少局部时间冗余并从局部时空上下文中学习局部表示。该单元输出

\mathbf{V}^{1}\in\mathbb{R}^{T\times H\times W\times d}

。

GT_MHRA：全局时间MHRA（GT_MHRA）接收LT_MHRA单元的输出

\mathbf{V}^{1}

，并在亲和力矩阵

\mathbf{B}_{n}

的帮助下实现来自ViT架构[7]的多 Head 自注意力（MHSA），因为该单元的目标是利用从大型图像数据库中学到的ViT的丰富图像预训练。为了实现这一目标，GT_MHRA单元使用沿时间维度膨胀的图像预训练ViT嵌入进行初始化，并且该单元的输出为

\mathbf{V}^{2}\in\mathbb{R}^{T\times H\times W\times d}

。

FFN：前馈网络（FFN）模块接收GT_MHRA的输出

\mathbf{V}^{2}

，并包含两个由GeLU[10]激活函数分隔的线性投影。FFN在Local UniBlock V2的最后实现，以输出

\mathbf{V}^{3}\in\mathbb{R}^{T\times H\times W\times d}

。

3.1.4 Global UniBlock V3

全局UniBlock V3被特别引入，用于在作者的CUE-Net中对时空尺度上的全局长距离依赖关系进行建模。这个全局UniBlock V3由三个基本单元组成，分别是动态位置嵌入（DPE）单元、改进的有效加性注意力（MEAA）单元，以及最终的前馈网络（FFN）模块。这个块的输入是

\mathbf{V}^{3}\in\mathbb{R}^{T\times H\times W\times d}

，它是前一个局部UniBlock V2的输出，而全局UniBlock V3在FFN单元的末端输出

\mathbf{V}^{6}\in\mathbb{R}^{1\times d}

。这个块内的处理过程可以用以下方式表示，其中

\mathrm{LN}(\cdot)

表示层归一化：

\mathbf{V}^{4} =\mathbf{V}^{3}+\mathrm{DPE}\left(\mathbf{V}^{3}\right), \tag{6}

\mathbf{V}^{5} =\mathrm{MEAA}\left(\mathrm{LN}\left(\mathbf{q}\right),\mathrm{ LN}\left(\mathbf{V}^{4}\right)\right),

(7)

\mathbf{V}^{6} =\mathbf{V}^{5}+\mathrm{FFN}\left(\mathrm{Norm}\left(\mathbf{V}^ {5}\right)\right). \tag{8}

DPE：动态位置嵌入（DPE）单元接收来自前一个局部UniBlock V2的输入

\mathbf{V}^{3}

，并使用简单的3D深度时空卷积（DWConv）与零填充来编码视频在时空上的位置信息，因为视频在空间和时间上都是变化的。DPE块的输出是

\mathbf{V}^{4}\in\mathbb{R}^{T\times H\times W\times d}

。

修改后的高效加性注意力（MEAA）: 在修改后的高效加性注意力（MEAA）单元中，通过建模可学习 Query

\mathbf{q}\in\mathbb{R}^{1\times d}

与来自DPE单元的所有时空标记

\mathbf{V}^{4}

之间的关系，将这个 Query

\mathbf{q}

转换为视频表示，借助这种修改版的高效加性注意力。如图3（b）所示，可学习的 Query 向量

\mathbf{q}

通过两个线性层投影到 Query (

\mathbf{q}^{*}

) 中，同时

\mathbf{V}^{4}

投影到Key (

\mathbf{K}

) 中，其中

是标记长度，

是隐藏维度的数量。之后，另一个可学习的参数向量

\mathbf{w}_{a}\in\mathbb{R}^{d}

与 Query

\mathbf{q}^{*}

相乘，目的是学习 Query 的注意力权重。这导致输出

\alpha\in\mathbb{R}^{1}

，可以认为是全局注意力 Query 向量：

\alpha=\Big{(}\frac{\mathbf{q}^{*}\cdot\mathbf{w}_{a}}{\sqrt{d}}\Big{)} \tag{9}

随后，使用学习到的注意力权重导出全局 Query 向量

\mathbf{q}^{g}\in\mathbb{R}^{1\times d}

：

\mathbf{q}^{g}=\;\alpha\odot\mathbf{q}^{*}, \tag{10}

其中

\odot

表示逐元素乘法。

最后，在全局 Query 向量

\mathbf{q}^{g}\in\mathbb{R}^{1\times d}

与Key矩阵

\mathbf{K}\in\mathbb{R}^{n\times d}

之间进行逐元素乘法，以融合这两个实体，最终结果的维度为

\mathbb{R}^{n\times d}

。上述过程成本较低，与标记长度的线性复杂度相比，而获取自注意力具有二次复杂度。然后，将线性层应用于这个逐元素乘法，并从

\mathbf{q}^{*}

添加残差连接，以及最后的线性层以产生输出：

为了获得输出

\mathbf{V}^{5}\in\mathbb{R}^{1\times d}

，沿着

维度计算均值以得到一个整体表示。

FFN：与前面Local UniBlock v2中的FFN模块类似，这个前馈网络（FFN）接收GT_MHRA模块的输出

\mathbf{V}^{5}

，由两个线性投影组成，中间通过一个GeLU 激活函数，在Global UniBlock V3的最后输出

\mathbf{V}^{6}\in\mathbb{R}^{1\times d}

。

3.1.5 Fusion Block

在CUE-Net架构的最后部分，一个融合块将全局UniBlock的最终token

\mathbf{V}^{6}\in\mathbb{R}^{1\times d}

与从局部UniBlock的最终输出

\mathbf{V}^{3}\in\mathbb{R}^{T\times H\times W\times d}

中提取的最终视频类token

\mathbf{V}^{3^{\prime}}\in\mathbb{R}^{1\times d}

进行集成。这些token

\mathbf{V}^{6}

和

\mathbf{V}^{3^{\prime}}

动态融合得到

\mathbf{Z}

如下：

\beta^{\prime} =Sigmoid(\beta), \tag{12}

\mathbf{Z} =(1-\beta^{\prime})\odot\mathbf{V}^{6}+\beta^{\prime}\odot \mathbf{V}^{3^{\prime}}. \tag{13}

使用另一个可学习的参数

\beta\in\mathbb{R}^{1\times d}

通过Sigmoid函数传递。最后，通过将

\mathbf{Z}

传递到一个全连接的投影层，得到目标类

。

4 Experiments and Results

Datasets

到目前为止，在VD领域最具挑战性的数据集是Real-World Fighting (RWF-2000)数据集[4]和Real Life Violence Situations (RLVS)数据集[25]，它们包含了现实生活中打斗场景的视频片段。但是在这两个数据集中，只有RWF-2000数据集包含专有的监控视频。

4.1.1 Real World Fighting (RWF-2000) Dataset

真实世界打斗（RWF-2000）数据集在2020年被引入，它是迄今为止最全面的数据集，包含了完全通过监控视频获取的真实世界打斗场景。一个典型的暴力例子可见图1（b）。RWF-2000包含了2000个由监控摄像头从YouTube上收集的真实世界场景中捕获的剪辑视频。每个视频都裁剪至5秒钟，其中包含打斗发生的时间段。该数据集平衡了1000个暴力视频和1000个非暴力视频，并预设了80%-20%的训练-测试划分，且已彻底检查了划分之间的数据泄露问题。

4.1.2 Real Life Violence Situations (RLVS) Dataset

真实生活暴力情境（RLVS）数据集[25]包含2000个视频片段，其中1000个是暴力视频，另外1000个是非暴力视频，这些视频从YouTube上收集。这些视频包含许多在不同的环境和条件下真实的街头打斗情境，平均长度为5秒，来自不同的来源，如监控摄像头、电影、视频录像等。与RWF-2000类似，这个数据集也创建了一个80%-20%的训练-测试分割。

Implementation Details

作者的算法使用PyTorch实现，采用AdamW优化器和余弦学习率调度，起始学习率为1e-5，并使用交叉熵损失，从原始UniformEV2架构[16]的训练方法中汲取灵感。为了初始化Local UniBlocks中的全局MHRA单元，作者使用了来自CLIP-ViT模型的预训练嵌入，如[16]所述，这在其架构中由于视觉-语言对比学习的良好表示而产生了最佳结果。所有模型都训练了50个周期，每个周期结束后保存验证效果最好的模型。作者使用了NVidia A100 GPU，内存为40GB/80GB。

对于数据增强，作者使用了[5]提出的RandAugment。作者表现最佳的CUE-Net架构包含354M个参数，选择的输入帧数（

）为64，调整后的帧高（

）和宽（

）为336

\times

336，在RGB通道（

c=3

）中。

Results

在本节中，作者对CUE-Net架构与其他领先架构进行了深入分析，比较了在RWF-2000和RLVS这两个不同数据集上的表现。遵循其他研究者的做法，作者也使用分类准确率作为评价指标来评估性能，因为所训练和测试的数据集都是平衡的。

表1和表2分别展示了作者的CUE-Net架构与其他最先进的方法在RWF-2000和RLVS数据集上的结果比较。在分类准确率方面，作者的CUE-Net架构优于所有其他方法。在RWF-2000数据集上，作者的CUE-Net架构达到了94.00%的准确率，在RLVS数据集上，它记录了99.50%的准确率，在两个数据集上都创造了新的最先进水平。

4.3.1 Visual Analysis of Results

RWF-2000数据集：对于RWF-2000测试集，作者对误分类的实例进行了视觉评估。由于准确度为94.00%，只有24个误分类实例，其中15个非暴力视频被误分类为暴力视频，8个暴力视频被误分类为非暴力视频。这表明作者的模型更能学习到暴力动作标记的细节。支持这一观点的是，作者能够识别出图1（c）中显示的一个视频，其中一个人做出拳击动作但并非真正参与打斗。CUENet将这个非暴力视频误分类为暴力视频。

RLVS数据集：作者还对RLVS测试集中的误分类实例进行了视觉评估。由于作者的准确度为99.5%，只有2个误分类视频，其中1个非暴力视频被误分类，反之亦然。在分析这2个误分类视频时，作者注意到图1（d）所示的视频被标记为暴力，并被误分类，但实际上是两个球员在打网球，没有任何暴力，因此这是一个被错误标记的非暴力视频实例，纠正这一错误后，作者模型的真正准确度提高到了99.75%。这强烈表明CUE-Net已经学会了暴力动作的动态。

Ablation Study

1 Ablation on Spatial Cropping, Self-Attention and MEAA in Local UniBlock and Global UniBlock

进行了四项消融实验，以探索如表3所示的空间裁剪和MEAA模块的使用。首先，作者移除了空间裁剪模块，并在局部单一块和全局单一块中使用自注意力。在表中的第二行，作者添加了空间裁剪，这增强了模型的性能。在最后一行，作者将全局单一块中的自注意力替换为修改后的高效加性注意力（MEAA），形成了作者的完整CUE-Net模型。这使准确度提高了1.5%。作者推测传统的自注意力可能在尝试捕获代表性特征时存在信息过载，尤其是时间上的。相比之下，使用更简单的MEAA，全局单一块在识别暴力动作时可能更容易学习到时间上的判别特征。表中的其余行探讨了在局部单一块中使用MEAA。

结果显示，算法性能变得随机，如表3所示。在这种设置中，局部单一块没有用预训练的ViT嵌入进行初始化，因此表现不佳。同样，从表3中可以看出，当使用MEAA代替自注意力时，FLOPs计数减少，表明计算复杂度降低。因此，作者提出的方法，在局部单一块中使用自注意力，在全局单一块中使用MEAA，在降低FLOPs计数的同时，性能最佳。

4.2 原始高效加性注意力与修改后高效加性注意力（MEAA）的消融研究

作者还尝试在CUE-Net架构中的全局单一块里使用原始高效加性注意力，使用n维 Query 矩阵而不是1维 Query 向量，但其性能不如MEAA，准确度低了1%，如表4所示。作者还注意到，当使用原始高效加性注意力时，GPU内存消耗显著更高（47GB相比之下是35GB）。因此，作者可以断言，在内存使用方面，作者的MEAA相对于原始高效加性注意力具有竞争优势。

5 Conclusion

本文介绍了CUE-Net，一个用于视频暴力检测的新框架，该框架采用了一种改进的UniformerV2架构进行裁剪。CUE-Net使用基于卷积的机制来捕捉局部特征，并使用注意力机制来捕捉融合了一种名为Modified Efficient Additive Attention的新颖注意力机制的全局时空特征。在视频送入主要处理算法之前，作者根据检测到的人数在空间上进行了视频裁剪，以使该方法聚焦于暴力发生的区域。

作者还提出了在CUE-Net架构的Global UniBlock V3中使用Modified Efficient Additive Attention而不是自注意力来捕捉重要的全局时空特征，因为它被证明是有效且高效的。作者提出的CUE-Net算法在RWF-2000和RLVS数据集上取得了最新的先进性能，超过了大多数最近发布的方法。

本文参与?腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2024-05-05，如有侵权请联系?cloudcommunity@tencent.com 删除

架构