多才多艺模型出现 | 捕捉每一个细节，多任务 + 多模态 + 自监督等Trick都不在话下！

集智书童公众号

发布于 2024-04-30 18:22:19

820

发布于 2024-04-30 18:22:19

点击下方卡片，关注「集智书童」公众号

人类的交流是多模态的；面对面互动包括听觉信号（言语）和视觉信号（面部动作和手势）。因此，在设计基于机器学习的面部表情识别系统时，利用多种模态至关重要。另外，鉴于捕获人类面部表情的视频数据量日益增长，这些系统应利用未标注的视频原数据，而不需要昂贵的标注。因此，在这项工作中，作者采用了多任务多模态自监督学习方法来识别人脸野外视频数据中的面部表情。作者的模型结合了三种自监督目标函数：首先，一个多模态对比损失，它将同一视频的多种数据模态在表示空间中拉在一起。其次，一个多模态聚类损失，它在表示空间中保留输入数据的概念结构。最后，一个多模态数据重建损失。作者对三个面部表情识别基准上的多模态多任务自监督学习方法进行了全面研究。为此，作者研究了在学习过程中不同自监督任务组合对面部表情识别下游任务的性能影响。作者的模型ConCluGen在CMU-MOSEI数据集上超过了多种多模态自监督和完全监督的 Baseline 。作者的结果显示，多模态自监督任务为面部表情识别等具有挑战性的任务带来了较大的性能提升，同时也减少了对手动标注的需求。如需获取代码，请关注公众号私信【代码地址】。

1 引言

面部表情识别（FER）是日常人类社交互动以及人机互动中成功进行的基本任务[1]。根植于人类感知的情境敏感和自上而下的方式，作者如何感知一个表情会随着（情感）情境和先验知识的变化而变化[7, 18, 53]，以及其他各种因素[58]。相同的面部表情根据情境和上下文的不同可能会被感知为不同的含义[5, 16, 47]。Maier等人[39]最近的一项综述强调，为了开发与人类感知相一致的FER系统，作者应该考虑社会知识以及情境线索。从人类的角度来看，情境本质上是多模态的，不仅仅是视觉上可感知的，如同之前在计算机视觉中常处理的那样[31, 33, 59]。

在过去的十年里，深度学习方法通过利用互联网上每天产生的海量数据，推动了人工智能领域的发展。这些数据中有很大一部分是多模态的，比如视频。尽管现实世界（野生环境）的视频数据有助于训练更深的机器学习模型，但它也带来了多重挑战。这样的数据通常是不平衡的、含噪声的，最重要的是，未标注的。因此，深度学习和计算机视觉的研究转向了自监督学习算法，这些算法旨在不需要手动标注过程的情况下学习丰富的数据表征。自监督学习是一种无监督表征学习的形式，其标签是从数据本身提取的，使得能够高效地进行特征学习。在自监督学习阶段之后，得到的模型可以用于或适应于下游任务，例如面部表情识别。鉴于捕捉人类面部表情的视频数据日益增多，自监督可能允许从原始未标注的视频样本中学习数据表征。然而，如上所述，面部表情识别（FER）是一项具有挑战性的任务，它需要整合多模态上下文以与人类的感知水平相一致，因为人们在不同的模态（视觉、口头和其他方式）中表达他们的情感。因此，不仅要在学习算法中包含这些多个模态，还需要有效地模拟这些模态之间的互动，以增强面部表情识别。

在这项工作中，作者提出了一种针对面部表情识别的多任务多模态自监督方法。采用多个任务进行自监督，可以学习到更具信息性的数据表征，因为每个任务都增强了学习特征中的某一方面，而这些任务的整合则允许在产生的嵌入空间中捕捉到这些互补性质。

贡献。本文的主要贡献如下：

据作者所知，作者是首次将多任务多模态自监督方法应用于面部表情识别（FER）。

作者的多模态多任务自监督模型_ConCluGen_（见图1）在FER上的表现超过了多种自监督和全监督模型。

作者提供了关于FER的多种自监督学习方法的全面研究。

作者将本研究中提出的所有自监督模型（多模态和单模态）公开提供给研究界，作为未来研究的基础线。

2 Related work

Self-Supervised Learning

在过去的几年里，自监督学习方法推进了不同领域的研究，特别是在计算机视觉应用中，由于社交媒体，如YouTube视频、TikTok和电视剧的快速增加，未标注数据的数量急剧增长。原因是自监督学习方法可以在不需要标注的情况下，为输入数据学习健壮的特征表示。这类方法从数据本身自动为预训练任务生成标签[32]。已经开发出了不同类型的自监督方法：有些是预测性的（也称为生成性）[20]，即从数据的另一部分预测和/或生成数据的一些部分。其他的则是对比性的，旨在预测数据样本之间的关系[10]。一些方法利用单一模态[41]，而其他方法则采用多模态[54]。在本文中，作者研究了不同的自监督方法，并展示了特别是在复杂的计算机视觉应用中，如FER，模型可以从在自监督学习方法中利用多模态数据中受益。

实例级对比学习。 实例级对比学习已经在多个领域被用来提高从无标签数据学习的表示形式[10, 40]。这类算法的主要目标是拉近相似目标的表示，并将不相似的目标推得远远的。尽管实例级对比方法在多个领域取得了最近的成就，但它们仍然存在一些不足，比如类别碰撞[60]。在下游分类任务中，实例级对比学习方法丢失了来自同一类别的图像之间的语义相似性。为了减轻这种影响，一些研究使用基于图的弱监督方法将相似的实例拉得更近[60]。其他研究则使用领域知识为对比学习创建在语义上有所感知的正负样本集[22]。此外，一些研究专注于引入特殊的增强技术，这些技术可以直接提高特定下游任务的性能，而不是专注于自监督预训练模型的泛化性[51]。此外，Doersch和Zisserman[15]研究了用于视觉表示学习的多任务自监督学习。他们共同学习了四种简单但多样的自监督方法（运动分割、着色、示例任务和相对位置）。在本文中，作者研究了不同的自监督方法用于FER。作者还研究了多任务自监督学习，但与[15]中的组合不同。作者还更加关注多任务自监督学习中的多模态性。

多模态自监督学习。 自监督学习技术也推动了多模态学习的发展。在这样的环境中，模型可以利用不同的数据模态来学习健壮的表示。一些研究在多模态环境下应用对比技术，用于多种模态一起[56]，或者像CLIP [46]那样仅从两种模态学习，CLIP最初用于文本和音频表示学习，或者从视觉和音频中学习[42]。此外，Taleb等人[55]将多模态自监督方法应用于遗传模态，而Franceschini等人[19]在视频中利用面部标志作为FER的额外模态。另外，一系列研究工作[2, 4, 9]支持多模态对比学习与多模态聚类相结合，以确保在嵌入空间中语义相似的模态能彼此靠近表示。在本文中，作者遵循相同的方向，在ConCluGen和ConClu模型中（第3.6节）。据作者所知，作者是首个将此类技术应用于FER的。

Facial Expression Recognition

面部表情识别（FER）是计算机视觉中的一个挑战性任务，原因有多种，比如它与其他面部特征（如身份[34]）的重叠，以及多个表情标签之间的重叠[6]。一些研究专注于从输入图像中分离出表情特征与其他面部特征[21, 35]。其他研究则关注于学习FER的多模态表示。在[52]中，Siriwardhana等人引入了一个用于FER的多模态深度学习模型，该模型具有多模态SSL特征晚期融合机制。所提出的技术基于 Transformer 和注意力机制。作者的模型与[52]的不同之处在于，作者为所有输入模态学习一个联合表示空间。在[19]中，作者们使用了受CLIP[46]启发的成对对比目标函数，从与文本、音频和面部标志配对的视频数据中学习无监督的多模态表示。作者的模型与[19]的不同之处在于，作者通过学习一个多模态聚类目标来保持所有模态之间的语义相似性，该目标规范了成对多模态对比目标。

其他研究专注于晚期融合技术，以高效地将来自不同输入模态的不同表示融合为一种多模态表示，这种表示不含冗余信息。后者在预测任务中不易过拟合[38]。据作者所知，作者是首次研究用于FER的多任务多模态自监督学习。在这项工作中，作者研究了多个自监督损失的结合，包括带有聚类的多模态对比学习、基于实例的对比学习和生成性自监督学习。

3 Methodology

在本节中，作者将解释在本研究中作者采用的自我监督预训练技术。然后，作者将解释作者的多任务多模态自我监督模型。

Problem Formulation

每个输入都是一个由视频片段作为一系列帧组成的表达单元

V=(\mathbf{v}_{1},\dots,\mathbf{v}_{\mathbf{n}})

，相应的音频频谱

A=(\mathbf{a}_{1},\dots,\mathbf{a}_{\mathbf{m}})

，以及相应的文本字幕

T=(\mathbf{t}_{1},\dots,\mathbf{t}_{\mathbf{k}})

。任务首先是采用无监督方式学习输入的丰富表示，然后预测相应输入视频的面部表情类别。由于作者方法的无监督性质，作者可以构建一个不需要大量数据集的面部表情识别（FER）模型。作者在三个数据集上评估以下自监督方法在多标签和单标签FER中的应用。注意，预训练和下游任务都是独立的。每个输入实例

由三元输入

(\mathbf{v}_{1},\mathbf{t}_{1},\mathbf{a}_{\mathbf{i}})

表示，其中

i\in\{0,N\}

且

是输入样本的总数。作者通过以下方式，使用三个单独的编码器将每个输入模态映射到低维空间来学习每个模态的表示：一个视频编码器

F_{v}(\mathbf{v})\Rightarrow\mathbf{D}_{\mathbf{v}}

，它将每个视频帧序列映射到低维

\mathbf{D}_{\mathbf{v}}

；一个文本编码器

F_{t}(\mathbf{t})\Rightarrow\mathbf{D}_{\mathbf{t}}

，它将每个文本字幕序列映射到低维

\mathbf{D}_{\mathbf{t}}

；最后，一个音频编码器

F_{a}(\mathbf{a})\Rightarrow\mathbf{D}_{\mathbf{a}}

，它将每个音频频谱序列映射到低维

\mathbf{D}_{\mathbf{a}}

。

为了学习对比表示，作者将

\mathbf{D}_{\mathbf{v}}

，

\mathbf{D}_{\mathbf{t}}

和

\mathbf{D}_{\mathbf{a}}

表示映射到三个单独的投影头（每个模态一个），每个投影头由两个线性层组成，如下：

J_{\mathbf{v}}(\mathbf{D}_{\mathbf{v}})\Rightarrow\mathbf{P}_{\mathbf{v}}

，

J_{\mathbf{t}}(\mathbf{D}_{\mathbf{t}})\Rightarrow\mathbf{P}_{\mathbf{t}}

，和

J_{\mathbf{a}}(\mathbf{D}_{\mathbf{a}})\Rightarrow\mathbf{P}_{\mathbf{a}}

。之后，为了学习多模态聚类，作者将投影头的输出映射到一个层聚类头

（见图1），其中

G(\mathbf{D}_{\mathbf{v}})\Rightarrow\mathbf{g}_{\mathbf{v}}

，

G(\mathbf{D}_{\mathbf{t}})\Rightarrow\mathbf{g}_{\mathbf{t}}

，和

G(\mathbf{D}_{\mathbf{a}})\Rightarrow\mathbf{g}_{\mathbf{a}}

。图1描述了此架构的概览。作者在此处将编码器命名为

_Representation Head_。

请注意，由于作者专注于改进从

获得的表示，图1中的特征提取网络是完全固定的。这意味着在前面的段落中，

(\mathbf{v}_{1},\mathbf{t}_{1},\mathbf{a}_{\mathbf{i}})

不是原始数据，而是从2D和3D ResNet（[24]和[3]）、DistilBERT [48]以及DAVENet [23]分别提取的固定输出特征。

Instance-Level (Visual Only) Contrastive Learning

实例级对比学习方法是一种自监督学习方法，通过区分实例对来学习未标注数据的表示。它们在嵌入空间中使相似的实例彼此更接近，而不同的实例则相隔较远。实例级对比学习方法的质量受到数据增强质量的影响。这种情况是因为每个实例的正样本对是该实例的增强版本，而负样本对是训练批次中的其他实例。为了对视频数据实施实例级对比学习方法，作者遵循了Qian等人[45]的工作中的空间增强过程，这一过程在时间维度上是一致的。因此，作者将通过在视频间而不是帧间生成随机的空间增强来保留帧之间的运动信号。作者应用了以下增强方法：随机裁剪并调整大小、随机水平翻转、颜色抖动、随机灰度以及高斯模糊。最后，作者应用了以下给定的InfoNCE损失：

（此处为公式部分，按您的要求保持原始输出）

\ell_{\text{NCE}}=-\frac{1}{N}\sum_{i=1}^{N}\log\frac{\exp(sim(\mathbf{P}_{ \mathbf{v}}^{i},\mathbf{P}_{\mathbf{v}}^{{}^{\prime}i})/\tau)}{\sum_{k=1}^{2K}1 _{[k\neq i]}\exp(sim(\mathbf{P}_{\mathbf{v}}^{i},\mathbf{P}_{\mathbf{v}}^{k})/ \tau)} \tag{1}

其中

\tau

是正的温度参数，

\mathbf{P}_{\mathbf{v}}

是视频帧的表现形式，而

sim

是一个相似性函数。通过最小化

\ell_{\text{NCE}}

，作者最小化了实例

\mathbf{P}_{\mathbf{v}}

与其增强版本

\mathbf{P}_{\mathbf{v}}^{{}^{\prime}}

之间的距离，并最大化了其他实例之间的距离。

Multi-Modal Contrastive Learning

为了训练一个能够将所有模态输入投影到相同嵌入空间的网络，作者学习了在每个输入模态之间的一种 Mask 边缘 Softmax (MMS) 损失[26]。 Mask 边缘 Softmax (MMS) 损失最大化正确配对模态之间的相似性，最小化错误配对模态之间的相似性。在两种模态的情况下，文本和视频帧，作者计算MMS损失如下：

L_{MMS_{vw}}=L_{ww}+L_{vw} \tag{2}

L_{vw}=-\frac{1}{N}\sum_{i=1}^{N}\log\frac{\mathrm{e}^{\mathbf{P}_{\mathbf{v}_{ 1}}\cdot\mathbf{P}_{\mathbf{w}_{i}}-\delta}}{\mathrm{e}^{\mathbf{P}_{\mathbf{v} _{1}}\cdot\mathbf{P}_{\mathbf{w}_{i}}}\sum_{\mathrm{j=1,j\neq i}}^{\mathrm{N}} \mathrm{e}^{\mathbf{P}_{\mathbf{v}_{j}}\cdot\mathbf{P}_{\mathbf{w}_{i}}}} \tag{3}

L_{wv}=-\frac{1}{N}\sum_{j=1}^{N}\log\frac{\mathrm{e}^{\mathbf{P}_{\mathbf{v}_{ \mathbf{j}}}\cdot\mathbf{P}_{\mathbf{w}_{j}}-\delta}}{\mathrm{e}^{\mathbf{P}_{ \mathbf{v}_{\mathbf{j}}}\cdot\mathbf{P}_{\mathbf{w}_{j}}}\sum_{\mathrm{i=1,j \neq i}}^{\mathrm{N}}\mathrm{e}^{\mathbf{P}_{\mathbf{v}_{i}}\cdot\mathbf{P}_{ \mathbf{w}_{j}}}} \tag{4}

在三种模态输入的情况下，作者为每对模态计算MMS损失，最终的损失是所有配对模态之间MMS损失的总和。

L_{MMS}=L_{MMS_{vh}}+L_{MMS_{vw}}+L_{MMS_{hw}} \tag{5}

Generative Self-Supervised Learning

在这项工作中，作者研究了重建目标函数对从未标注数据中学到的表征的影响。无论是作为代理任务中的唯一目标函数，还是作为多任务自监督训练的一部分。由于训练数据是多模态的，作者遵循与Chen等人[9]类似的思路，并对每种模态分别进行重建。最终的重建损失是所有模态重建损失的之和。因此，作者有3个编码器-解码器模型，

Q_{f}

、

Q_{w}

和

Q_{h}

分别对应视频、文本和音频。每个解码器从相关的重建头接收一个特征表示

\mathbf{D}

。下面你可以看到视觉模态的重建损失：

L_{Rec_{\mathbf{v}}}=\text{MSE}(v,Q_{v}(\mathbf{D_{v}})) \tag{6}

重建损失是编码器-解码器模型输出特征与输入特征之间的均方误差（MSE）。这种损失惩罚网络生成与输入特征不同的输出（在本例中为特征）。在三种模态上的最终重建损失给定为：

L_{Rec}=L_{Rec_{v}}+L_{Rec_{h}}+L_{Rec_{w}} \tag{7}

Multi-Modal Contrastive Learning with Clustering

图1：多任务多模态自监督方法的架构概览。 Backbone 特征提取器按块处理输入模态，作者在时间域对这些特征进行平均。结果的时序特征存储在磁盘上，即 Backbone 网络是完全固定的。这个3层表示头生成作者想在下游训练中使用的表示。三个损失函数分别是：(a)重构损失，它分别重构每种模态的特征。(b)多模态对比损失，鼓励来自同一输入的模态在投影头中的表示更接近。(c)多模态聚类损失，它驱动样本的模态朝由k-means聚类计算出的质心方向移动。后者使用模态的平均值来计算这些质心。

该方法利用第3.3节中的多模态对比目标函数学习多模态表示，该目标函数鼓励同一实例的各模态在特征空间中彼此靠近。此外，它通过在多模态对比目标函数旁边学习多模态聚类目标函数来保持不同实例之间的相似性。引导多模态学习过程的目标函数包括两个损失：第一个是多模态对比损失（公式(5)），第二个是多模态聚类损失，下面将详细阐述。多模态聚类表示学习。

为了保持相似实例不同模态之间的相似性，作者制定了一个聚类目标函数，该函数最小化了相似模态之间的距离。为了创建聚类质心，作者遵循了近期工作[9]的类似方向，该方法在联合多模态表示上创建一个多模态质心，而不是为每个模态创建一个单独的质心。因此，通过使用聚类损失，作者鼓励相似视频（共享相似的语义信息）的音频、视觉和文本嵌入在特征空间中彼此更接近地表示。

如公式（8）所示，作者计算每个实例的多模态表示

\mathbf{R_{i}}

，它是与该实例相关的每种模态表示的平均值。如图1所示，聚类损失是在_Clustering Head_的输出上进行的，该输出是

（参见3.1节）。假设作者有三种模态（视频、文本和音频）作为输入，那么对于每个实例

，多模态表示

\mathbf{R}

的计算方法如下：

R_{i}(\mathbf{g}_{\mathbf{v}}^{i},\mathbf{g}_{\mathbf{t}}^{i},\mathbf{g}_{ \mathbf{a}}^{i})=(\mathbf{g}_{\mathbf{v}}^{i}+\mathbf{g}_{\mathbf{t}}^{i}+ \mathbf{g}_{\mathbf{a}}^{i})/3 \tag{8}

在估计了聚类质心

(\mathbf{C}_{1},\ldots,\mathbf{C}_{k})

之后，其中

是聚类的数量，作者通过在多模态表示

\mathbf{R}

上使用K-means最小化以下方程来估计多模态质心：

\sum_{j=1}^{k}\sum_{i=1}^{n}\left|\mathbf{R}_{i}^{(j)}-\mathbf{C}_{j}\right| \tag{9}

在这里，

\mathbf{R}_{i}^{(j)}

是属于以

\mathbf{C}j

为质心的聚类 j 的多模态表示。最后，作者学习多模态聚类损失，以最小化多模态表示

(\mathbf{R}_{1}^{(1)},\ldots,\mathbf{R}_{n}^{(k)})

与聚类质心

(\mathbf{C}_{1},\ldots,\mathbf{C}_{k})

之间的距离。这种损失更新所有模态编码器，鼓励模态嵌入在特征空间中彼此更接近。多模态聚类损失促使属于同一聚类的多模态表示更接近它们的质心，从而保持多模态表示之间的相似性。

\ell_{\text{Clu}}=-\frac{1}{N}\sum_{i=1}^{N}\log\frac{\mathrm{e}^{\mathbf{R}_{ i}^{j}\cdot\mathbf{C}_{j}-\delta}}{\sum_{k=1}^{K}\mathrm{e}^{\mathbf{R}_{i}^{j} \cdot\mathbf{C}_{k}}} \tag{10}

Multi-Task Self-Supervised Learning

在这一部分，作者分析以多任务自监督学习的方式学习丰富的多模态表征的能力。在这里，作者将同时学习多个自监督任务，无需监督，仅利用多模态数据的结构。多任务自监督学习的直觉是要充分利用大型未标注数据集的结构，这导致了丰富且更一般的表征学习。在这项研究中，作者探讨了以下多模态任务组合：

ConCluGen：在这个模型中，作者共同学习了三个自监督任务。第一个是跨模态对比学习。第二个是在线跨模态聚类。第三个是跨模态重建。引导ConCluGen模型学习过程的目标函数如下：

L_{ConCluGen}=L_{MMS}+L_{Clu}+L_{Rec}

(11)。

ConClu: 在这个模型中，作者共同学习了两个自监督任务。第一个是多功能对比学习。第二个是在线的多功能聚类。指导ConClu模型学习过程的目标函数如下：

L_{ConClu}=L_{MMS}+L_{Clu}

(12)。

ConGen: 在这个模型中，作者共同学习了两个自监督任务。第一个是多功能对比学习。第二个是多功能重建。引导ConClu模型学习过程的目标函数如下：

L_{ConClu}=L_{MMS}+L_{Clu}

(13)。

4 Experiments and Analysis

在本节中，作者评估了之前详细描述的自监督方法在三个面部表情识别数据集[6, 33, 44]上的表现。首先，作者介绍了用于评估作者工作的数据集。然后，作者明确了评估指标（具体实现细节见附录）。最后，作者分析和讨论了作者的结果。

Datasets

VoxCeleb2。作者在大规模人脸数据集VoxCeleb2 [11]上对所有方法进行预训练，该数据集并未为面部表情识别（FER）做标注。VoxCeleb2包含145,000个名人视频，也包含音频和字幕。由于视频已经集中在人脸部分，作者没有进行任何裁剪。对于下游任务，作者评估了CAER [33]，MELD [44]和CMU-MOSEI [6]数据集。作者使用了Pytorch的MTCNN实现2来裁剪出人脸（详情见附录）。

CAER.[33]包含13,000个含有音频的《老友记》电视剧视频。作者自动从音频数据中推理出字幕。一个场景中可能会有多个说话者可见。标注标签是7种基本的Ekman表情[17]。

MELD.[44] 是一个多模态数据集，提供帧、音频和字幕，并且与CAER一样，也是基于电视剧《老友记》的。其13,000个视频仅包含单个个体，场景中的剪切会导致在这个数据集中的样本不同。它提供了7种表情标签。

CMU-MOSEI.[6] 包含了来自YouTube的3,000个视频，在这些视频中，人们大多数是直接对着摄像机讲话的。与CAER和MELD相比，CMU-MOSEI为6种情绪提供了平滑的多标签标注，使用Likert量表从0到3。作者将标签离散化，将所有大于0的值设置为1。

评估指标。 对于下游任务，作者测量准确度（Acc.）、F1分数（F1）、精确度和召回率，这些指标都根据类别出现频率进行加权。由于CAER、MELD和CMU-MOSEI的数据严重不平衡，这种加权是必要的。

Evaluation Results

在本节中，作者首先评估在VoxCeleb2数据集上预训练的作者的模型ConCluGen针对FER基准和 Baseline 的效果。然后，作者对上述自监督方法获得的特征的效率进行详细研究。

4.2.1 Benchmarking Against SOTA

在本节中，作者将多任务多模态自监督学习模型ConCluGen与在VoxCeleb上进行预训练的其他多模态自监督基准进行了比较[19, 30, 52]。表1的结果显示，在VoxCeleb上预训练并在CMU-MOSEI数据集上微调的ConCluGen模型性能优于CAE-LR[30]，后者是在CMU-MOSEI数据集上训练的自监督模型。其表现也与Franceschini等人[19]的模型性能持平，尽管ConCluGen模型在预训练时使用的模态（面部标志）比Franceschini等人的模型少。值得注意的是，CAE-LR[30]和Franceschini等人[19]都是在CMU-MOSEI上进行预训练，并在同一数据集上评估下游任务。然而，表1中的ConCluGen模型是在VoxCeleb2上进行预训练，仅在CMU-MOSEI上进行微调。

此外，作者的ConCluGen模型，无论是在表1中在CMU-MOSEI数据集上进行的微调，还是不进行微调（即简单的线性评估），都超越了SSE-FT [52]。SSE-FT是一个为视觉、音频和文本模态独立预训练的SSL模型。它们使用注意力机制进行晚期融合。最后，它们在不对CMU-MOSEI数据集进行微调的情况下评估模型。

最终，表1的结果显示ConCluGen模型在性能上超过了多个全监督基准方法[6, 8, 12, 25, 38]，并且在CMU-MOSEI数据集上与[12, 28]持平。

4.2.2 Supervised Baselines

表2中显示的监督学习 Baseline 采用了与ConCluGen模型相同的多元模型架构，但它在目标数据集上使用了一个完全监督的目标函数。表2的结果表明，对于这三个数据集，线性评估和微调方法都优于完全监督的 Baseline 。这突显了多模态自监督学习方法的高效性。

4.2.3 Evaluation of Self-Supervised Tasks

作者从比较单个自监督任务开始，然后评估了不同自监督任务组合的不同排列方式，这些都是为了面部表情识别。

实例级对比学习与多模态对比学习。

表1：将作者的模型与CMU-MOSEI数据集上的最新方法（SOTA）进行基准评估。模态（_Mod._）包括视频、音频、文本、（面部）关键点。

表2： Proposal 方法与 Baseline 方法的比较。

表3、表4和表5的结果显示，多模态对比学习方法Multi-Cont（第3.3节）优于实例级对比学习方法Instance-Cont（第3.2节）。因此，自监督多模态对比方法可以比实例级对比方法（单模态）学习到更好的表示。图2中MELD数据集的混淆矩阵表明，Multi-Cont模型（图1(c)）在不同情感类别上的分类性能质量优于Instance-Cont模型（图1(d)）。关于CAER数据集的混淆矩阵见附录。此外，作者进行了一项实验，以评估在视觉模态学习过程中，哪一种模态更有信息量。表3、表4和表5的结果一致显示，模型可以从文本模态中获益更多。

具有聚类功能的对比学习。

表4和表5的结果显示，在预训练阶段同时进行在线多模态聚类任务和多模态对比任务，例如在ConClu模型（第3.5节）中，可以提高MELD和CAER在面部表情识别（FER）下游任务上的结果。表3显示在CMU-MOSEI数据集上，两个模型的结果是可比较的。这种模型的背后假设是，通过支持基于距离的聚类方法的对比方法，作者可以更好地从数据中捕捉到语义结构。图1(b)展示了在MELD数据集上，相比于多对比模型（图1(c)），ConClu模型在情感类别上的分类质量如何得到提升。

生成式自监督学习与对比式自监督学习。

为了回答这个问题，作者比较了生成式多模态模型Generative（第3.4节），该模型分别重建每种模态的表示，以及多模态对比学习方法Multi-Cont和实例级对比方法Instance-Cont。表3和表5中CMU-MOSEI和CAER数据集的结果显示，生成损失作为FER的代理任务是一个健壮的目标函数。另一方面，表4中MELD数据集的结果表明，Generative模型优于Instance-Cont但并不优于Multi-Cont模型。

多任务多模态自监督学习。

在前一部分中，结果显示生成性目标函数与对比性目标函数在某些数据集上相比，作为一个代理任务是非常有效的。另一方面，表3、表4和表5的结果表明，对于所有数据集，沿着多模态对比损失ConGen最小化重建损失，会导致模型的性能低于仅使用多模态对比目标函数进行预训练的模型。

最终，作者评估了使用多任务多模态自监督目标函数ConCluGen（第3.6节）进行学习的模型。表3和表5的结果显示，对于除MELD（表4）之外的所有数据集，ConCluGen模型的表现都优于其他所有模型。

在学习多模态多任务自监督模型 ConCluGen 时，单个模态表征的信息量有多大？

表4：在MELD数据集上不同自监督方法组合的结果。所有指标都已加权。

表3：在CMU-MOSEI数据集上不同自监督方法组合的结果。所有指标都已加权。

表5：在CAER数据集上不同自监督方法组合的结果。所有指标都已加权。

为了回答这个问题，作者评估了仅使用多模态多任务模型ConCluGen的视觉表示与仅在预训练期间利用视觉模态的Instance-Cont模型的成果。表5和表3显示，ConCluGen/(视觉)的表现超过了作者使用实例 Level 对比方法进行预训练的模型。另一方面，表4的结果表明，作者需要利用ConCluGen模型学习的三种模态，才能超越Instance-Cont模型。

5 Conclusion and Future Work

在这项工作中，作者针对三种不同的野外数据集，采用了多任务多模态自监督方法进行面部表情识别。作者的ConCluGen模型优于几种多模态自监督以及监督基准模型。作者进行了广泛的实验研究，以评估经过多自监督任务预训练的模型的性能。

首先，作者通过评估采用多模态对比方法的预训练模型与仅采用视觉模态对比方法的预训练模型的表现，来评估在自监督算法中包含多种数据模态所获得的收益，遵循基于实例的最先进的自监督算法。作者发现，多模态对比方法学到的表示比基于实例的对比方法（单模态方法）更具信息性，即多模态方法得到的模型在面部表情识别任务上优于单模态模型。在另一个相关实验中，作者从多模态模型中移除了其他数据模态，只保留了模型的视觉模态部分。在这个实验中，作者发现即使只是多模态的视觉部分，也仍然优于仅在视觉模态上训练的基于实例的单模态模型。这些实验展示了在自监督预训练阶段包含其他数据模态时所获得的收益；得到的特征包含更多关于数据的信息——在作者的案例中是面部表情。此外，另一个值得注意的观察是，文本模态似乎比音频模态更能丰富得到的表示关于面部表情的信息。

此外，在另一组实验中，作者评估了在同时结合多模态对比损失和多模态聚类损失的自监督任务下预训练模型时的性能提升。在这里，作者发现将对比损失与基于距离的聚类损失相结合，可以鼓励模型从数据中学习更多的语义结构。这种效果在改进后的下游FER性能中得到了清晰的展示。作者认为，将聚类损失与对比损失结合使用，可以缓解仅使用对比学习方法可能遇到的类别碰撞问题[60]，如前所述。

最后，值得注意的是，以多任务的方式进行自监督预训练阶段，能够比单独执行每个任务捕获到更多在语义上有意义的表征。换句话说，对于一项具有挑战性的下游任务，例如在野外进行面部表情识别，由每个单独的自监督任务所学习到的表征似乎并不足够，正如ConCluGen模型相对于所有其他自监督模型所展现出的优越性能所证明的那样。

图2：针对MELD数据集在不同自监督模型上的混淆度指标。

在未来的工作中，作者希望将多任务多模态方法扩展到更多模态，例如面部标志。此外，作者计划在不同的下游任务上评估作者的多任务多模态ConCluGen，例如面部动作单元检测、人脸检测和情感分析。本工作中实现的代码和预训练模型已公开提供给研究社区，作为未来研究的基础线。## 致谢

得到了德国研究基金会（Deutsche Forschungsgemeinschaft, DFG）的资助，依据德国卓越战略——EXC 2002/1 "智能科学"——项目编号390523135。此外，这项工作还得到了格勒诺布尔阿尔卑斯大学的MIAI部分支持，（ANR-19-P3IA-0003）。

6 Implementation Details

作者从输入模式中提取特征，使用预训练的固定特征提取器。对于2D ResNet-152 [24]（ImageNet [13]）的帧，作者将其降采样到每秒1帧，而对于3D ResNet-101 [3]（Kinetics [27]）则降采样到每秒16帧。在用DAVENet [23]预训练的情感音频处理之前，音频被转换成梅尔频谱图。对于文本，作者取一个用于情感分析训练的DistillBERT [48]的最后一层隐藏层。为了获得每种模态固定大小的特征向量，作者按顺序处理输入并在时间上平均得到的结果向量。在平均之后，作者将2D和3D帧特征进行拼接。结果存储在磁盘上，即不进行 Backbone 特征提取器的微调。作者在预训练和下游训练中都使用AdamW优化器 [36]，并结合余弦退火带温暖重启 [37] 作为学习率调度。作者的批大小为4096，图像大小为180乘180像素（裁剪或调整大小）。表示的大小为4096。更多细节在补充材料中给出。在作者的实验中，作者使用了以下学习率：

预训练：

ConCluGen：学习率=0.00009，权重衰减=0.00032

结论：学习率（lr）=0.00009，权重衰减（weight decay）=0.00032。

ConGen: 学习率=0.00036，权重衰减=0.00032

Multi-Cont: 学习率=0.00036, 权重衰减=

Instance-Cont: 学习率=0.00036, 权重衰减=0.00032

生成式：学习率=0.00036，权重衰减=0.00032

下游任务：（作者选择了对所有方法都表现良好的常见超参数）

CAER：学习率=0.0061，权重衰减=0.08216

MELD：学习率=0.00967，权重衰减=0.00004

MOSEI：学习率=0.00996，权重衰减=0.00007

对于K-means聚类，作者选择了一个队列大小为4（即聚类中考虑了4个批次），8个簇，并在第12个时期开始聚类。