几乎克服了所有cGAN都存在的使用交叉熵的缺陷

用户1908973

发布于 2024-05-06 10:58:05

1380

发布于 2024-05-06 10:58:05

文章被收录于专栏：CreateAMindCreateAMind

开创性论文：提出概率电路家族一个伟大新成员-CC

特征函数系列2 样本数量的线性时间计算复杂度GAN

CCF-GAN克服了几乎所有cGAN都存在的使用交叉熵损失的缺陷

Neural Characteristic Function Learning for Conditional Image Generation

https://github.com/Zhangjialu126/ccf_gan

https://openaccess.thecvf.com/content/ICCV2023/papers/Li_Neural_Characteristic_Function_Learning_for_Conditional_Image_Generation_ICCV_2023_paper.pdf

摘要

条件生成对抗网络（cGANs）的出现彻底改变了我们处理和控制生成的方式，通过对数据和辅助信息的联合分布进行对抗学习。尽管取得了成功，由于它们之间的分布不一致性度量是不恰当的，cGANs一直受到质疑，导致训练中出现模式崩溃和不稳定性问题。为了解决这个问题，我们提出了一种新颖的条件特征函数生成对抗网络（CCF-GAN），通过特征函数（CFs）来减少这种不一致性，它能够在理论上学习到关于联合分布的准确距离度量。更具体地说，首先证明了CF之间的差异是完备的且适于优化，用于测量两个联合分布的差异。为了缓解计算CF差异时所遇到的维度诅咒问题，我们提出采用神经网络，即神经CF（NCF），来有效地最小化差异的上界。基于NCF，我们建立了CCF-GAN框架，明确地分解了联合分布的CF，从而允许学习具有分类重要性的数据分布和辅助信息。在合成和真实世界数据集上的实验结果验证了我们的CCF-GAN在生成质量和稳定性方面的优越性能。

1 引言?

生成对抗网络（GAN）自诞生以来一直是深度生成模型中的主力军，尤其是在图像生成领域[16]，其受欢迎程度源自于能够仅仅通过小维度的高斯噪声生成清晰逼真的图像。尽管取得了成功，GAN的原始架构仅允许从高斯噪声随机生成图像，而GAN的一个重要变种旨在通过预定义的辅助信息（例如类别标签或文本）来控制生成，形成了条件GAN（cGAN）。利用辅助信息的优势，cGAN已被证明能够增强受到额外语义提示条件的逼真图像生成[42, 32, 33]。因此，过去几年见证了cGAN的广泛应用，包括类别条件生成[31, 37]、风格转移[55]、文本到图像的翻译[42, 51]等等。

一般而言，cGAN建立了数据X和辅助信息Y之间的联合分布，即{X , Y} ～ p(x, y)。大多数cGAN在生成器网络的设计上达成了共识，其中辅助信息被嵌入到输入噪声[31]或生成器的中间层[11, 37, 9, 50, 40, 4, 33]。因此，生成器的目标是从联合分布p(x, y)中采样。另一方面，在设计鉴别器时，我们制定条件分布的方式使得现有的cGAN彼此不同，因为p(x, y)可以通过p(x|y)p(y)或p(y|x)p(x)来构建。前者要求将辅助信息Y转化为鉴别器以预测p(x|y)，这可以通过将X作为输入与Y连接[31, 10, 44]，或将Y嵌入到鉴别器的隐藏层中[42, 51]来实现。然而，后者要求鉴别器预测辅助信息p(y|x)，例如通过额外的显式分类器[37, 15, 21]或隐式投影[33, 50, 32, 4]。尽管能够通过预定义的辅助提示控制生成，但将cGAN应用于实践中受到了显著限制，原因在于它们在训练过程中存在模式崩溃[48, 52, 23]和不稳定[37, 33]的问题，从而阻碍了逼真图像生成的持续改进。

实际上，大多数cGAN的鉴别器都建立在交叉熵对抗损失的基础上，其等价于生成数据分布和真实数据分布之间的Jensen-Shannon（JS）散度[2]。不幸的是，从理论和实证上已经验证，JS散度以“逐个箱子”方式比较两个分布[25]，当两个分布不对齐或由低维度支持时，JS散度很容易达到最大值[2]。因此，在鉴别器中存在梯度消失的问题，这会误导生成器仅学习固定模式或在训练中完全崩溃[2, 3]。对于无条件生成，引入了一类称为积分概率度量（IPM）的广泛距离度量方法，已经优雅地解决了这个问题[35]。在IPM的理论完备性框架下，鉴别器以某些有界函数的形式操作，以“交叉箱子”方式比较分布[25]，从而为无条件生成提供了平滑且充分的梯度。

因此，直观地将IPMs应用于条件生成是合理的，从IPMs的理论完备性中受益，以稳定且一致地改进生成质量。然而，设计IPM-cGAN并不是一件简单的事情，因为数据和辅助信息之间存在非线性耦合。换句话说，鉴别器的有界函数禁止了明确地对条件生成的p(x|y)或p(y|x)进行建模。有几种尝试提出了将X和Y连接为一个增强的随机变量X，然后通过一个无条件的IPM-GAN来训练cGAN的等效方法[54]。然而，直接组合两个语义层次不同的随机变量存在问题，其不足之处在许多cGAN中已经得到证明[28, 33]。虽然有几种cGAN采用了某些IPMs，例如在它们的实现中采用了Wasserstein距离[34, 44, 33]，但它们的基本理论仍然建立在交叉熵形式上（相当于JS散度），因此仍然受到由“箱子到箱子”比较引起的模式崩溃和不稳定性问题的困扰。更重要的是，上述cGAN是建立在随机变量的概率密度函数（pdfs）存在的基础上的。这个前提经常被默认接受而没有进行验证，在实践中可能不成立，特别是当像图像和视频这样的现实世界数据基本上存在于低维流形上时[24, 36]。

在本文中，我们提出了一种基于随机变量的特征函数（CF）的全新cGAN架构，即条件特征函数生成对抗网络（CCF-GAN）。我们还注意到了几项利用CF实现增强无条件生成的工作[1, 30]。然而，这些方法通过首先将数据分布嵌入潜在空间，在学习嵌入空间中的数据和辅助信息的联合分布方面存在问题。相比之下，本文明确建立了生成和实际联合分布的CF。通过检查CF始终存在并且唯一对应于一个分布，我们提出计算CF之间的差异作为指示联合分布差异的一种方式。然而，计算CF需要在复杂域中进行过多的采样，这对于学习存在于高维空间中的图像分布来说是禁止的。因此，我们开发了神经网络作为计算CF差异上界的代理，称为神经CF（NCF）度量。基于NCF，我们建立了CCF-GAN，通过明确建模条件分布从联合分布中，实现对图像和不同语义级别辅助信息的分类处理。因此，我们的CCF-GAN在合成和实际数据集上的优越性能得到了验证。

2.相关工作

cGANs基本上优化了图像和辅助信息之间的联合分布，这与仅优化图像分布的无条件GAN基本不同。cGANs的联合优化允许可控的生成，在许多场景中都是关键技术，包括分类生成和风格转移。将辅助信息纳入联合分布中还被证明进一步提高了生成质量，以下将回顾现有的cGANs。

基于p(x|y)条件的cGANs：第一个cGAN [31] 提出通过p(x, y) = p(y)p(x|y)学习联合分布，并将辅助信息Y与数据X连接起来作为生成器和鉴别器的输入，使得生成和鉴别过程都受到辅助信息的影响。类似地，拉普拉斯金字塔（LAP）GAN [10] 和时间GAN [44] 也将Y连接到X作为鉴别器的输入，以解决条件分布p(x|y)的问题。然而，由于数据X和辅助信息Y处于不同的语义级别，直接将它们连接在一起可能会遇到信息聚合不匹配的问题，导致训练不稳定和低效 [28, 33]。为了缓解这个问题，后续的工作 [42, 51, 39] 提出将Y嵌入到鉴别器的某些隐藏层中，从而提取了数据的高级线索，然后由嵌入的Y进行聚合。上述方法旨在将GAN应用于完成特定任务，如文本到图像的转换 [42, 51] 和图像编辑 [39]。

基于p(y|x)条件的cGANs：cGANs的另一个主要趋势是将p(x, y)分解为p(y|x)p(x)，其中p(y|x)由隐式或显式分类器预测。作为代表性的无分类器方法之一，投影型cGAN被提出来计算可能性比并通过投影指示p(y|x)，从而在具有理论完整性的交叉熵损失下实现优化 [33]。由于其简单性和理论美感，投影型cGAN已广泛应用于许多先进模型，包括光谱归一化GAN [32]、BigGAN [4] 和自注意力GAN [50]，其中包括最近的进展，如合作初始化 [49, 53]、知识蒸馏 [8] 和梯度正则化 [12]。另一方面，已经验证添加分类器可能会提高生成性能 [5]。辅助分类器GAN（ACGAN）是最广泛应用的cGAN之一，具有显式分类器，通过边际分布和预测准确性进行训练 [37]。然而，ACGAN因其学习偏向分布的行为而受到批评，特别是在训练过程中使用大量辅助信息时导致模式崩溃 [47, 15, 17]。因此，后续的改进包括在TACGAN中使用双辅助分类器（TAC）、在ContraGAN中使用对比损失进行训练、在ADCGAN中添加辅助判别分类器（ADC）以及在ReACGAN中实现多种正则化以稳定训练 [21]。然而，所有上述cGAN都是基于交叉熵损失的，这导致了两个互不相交分布之间的比较不完整 [2]，可能导致训练中的模式崩溃和不稳定性。

IPM-cGANs：IPM已被广泛应用于无条件生成，成功地将交叉熵损失（用于预测真实和生成样本）重新构建为一个在理论上完备的距离度量。显著的IPM-GAN包括Wasserstein GAN [3]、Fisher GAN [34]、最大均值差异GAN [30] 和与CF相关的GAN [1, 30]。据我们所知，尽管在解决cGAN中的不稳定训练问题方面具有极大的潜力，但将IPM应用于cGAN仍然尚未开始。这是因为它们的IPM是基于无条件生成建立的，而将其扩展到条件生成必须将数据和辅助信息连接在一起，以便应用于无条件设置。然而，这显著限制了cGAN的能力，因为已经验证将联合分布分解为边际和条件分布可以见证显著的改进 [28, 33]。我们还注意到，一些cGAN尝试以一种临时的方式结合交叉熵预测和IPM [34, 44, 33]，但仍然面临不稳定的训练问题。

3. 方法论

3.1. CF 差异

其中，

表示V的期望。即使概率密度函数未明确定义（例如，Cantor分布），CF也对任意随机变量都存在。当随机变量的概率密度函数存在时，CF可以表述为

的傅立叶反变换，即

。在密度估计和生成建模等问题中，随机变量V的分布通常是未知的，而只有一组来自V的独立同分布（i.i.d）样本{vi}ni=1可用；这禁止了对FV(v)进行连续积分以计算CF。作为替代，我们求助于经验CF（ECF），可以计算为

，这是对(1)中的总体ΦV(t)的无偏和一致估计器[13]，因此可以保证一个明确定义的代理来近似未知的分布V。

CF的另一个吸引人的特性是其有界性，并在 ΦV (0) = 1 时达到最大值。换句话说，两个分布

在其 CF 中自动对齐。事实上，通过 pdf 比较两个分布可能会遇到优化偏差，其中可能存在梯度消失和不稳定的训练 [2]。这个问题促进了 Wasserstein 距离的使用，但代价是增加了计算复杂性 [25] 或额外的约束 [3]。相比之下，比较两个 CF 自然可以避免未对准问题，同时享受计算的便利性。因此，我们基于随机变量与其 CF 之间的唯一性，使用以下 l2 范数差异测量通过其 CF 来比较两个分布（即

），

更重要的是，对于涉及两个联合分布的条件生成，例如，(X，Y)代表真实图像和标签，以及

代表生成的图像和标签，我们能够将

进行规定。这样，上述的理想特性，包括普遍存在性和唯一性，仍然适用于它们对应的ECF，因为

。然后，通过在(3)中从T中采样

，我们能够实际计算两个分布之间的差异：

在公式（4）中，

分别表示真实和生成联合分布的ECF。值得指出的是，在（4）中，样本数量k在区分

方面起着至关重要的作用，以便指示概率估计的足够差异。我们在图1中说明，即使没有任何鉴别器模块，通过在（4）中将k设置为128并且将T设置为标准高斯分布，仅通过生成器网络进行优化就可以生成大致逼真的MNIST数字的数字图像[27]。

然而，与现实世界的图像相比，MNIST数据集[27]中的灰度数字图像大小为28×28，这是简化的情况。当优化具有高维度和多样化内容的图像时，尤其是对于高维数据，k必须呈指数增长，遇到维度灾难（cod）问题。为了解决这个问题，需要智能地选择

，而不是高斯分布。更重要的是，在图1的初步实验中，我们直接将标签信息Y与图像X连接起来，但这种方法被证明是无效的，因为以像素为基础的图像和以类为基础的标签本质上处于不同的语义水平[28, 33]。在第3.2节中，我们首先介绍了解决cod问题的方法，然后在第3.3节中介绍了以不同重要性对待语义级别的新方法。

3.2. 对抗性 NCF 学习

此外，与通过变化f(v)进行过多采样相比，在（5）中决定能够最大程度区分两个CFs的“最佳代表性”样本更为高效，具体如下：

3.3. CCF-GAN 条件生成

到目前为止，如图1所示，可以通过设置V = (X，Y)来实现条件生成。然而，由于图像X和辅助信息Y处于不同的语义级别，直接将它们堆叠在一起在cGANs中存在问题[28, 33]。在本节中，我们建议将它们分开处理，以便辅助信息Y可以与生成X一起良好地容纳，从而享受到改进的生成性能。更具体地说，CF的定义允许对p(x)和p(y|x)进行明确的分解，如下所示：

更重要的是，图像分布X通常存在于高维空间，因此在选择

时需要采用智能策略以避免维数灾难。相比之下，辅助信息Y的维度相对较低。因此，不直接在高维空间枚举

，而是使用第3.2节中提出的NCF网络f(·)来计算(10)中的

。

回顾一下，我们使用上标f来表示所提出的NCF网络计算的ECF。在（11）中，

可以直接由实际标签选择以实现条件生成，尽管通过训练额外的分类器可以进一步提高性能；这将在我们的消融研究中进行分析。

因此，通过将（11）代入（5）和（7），我们得到了训练CCF-GAN的最终损失函数：

在（12）中，

表示ty的第i个样本。由于Y位于低维空间，我们可以使用固定规则对ty进行采样，从而降低了训练CCF-GAN时的复杂度。回顾一下，

表示来自生成器网络g(·)的生成图像，而f(·)则是我们CCF-GAN中提出的NCF网络，其充当鉴别器的角色。

据我们所知，现有的cGANs已经通过非线性变换函数将IPM纳入其中，这使得X和Y之间的分解变得难以处理。相比之下，我们的CCF-GAN利用了提出的NCF网络直接输出

的优势，能够明确地从联合分布中提取X，并将其余部分由条件分布p(y|x)表示。这样，数据分布和辅助信息就可以被很好地学习，允许在真实（X , Y）和生成

联合分布之间进行优化的差异度量。在实践中，我们将提出的NCF网络实现为鉴别器，以便测量生成器g(·)生成的分布

。算法细节见算法1，流程图见图2。我们进一步通过图2中提出的CCF-GAN与现有基于CF的GAN进行对比，展示了所提出的CCF-GAN的优越性。从图中可以看出，CCF-GAN在中间阶段能够很好地区分真实和生成的样本，而RCFGAN则失败了。在最后阶段，CCF-GAN能够使真实和生成的样本对齐，而OCFGAN仍然存在分离。

4. 实验

4.1. 实验设置

数据集：通过比较所提出的CCF-GAN与其他最先进的cGAN，我们在1个合成数据集和3个广泛接受的真实世界数据集上进行了实验，以评估条件生成的性能，即CIFAR10 [26]、VGGFace2 [38]和ImageNet [43]。

对于合成数据集，我们使用了3个von Mises–Fisher (vMF)分布的混合，它们的参数{p, τ, θ}分别设置为{0.33, 30, 2π/3}、{0.33, 30, 4π/3}和{0.33, 30, 2π}，其中随机采样了10万个点。真实样本在图3-(e)中绘制出来。更重要的是，考虑使用vMF聚类是因为vMF分布基本上在低维空间中得到支持，这可以有效地模拟数据通常在高维空间中而生成空间位于低维空间的真实世界场景。对于真实世界的情况，CIFAR10数据集中的图像尺寸为32 × 32。我们按照[15]的做法，从VGGFace2数据集中随机选择了200、500和1000个类别，分别表示为VGGFace_c200、VGGFace_c500和VGGFace_c1000。然后，图像被居中裁剪并调整为64 × 64。对于ImageNet，我们将图像调整为128 × 128的分辨率。

指标：我们采用广泛应用的Fréchet inception distance（FID）[18]指标来评估GAN的生成质量，该指标基本上实现了从Inception_V3网络中提取的真实特征和生成特征之间的Wasserstein距离。我们还采用Inception Score（IS）[46]来评估条件生成的性能。在计算FID和IS分数时，我们对生成图像和真实图像都进行了5万次采样，这在许多已报告的GAN结果中是常见的选择。此外，我们计算了精度和召回率指标[45]，以指示生成中的模式坍塌问题。我们还通过在各种条件下重复训练GAN来评估稳定性。

基线模型：我们将所提出的CCF-GAN与BigGAN [4]、ACGAN [37]、TACGAN [15]和ADCGAN [19]进行了比较。此外，我们还采用FisherGAN [34]和cRCFGAN2 [29]作为条件IPM-GAN进行比较。此外，我们还评估了没有分类器的几个最新的GAN，包括CoopInit [53]、KD-DLGAN [8]和DigGAN [12]。我们在Pytorch BigGAN平台上实现了我们的CCF-GAN，使用了与BigGAN [4]相同的生成器和鉴别器网络架构。所有比较的cGAN都是基于Pytorch BigGAN平台进行训练和测试的，使用相同的架构。最近，出现了一个新兴的平台，称为StudioGAN [22]，它实现了ContraGAN [20]和ReACGAN [21]。由于新的StudioGAN默认采用随机翻转和不同的图像调整函数，我们认为在StudioGAN平台上报告结果是不公平的。否则，我们可能无法清楚地展示我们改进的来源。事实上，我们在所有数据集上都在StudioGAN平台上见证了进一步的改进，我们决定将其放在补充材料中。我们的代码在BigGAN和StudioGAN上实现，并可在https://github.com/Zhangjialu126/ccf_gan 上找到。

技术细节：在我们的实验中，我们为生成器选择了稳定的学习率0.0001，鉴别器和分类器选择了0.0002。虽然我们的CCF-GAN可以通过直接输入地面真实标签实现条件生成，但默认设置包括分类器[15]。鉴别器和分类器每次生成器更新时进行2次训练步骤。对于其他通过其公共存储库复制的比较方法，我们设置了与相应论文中相同的超参数。更重要的是，对于CIFAR10、VGGFace_c200、VGGFace_c500和VGGFace_c1000，批量大小设为64。ImageNet的批量大小设置为256。

4.2. 综合数据的分布拟合结果

我们在图3中比较了ACGAN、TACGAN、ADCGAN和我们提出的CCF-GAN。从这张图中可以看出，我们的CCF-GAN几乎恢复了地面真实分布，而其他方法则要么过度集中（ADCGAN），要么不平衡（ACGAN和TACGAN）。这验证了在我们的CCF-GAN中采用NCF的有效性，即使在支持低维度时，也能稳定准确地测量两个分布。相比之下，基于交叉熵损失设计的现有cGAN可能会遭受不适当的差异度量，导致拟合的分布存在偏差。

4.3. 实际图像生成结果

我们还在表1和表2中将我们的CCF-GAN与现有的最先进基线进行了比较。从表1可以看出，我们提出的CCF-GAN在所有比较方法中取得了最低（最好）的FID值。类似的结果也可以在表2中得出，我们的CCF-GAN在ImageNet数据集的批量大小为256时取得了11.34的FID值。然而，我们的CCF-GAN的IS得分非常显著，达到了180.84，几乎是第二名ReACGAN的三倍。

表格1：与现有最先进方法的FID分数比较。符号?表示结果来自相应的论文，而?来自[15]。否则，我们使用相应的默认设置运行了可用代码。我们用红色标注最佳FID，蓝色标注次优。

我们在图4中进一步展示了我们的CCF-GAN的条件生成结果。从这张图中可以看出，我们的CCF-GAN实现了高质量的图像生成。更重要的是，通过检查每一行，可以明显看出按类别划分的语义，每个类别内生成的图像内容丰富多样，这验证了所提出的CCF-GAN通过整合CF距离测量能够克服模式崩溃问题。在图5中，我们对不同类别之间进行了插值，两个不同人脸之间的插值是平滑的，验证了我们的CCF-GAN学习的潜在空间具有理想的连续性。定性比较、更多主观结果和分析见补充资料。

4.4. 深入分析

对k、分类器和ty的消融研究：由于t样本数量k在区分生成和实际分布之间的CFs中起着至关重要的作用，因此变化k的FID在图6-(a)中绘制出来。因此，我们可以得出结论，在复杂的真实世界情景中，所提出的NCF有效解决了cod问题，而k = 256足以成为现有基线中最佳的选择。另一个消融研究调查了分类器的使用，如图6-(b)所示。从图中可以看出，我们的CCF-GAN仍然可以通过直接使用地面实况标签作为

在(11)中实现条件生成，即，无需分类器。然而，训练分类器在我们的CCF-GAN中观察到了FID的提高，这与[5]一致。此外，我们还在不同的ty选择上进行了消融实验，包括固定范围[?α，α]的线性空间规则，以及从均匀分布和高斯分布中随机抽样。表3表明，所提出的CCF-GAN在来自不同分布的

下表现良好，特别是当

被固定为[?1，1]时。

对模式坍缩的分析：我们通过精度和召回率指标[45]对生成的模式坍缩进行了定量评估，如图7所示。从这张图中，我们可以发现我们的CCF-GAN实现了最高（最佳）精度和召回率值，并且在召回率上的改善更为显著，这验证了我们的CCF-GAN缓解模式崩溃的能力。

对训练稳定性的改进：我们进一步通过在不同条件下重复训练cGANs来评估稳定性。为了公平比较，我们禁用了指数移动平均模块，并将鉴别器训练步骤设置为1，对所有方法都保持一致。我们变化了2个学习率{0.0001,0.001}，3个批次大小{32,64,128}，2个基础通道数{64,96}，2个生成器架构{简单卷积层[41]，残差块[4]}和2个鉴别器架构{简单卷积层[41]，残差块[4]}，从而得到了48个不同的挑战性条件。cGANs的其他参数保持它们各自的默认值。对于每种方法，我们实施了48次试验，通过100k次迭代来训练模型，对应48个条件。然后记录每次试验的最佳FID。图8报告了我们和其他最先进方法根据不同FID阈值过滤的成功试验数量。请注意，当其最佳FID低于阈值时，将定义一次试验为成功。因此，很明显，我们的CCF-GAN在所有FID阈值下一致地实现了最多的成功试验数量。训练稳定性的显着改善验证了我们的CCF-GAN的理论完整性和优势。

5. 结论

在本文中，我们提出了一种新颖的CCF-GAN，可以稳定地提高合成数据集和真实世界数据集上的条件生成性能。与现有的基于交叉熵损失的cGAN不同，我们的CCF-GAN利用了特征函数（CF），即使随机变量没有概率密度函数，也能处理独特和普遍的对应关系。基于CF，我们提出了一个高效的神经特征函数（NCF）网络，用于计算具有理论完整性的CF之间的差异。我们进一步明确地将联合分布分解为边际和条件分布，对不同语义水平进行分类处理。这样，CCF-GAN克服了几乎所有cGAN都存在的使用交叉熵损失的缺陷。实验结果验证了所提出的CCF-GAN实现了最佳的条件生成，同时显著减少了cGAN中的模式崩溃和不稳定性。

本文参与?腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2024-05-01，如有侵权请联系?cloudcommunity@tencent.com 删除

优化