AI Talk | 数据不均衡精细化实例分割

原创

腾讯云TI平台

修改于 2022-01-07 21:28:59

6830

修改于 2022-01-07 21:28:59

作者：?nickccnie

图像实例分割技术已经被广泛应用于工业视觉，自动驾驶，遥感监测和医疗诊断等领域。特别在工业AI质检中，实例分割往往是对质检图像进行解析的最核心技术之一。然而，实际应用中实例分割技术却面临着数据不均衡，分割不够精细等挑战，直接影响到漏检和过杀指标。

对此，【优图工业AI】团队提出了数据不均衡精细化实例分割解决方案，其能够在类别样本数差异达数千倍之巨的情况下稀有类指标提升8.1%，和头部类别的性能基本持平。同时边缘分割性能较当前最优的算法提升9.6%，在工业AI质检中，成功将漏检降低一个数量级，极大的满足了工业场景指标要求极高的需求。

▲

应用场景

在工业质检领域，AI算法作为人工质检的取代方案，具有效率高，稳定性强，风险低等降本增效的优势。而当前，缺陷质检成为了工业自动化中的“短板”，传统的质检主要依靠产线质检人员，其面临招工难，成本高，效率低，一致性差等缺点。据全球权威咨询机构IDC统计，当前国内工业互联网市场达2,800亿人民币，市场价值潜力巨大。

图1 工业质检流程

在工业质检场景中，实例分割技术作为最重要的缺陷检测技术之一，极大的满足了工业场景中“像素级别的缺陷分割” 的需求。而通常工业应用对指标要求非常高，数据不均衡，分割不精细等问题成为了实例分割算法的主要瓶颈。对此，【优图工业AI】团队对数据不均衡，分割不够精细等挑战进行了深入研究，提出了数据不均衡精细化实例分割解决方案。其能够在类别样本数差异达到数千倍之巨的情况下实现头部常见类别和尾部稀有类别上相当的识别精度和精细化实例分割。该方案在工业质检的实际业务中取得重大成果，使工厂生产效率得到数倍提升；同时，该技术在LVIS自然场景长尾分布实例分割挑战赛中，勇夺第一。

图2 工业质检场景精细化实例分割

图3 自然场景精细化实例分割

▲

面临挑战

工业质检是工业制造过程中，为了确保满足交付的质量要求，而进行整体或批量的质量检测的过程。工业AI质检算法在开发过程中，同样依赖于大量的训练数据，针对数据方面，该过程通常有以下几大挑战：

1、数据收集难，工业AI质检算法训练数据中，含有缺陷的数据应该占据训练样本中的绝大部分，而在实际产线中，产品良率都在90%以上，这意味着质检过程中，绝大多数产品都是合格的。产品良率过高会使得数据的收集更加困难，进一步影响了模型迭代。

2、数据不均衡，在工业制造过程中，由于产线工艺或模具等因素的原因，部分类型的缺陷出现频率会很大，相反，某些类型缺陷出现频率会很小，不同缺陷出现频率不同使得最后训练数据样本不均衡。

3、缺陷依赖面积等因素进行评级，在需要被检测的缺陷中，可以根据缺陷的深浅、大小和面积等指标对缺陷定级，程度较轻的缺陷是可以被容忍的。

针对工业AI质检开发过程中遇到的缺陷类别数据不均衡问题和依据缺陷面积进行缺陷程度评级的挑战，【优图工业AI】团队提出数据不均衡精细化实例分割解决方案。一方面，优化模型训练过程，在某类缺陷训练样本较少的情况下，使得模型“特别关注”此类缺陷。同时，进一步提升实例分割在缺陷边缘上的准确性，以便后续计算缺陷面积，进一步对缺陷程度进行评级。

▲

解决方案

1.基础架构

该技术在经典的二阶段实例分割网络[HTC]基础上进行改进。同时，采用具有更强上下文建模能力的Swin Transformer作为基础骨干网络。一方面，Swin Transformer引入CNN中常用的层次化建模方式构建层次化Transformer，可以在增强模型对多尺度目标识别的鲁棒性。另一方面，其引入局部建模思想，在位移窗口内进行上下文信息建模，避免了全局上下文建模导致的巨大的计算复杂度。

图4 本技术提出的模型架构图

2.数据分布均衡化技术

众所周知，数据不均衡最简单的两类解决方法是数据重采样（re-sampling）和损失函数重加权（re-weighting），来强化少样本类别的学习。本产品一方面设计了图像级和实例级两个层次数据增强方案从数据层面进行分布均衡。其次，对现有的损失函数进行优化，采用seesaw loss进行梯度再平衡，削弱头部多样本类别对尾部少样本类别的梯度抑制。

（1）Repeat factor sampling (RFS)

RFS是一种image-level的重采样方法。按照下述计算流程，如果某个类别的频率 f(c)>oversample_thr，采样率=1，就不会被过采样；而如果某个类别的频率 f(c)<oversample_thr，包含该类别的图片的采样率就会大于1，会被多次重复采样。

图5 RFS计算流程

（2）Balanced CopyPaste

由于RFS是一种图像的重采样技术，在重复采样包含尾部少样本类别的图片时，会导致头部多样本类别目标的混入（图片中同时包含多种类别的目标）。CopyPaste是从一张图中分割出实例掩膜对应的区域，然后随机粘贴到另一张图像。因此，为了扩充针对尾部少样本类别目标，我们有选择性地提高了尾部少样本类别目标的被粘贴概率而降低头部多样本类别目标的被粘贴概率。

（3）Seesaw Loss

限制实例分割算法在类别严重不均衡数据上性能的一个关键原因是，施加在尾部少样本类别上的正负样本梯度的比例是不均衡的，过多的负样本梯度容易导致尾部类别的置信度较低。而Seesaw Loss可以利用缓解因子Mij和补偿因子Cij动态抑制尾部类别样本的过度的负梯度，同时补充对误分类样本的惩罚，避免模型产生高虚警影响。Seesaw Loss的数学表达如下：

其中Sij是一个平衡系数，通过调节Sij可以达到放大或者缩小第i类施加在第j类上的负样本梯度，从而应对类别不均衡问题。而Sij由缓解因子Mij（Mitigation Factor，缓解因子）和补偿系数Cij（Compensation Factor，补偿系数）相乘得到，其中Mij用来缓解尾部类别上过量的负样本梯度, Cij用来补充那些错误分类样本上的"惩罚"。

3.实例掩膜逐级优化技术

由于HTC模型原本的28x28的mask特征尺寸和RoI Align采样操作，模型预测的实例mask非常粗糙。因此，我们针对性地引入实例掩膜逐级优化算法来替代HTC最后一个阶段的mask head，以获得更高质量的mask预测。同时，我们也引入了mask scoring来对mask预测进行重打分，而不是直接使用bbox head的分类置信度作为实例掩膜置信度。

（1）实例掩膜逐级优化

实例掩膜逐级优化模块通过多阶段的细粒度特征融合，以获取高质量的掩膜预测。在每个阶段，收集前一阶段的实例特征和实例掩膜与当前阶段的更高分辨率的细粒度特征进行融合。对于融合策略，为了综合低分辨率特征图更优的内部平滑特征和高分辨率特征图的边缘细节特征，我们利用边缘缓冲区来整合两者的优选特征。通过连续地三个阶段，最终实例掩膜逐级优化模块可以输出112x112的掩膜预测。特别是对于一些边缘复杂的目标，该模块也能获取精细的掩膜输出。

（2）Mask Scoring重打分

在经典的二阶段实例分割网络中，mask score与bbox score一致，均采用bbox head的分类置信度。然而，bbox head的分类置信度无法表征mask的质量，这会导致mask score和mask质量的误匹配。我们在现有的模型架构基础上融合Mask Scoring模块来自适应学习掩膜质量。Mask Scoring head采用Mask head的实例特征与实例掩膜拼接输入，进而使用4个卷积层和3个全连接层进行mask score回归。其可以依据掩膜质量进行评分预测，而不仅仅依赖bbox head的分类置信度。

▲

案例成果

我们的解决方案已经在多个AI质检项目中应用，大幅降低了出现频次较低的缺陷类别的漏检率，并且能够对缺陷面积进行准确统计，避免了模糊样本的漏检和过杀。未来该算法将持续应用到更多的AI质检项目中，用AI赋能制造业革命，加速制造业数字化转型。同时，本技术所提出的数据不均衡精细化实例分割解决方案（队名FuXi-Fresher）还荣获ICCV Workshop LVIS Challenge 2021的双料冠军（最佳性能奖和最具创新奖）。LVIS Challenge目前已成功举办三届，是目前国际上最具影响力的实例分割学术竞赛之一。