【推荐】本周值得关注的将开源论文，包含分类、分割、人脸、目标检测、ReID等

CV君

发布于 2021-06-08 22:21:28

7580

发布于 2021-06-08 22:21:28

文章被收录于专栏：我爱计算机视觉我爱计算机视觉

以下总结的是本周新出的作者声称“将开源”的论文，包含显著目标检测、遥感影像分类、人脸识别、基于视频的人员重识别、跨分辨率人员重识别、医学图像分割、transformer 在视频目标检测的应用等共计 11 篇。其中有一篇刚刚开源。

Guidance and Teaching Network for Video Salient Object Detection

来自武汉大学&江西财经大学

对于 spatial-temporal 信息获取的困难导致现有视频显著目标检测（VSOD）方法在理解复杂和嘈杂的场景方面受到限制，在推理显著目标方面经常失败。

本次工作，作者基于上述挑战，提出简单而有效的架构：Guidance and Teaching Network（GTNet），可以独立蒸馏出有效的空间和时间线索，分别在特征和决策层面进行隐性指导和显性教学。具体来说，作者引入一个时间调制器，将运动特征隐性地连接到外观分支中，能够协作地融合跨模式特征。而在特征聚合过程中利用运动引导的掩码来传播显性线索。这种新的学习策略通过解耦复杂的空间-时间线索和映射不同模态的信息线索而取得了令人满意的结果。

在三个具有挑战性的基准上进行的广泛实验表明，所提出的方法可以在单个 TITAN Xp GPU 上以约 28 fps 的速度运行，并在与 14 个尖端基线的竞争中表现出优势。

论文链接：https://arxiv.org/abs/2105.10110
项目链接：https://github.com/GewelsJI/GTNet

标签：ICIP 2021+显著目标检测+开源

Multimodal Remote Sensing Benchmark Datasets for Land Cover Classification with A Shared and Specific Feature Learning Model

来自German Aerospace Center&慕尼黑工业大学&中科院等

文中提出一个共享和特定特征学习（S2FL）模型，可以将多模态 RS 数据分解为 modality-shared（模态共享）和modality-specific（模态特定）部分，使多模态的信息混合更加有效，特别是对于异质数据源。另外，发布了三个多模态 RS 基准数据集，如 Houston2013：高光谱和多光谱数据；Berlin：高光谱和合成孔径雷达（SAR）数据；Augsburg：SAR和数字表面模型（DSM）数据，并用于土地覆盖分类，用以对多模态基线和新提出的 S2FL 模型进行评估。

在三个数据集上的广泛实验表明，与之前提出的最先进的基线相比，S2FL 模型在土地覆盖分类任务中具有优势和先进性。

论文链接：https://arxiv.org/abs/2105.10196
项目链接：https://github.com/danfenghong/ISPRS_S2FL

标签：遥感影像+分类

Dynamic Class Queue for Large Scale Face Recognition In the Wild

来自百度&华中科技大学&清华

计算资源成本和长尾分类仍是大规模人脸识别任务中的挑战。本次工作，作者提出 dynamic class queue（DCQ）来解决这两个问题。具体来说，在训练过程中的每一次迭代，都会动态地选择用于识别的类的子集，其类的权重是即时烧录动态生成的，并存储在一个队列中。由于每次迭代只选择一个类的子集，所以计算要求降低了。通过使用没有模型并行的单一服务器，在大规模数据集中经验性地验证了 10% 的类足以达到与使用所有类相似的性能。此外，类的权重是以小样本方式动态生成的，因此适用于只有少量实例的尾部类。在最大的公共数据集 Megaface Challenge2（MF2）中，结果显示出比强大的基线有明显的改进，该数据集有 672K 个身份，其中 88% 以上的身份少于 10 个实例。

论文链接：https://arxiv.org/abs/2105.11113
项目链接：https://github.com/bilylee/DCQ

标签：CVPR 2021+人脸识别

Video-based Person Re-identification without Bells and Whistles

来自台湾大学&中央研究院

提出一个 re-Detect 和 Link 模块，可以在图像级上对齐 noisy tracklet，使简单的方法也可获得相当的性能。除了对齐的数据，作者还提供了用于修订的身份标签和MARS测试集的评估协议，这有助于在一个修正的基准上验证新方法。所提出的 Coarse-to-Fine Axial Attention Network（CF-ANN）的基线，它从粗到细地执行轴向注意，不仅降低了计算成本，而且实现了可喜的性能。

论文链接：https://arxiv.org/abs/2105.10678
项目链接：https://github.com/jackie840129/CF-AAN

标签：CVPRW 2021+基于视频的人员重识别

End-to-End Video Object Detection with Spatial-Temporal Transformers

来自上海交大&北大&商汤&加利福尼亚大学洛杉矶分校

近期所提出的 DETR和可变形 DETR 在目标检测中无需太多手工设计的组件，同时可以表现出与以前复杂的手工设计的检测器一样的良好性能。但这种方法在视频目标检测（VOD）上的性能还没有得到很好的探索。

本次工作，作者提出 TransVOD，一个基于空间-时间 Transformer 架构的端到端视频目标检测模型。目标是简化VOD 的管道，有效地消除对许多手工制作的特征聚合组件的需求，例如光流、循环神经网络、关系网络。此外，得益于 DETR 的目标查询设计，该方法不需要复杂的后处理方法，如 Seq-NMS or Tubelet rescoring，因此，管道简单而干净。特别是，提出了时空 Transformer 来聚合空间对象查询和每一帧的特征记忆。由三部分组成：Temporal Deformable Transformer Encoder（TDTE），对多帧空间细节进行编码；Temporal Query Encoder（TQE）来融合目标查询；Temporal Deformable Transformer Decoder（TDTD）来获得当前帧检测结果。

这些设计在 ImageNet VID 数据集上将强大的基线可变形 DETR 提升了很大的幅度（3%-4% mAP）。TransVOD在 ImageNet VID 的基准上产生了相当的结果性能。希望 TransVOD 能够为视频目标检测提供一个新的视角。

论文链接：https://arxiv.org/abs/2105.10920
项目链接：https://github.com/SJTU-LuHe/TransVOD

标签：Transformer+视频目标检测

Deep High-Resolution Representation Learning for Cross-Resolution Person Re-identification

来自南京信息工程大学

行人重识别（re-ID）解决的是由不同相机捕获到有相同身份的人物图像的匹配问题。实际应用中，由于相机性能的差异以及相机和感兴趣的人之间的距离，所获得的人物图像分辨率不尽相同。将此问题命名为跨分辨率行人重识别，对正确匹配带来了巨大的挑战。

在本次工作中，作者提出 Deep High-Resolution Pseudo-Siamese（PS-HRNet）框架来解决上述问题。具体来说，通过合理利用特征图的不同通道信息，恢复低分辨率图像的分辨率，即引入并创新了有通道注意力（CA）机制的 VDSR 模块：VDSR-CA。然后，设计一个新的 representation head 来提取辨别特征，对 HRNet 进行改革，HRNet-ReID。此外，还构建一个 pseudo-siamese 框架来减少低分辨率图像和高分辨率图像之间的特征分布差异。

作者在五个跨分辨率的人物数据集上的实验结果验证了所提出方法的有效性。与最先进的方法相比，PS-HRNet 在MLR-Market-1501、MLR-CUHK03、MLR-VIPeR、MLR-DukeMTMC-reID 和 CAVIAR数据集上分别提高了3.4%、6.2%、2.5%、1.1% 和 4.2%。

论文链接：https://arxiv.org/abs/2105.11722
项目链接：https://github.com/zhguoqing

标签：跨分辨行人重识别

Fast and Accurate Scene Parsing via Bi-direction Alignment Networks

来自上海交通大学&北大&贝尔法斯特女王大学

Bidirectional Alignment Network（BiAlignNet），用于快速准确的场景解析。通过双向对齐和每个路径的特定监督，低层次的空间特征可以与高层次的背景特征深度融合。在验证和测试集的城市景观中实现了 80.1% 和 78.5%的 mIoU，同时在全分辨率输入下以 30 FPS 运行，在分割精度和推理速度之间取得了相当大的权衡。

论文链接：https://arxiv.org/abs/2105.11651
项目链接：https://github.com/jojacola/BiAlignNet

标签：场景解析+ICIP 2021

Sli2Vol: Annotate a 3D Volume from a Single Slice with Self-Supervised Learning

来自牛津大学

研究目的：在 3D volumes 中通过仅标注 single slice 来分割任何任意感兴趣的结构（SOI），即半自动三维分割。

方法：通过简单地用连续切片之间的亲和矩阵传播二维切片分割，可以达到很高的精度，这可以通过自监督的方式来学习，即切片重建。

具体来说，在 8 个公共数据集（包括 CT 和 MRI 扫描）上将所提出的框架（Sli2Vol）与有监督的方法和其他两个无监督/自监督的 slice registration（切片对齐）方法进行比较，这些数据集跨越了 9 个不同的 SOI。在没有任何参数调整的情况下，同一模型在大多数基准上取得了卓越的性能，Dice scores（0-100分）超过 80 分，包括那些在训练期间未见过的。

结果：证明了所提出方法在不同机器和不同 SOI 的数据中的通用性。

论文链接：https://arxiv.org/abs/2105.12722
项目链接：https://github.com/pakheiyeung/Sli2Vol
主页链接：https://pakheiyeung.github.io/Sli2Vol_wp/

标签：自监督学习+医学影像+半自动分割+MICCAI2021

CogView: Mastering Text-to-Image Generation via Transformers

来自清华&阿里达摩院&BAAI

本文对将 VQVAE 和 Transformers 结合用于文本到图像生成的框架进行了研究。所提出的 CogView 为可扩展的跨模式生成预训练做出重要贡献，并解决了可能源于数据异质性的精度问题。还介绍了为不同的下游任务对CogView 进行微调的方法，如风格学习、超分辨率、text-image ranking、时装设计，以及稳定预训练的方法，如消除NaN损失。CogView（0-shot）在模糊的 MS COCO 上实现了新的最先进的 FID，超过了以前基于 GAN 的模型和近期类似的工作 DALL-E。

论文链接：https://arxiv.org/abs/2105.13290
项目链接：https://github.com/THUDM/CogView

标签：文本到图像生成

Pose2Drone: A Skeleton-Pose-based Framework for Human-Drone Interaction

来自卡尔斯鲁厄理工学院

无人机已成为当前的常用工具，多用于高空摄影、监控、送货等。Human-Drone Interaction (人与无人机之间的人机交互HDI) 技术对于上述任务至关重要，而该技术的关键是手势。本次工作，作者建立一个基于骨架的姿势估计的 HDI 框架。可以用简单的手臂手势控制无人机运动，并在保持安全距离的同时跟随用户。所提出的 monocular distance estimation（单目距离估计）完全基于图像特征，不需要任何额外的深度传感器。又创建一个定制的测试数据集用来对所提出方法进行评估测验。实验表明，HDI 框架在识别 11 种常见手势时，可以达到平均 93.5% 的准确率。