泽兴芝士网

一站式 IT 编程学习资源平台

「4月19日」十篇(将)开源论文代码分享

作者 | CV君

编辑 | CV君

报道 | 我爱计算机视觉(微信id:aicvml)


What Goes beyond Multi-modal Fusion in One-stage Referring Expression Comprehension: An Empirical Study

厦门大学&鹏城实验室&国科大&腾讯


现有的单阶段 referring expression comprehension(REC)的大部分工作主要集中在多模态融合和推理上,而其他因素在这个任务中的影响缺乏深入的探讨。为了填补这一空白,作者在本文中进行了一项实证研究。

具体来说,首先建立一个非常简单的REC网络,SimREC,并消减了 42 个候选设计/设置,这涵盖了从网络设计到模型训练的整个单阶段 REC 过程。之后,在REC的三个基准数据集上进行了100多次实验。大量的实验结果不仅显示了除多模态融合外影响REC性能的关键因素,如多尺度特征和数据增强,而且还产生了一些与传统理解相反的发现。例如,作为一项视觉和语言(V&L)任务,REC确实受语言先验的影响较小。

此外,通过对这些发现的适当组合,可以将 SimREC 的性能提高很多,例如,在RefCOCO+上的性能提高了27.12%,超过了所有现有的REC方法。但最令人惊喜的发现是,在训练开销和参数少得多的情况下,SimREC仍然可以取得比一组大规模预训练模型(如UNITER和VILLA)更好的性能,描绘了REC在现有V&L研究中的特殊作用。


将开源:
https://github.com/luogen1996/SimREC

论文:
https://arxiv.org/abs/2204.07913

#ICME 2022##换脸#

Migrating Face Swap to Mobile Devices: A lightweight Framework and A Supervised Training Solution

南京大学


现有的换脸方法在很大程度上依赖大规模的网络来产生视觉上可信的结果,这抑制了它在资源有限的平台上的应用。

文章中提出 MobileFSGAN,一种用于人脸交换的新型轻量级 GAN,可以在移动设备上运行,参数少得多,同时获得有竞争力的性能。具体来说,作者专门为图像合成任务设计一个轻量级的编码器-解码器结构,它只有10.2MB,可以在移动设备上以实时速度运行。为了解决训练这样一个小网络的不稳定性,利用面部属性编辑技术构建了FSTriplets数据集。FSTriplets 提供了源-目标-结果的训练三要素,产生了像素级的标签,从而第一次使训练过程有了监督。还设计了多尺度梯度损失,以实现高效的反向传播,从而实现更快和更好的收敛。

实验结果表明,改模型达到了与最先进方法相当的性能,同时大大减少了网络参数的数量。


已开源:
https://github.com/HoiM/MobileFSGAN

论文:
https://arxiv.org/abs/2204.08339

#Transformer##域适应##CVPR 2022#

Safe Self-Refinement for Transformer-based Domain Adaptation

石溪大学&XPeng Motors

无监督域适应(UDA)旨在利用一个标签丰富的源域来解决相关的无标签目标域的任务。这是一个具有挑战性的问题,特别是当源域和目标域之间存在巨大的域差距时。

文章提出一个名为 SSRT(Safe Self-Refinement for Transformer-based domain adaptation)的新型解决方案,它从两个方面带来了改进。首先,在 vision transformers 在各种视觉任务中的成功的鼓励下,作者用transformer 的骨架来武装SSRT。发现,在具有挑战性的DomainNet基准上,vision transformers 与简单的对抗性适应的组合超过了基于卷积神经网络(CNN)的最佳报告结果,显示了其强大的可迁移特征表示。第二,为了减少模型崩溃的风险,提高具有较大差距的域之间的知识转移的有效性,提出了一个安全自定义的策略。

具体来说,SSRT利用扰动的目标域数据的预测来完善模型。由于 vision transformers 的模型容量很大,而且在这种具有挑战性的任务中的预测可能是有噪声的,因此设计了一种安全的训练机制来适应性地调整学习配置。在几个广泛测试的UDA基准上进行了广泛的评估,SSRT持续取得了最好的性能,包括在Office-Home上的85.43%,在VisDA-2017上的88.76%和在DomainNet上的45.2%。


已开源:
https://github.com/tsun/SSRT

论文:
https://arxiv.org/abs/2204.07683

#视频去模糊##Transformer#

VDTR: Video Deblurring with Transformer

清华大学(深圳)&腾讯


由于时空建模过程具有挑战性,视频去模糊化仍然是一个未解决的问题。虽然现有的基于卷积神经网络的方法显示出对视频去模糊化的有效空间和时间建模的能力有限。

VDTR,是一个有效的基于Transformer的模型,首次尝试将 Transformer 用于视频去模糊化。VDTR 利用Transformer 在空间和时间建模方面卓越的长程和关系建模能力。然而,由于复杂的非均匀模糊、跨多帧的misalignment 以及高分辨率空间建模的高计算成本,为视频去模糊设计一个合适的基于 Transformer 的模型是具有挑战性的。

为了解决这些问题,VDTR 主张在不重叠的 windows 进行关注,并利用分层结构进行长距离的依赖性建模。对于帧级空间建模,提出了一个编码器-解码器Transformer ,利用多尺度特征进行去模糊化。对于多帧的时间建模,调整Transformer以有效地融合多个空间特征。

与基于 CNN 的方法相比,所提出的方法在合成和真实世界的视频去模糊基准上都取得了极具竞争力的结果,包括DVD、GOPRO、REDS和BSD。希望这样一个基于Transformer的架构可以作为一个强大的替代基线,用于视频去模糊和其他视频修复任务。


将开源:
https://github.com/ljzycmd/VDTR

论文:
https://arxiv.org/abs/2204.08023

#CVPR 2022##点云#

Self-Supervised Arbitrary-Scale Point Clouds Upsampling via Implicit Neural Representation

哈尔滨工业大学&鹏城实验室&北京大学深圳研究生院&清华大学


点云上采样是一个具有挑战性的问题,即从给定的稀疏输入中生成密集而均匀的点云。现有的大多数方法要么采取基于端到端的监督学习方式,利用大量的稀疏输入和密集的 ground-truth 对作为监督信息;要么将不同比例因子的上采样视为独立的任务,必须建立多个网络来处理不同因子的上采样。

文章提出一种新的方法,可以同时实现自监督和灵活放大的点云上采样。作者将点云上采样表述为寻求隐含表面上最近的投影点作为种子点的任务。为此,定义两个隐含的神经函数来分别估计投影方向和距离,这两个函数可以通过两个 pretext learning 任务来训练。

实验结果表明,基于自监督学习的方案实现了与基于监督学习的最先进方法相竞争甚至更好的性能。


已开源:
https://github.com/xnowbzhao/sapcu

论文:
https://arxiv.org/abs/2204.08196

#超分辨率#

BSRT: Improving Burst Super-Resolution with Swin Transformer and Flow-Guided Deformable Alignment

旷视科技&电子科技大学


本次工作使用一个新的架构来解决 Burst 超级分辨率(BurstSR)任务,它需要从一连串的噪声、misaligned 和低分辨率的 RAW 突发中恢复高质量的图像。

为了克服 BurstSR 的挑战,作者提出一个 Burst Super-Resolution Transformer(BSRT),它可以显著提高提取帧间信息和重建的能力。为了实现这一目标,提出一个 Pyramid Flow-Guided Deformable Convolution Network(Pyramid FG-DCN),并将 Swin Transformer Blocks 和 Group 作为主要骨干。更具体地说,结合了光流和可变形卷积,因此 BSRT 可以处理 misalignment,并更有效地聚合多帧中的隐纹理信息。

此外,基于 Transformer 的结构可以捕获长距离的依赖性,以进一步提高性能。对合成赛道和真实世界赛道的评估表明,所提出方法在BurstSR任务中达到了新的SOTA。此外,BSRT 在 NTIRE2022 Burst 超级分辨率挑战赛中赢得了冠军。


已开源:
https://github.com/Algolzw/BSRT

论文:
https://arxiv.org/abs/2204.08332

#目标检测#

CenterNet++ for Object Detection

国科大&华中科技大学


有两种主流的目标检测方法:自上而下和自下而上,其中最先进的方法大多属于第一类。

本篇文章,证明了自下而上的方法与自上而下的方法一样有竞争力,并且享有更高的召回率。该方法为CenterNet,将每个目标检测为三组关键点(左上角和右下角以及中心关键点)。首先通过一些设计好的线索将角落分组,然后通过中心关键点进一步确认目标。角部关键点使该方法具备了检测不同尺度和形状的目标的能力,而中心关键点则避免了大量假阳性建议所带来的混乱。改方法是一种无锚检测器,因为它不需要定义明确的锚盒。适用于不同结构的骨干,即类似 "hourglass "的网络和类似 "pyramid "的网络,它们分别检测单分辨率特征图和多分辨率特征图上的目标。

在MS-COCO数据集上,带有 Res2Net-101 和 Swin-Transformer 的 CenterNet 分别达到了53.7%和57.1%的AP,超过了所有现有的自下而上的检测器,达到了最先进的水平。另外还设计一个实时的CenterNet,它在准确度和速度之间实现了良好的权衡,在30.5FPS下的AP为43.6%


已开源:
https://github.com/Duankaiwen/PyCenterNet

论文:
https://arxiv.org/abs/2204.08394


#CVPR 2022 Oral##视频实例分割#

Temporally Efficient Vision Transformer for Video Instance Segmentation

华中科技大学&腾讯&IDEA


近期,Vision Transformer 在图像层面的视觉识别任务上取得了巨大的成功。为了有效地对视频片段中的关键时间信息进行建模,提出一种用于视频实例分割(VIS)的时间效率 Vision Transformer(TeViT)。与以往基于Transformer 的视觉方法不同,TeViT 几乎是无卷积的,它包含一个 Transformer 主干和一个基于查询的视频实例分割头。

在骨干阶段,提出一个几乎无参数的 messenger shift 机制,用于早期的时空融合。在头部阶段,提出一个参数共享的 spatiotemporal query interaction(时空查询互动)机制,以建立视频实例和查询之间的一对一对应关系。因此,TeViT 充分地利用了帧级和实例级的时空信息,以可忽略不计的额外计算成本获得了强大的时空建模能力。

在三个广泛采用的 VIS 基准测试中,即 YouTube-VIS-2019、YouTube-VIS-2021和OVIS,TeViT获得了最先进的结果,并保持了较高的推理速度,例如,在YouTube-VIS-2019上,46.6AP与68.9FPS。


已开源:
https://github.com/hustvl/TeViT

论文:
https://arxiv.org/abs/2204.08412


#光流估计##CVPR 2022#

Deep Equilibrium Optical Flow Estimation

卡内基梅隆大学&北大&Bosch Center for AI


许多近期先进的(SOTA)光流模型使用有限步递归更新操作来模仿传统算法,鼓励迭代细化为稳定的流估计。然而,这些RNNs带来了大量的计算和内存开销,并且没有被直接训练为这种稳定的估计模型。它们的收敛性很差,因此会出现性能下降的情况。

为了克服这些缺点,作者提出了 deep equilibrium(DEQ)流估计器,这种方法直接将流作为隐含层的无限级固定点进行求解(使用任何黑盒求解器),并通过该固定点进行分析微分(因此需要O(1)训练内存)。这种隐式深度方法不以任何特定的模型为前提,因此可以应用于广泛的SOTA流估计模型设计。使用这些DEQ流估计器,可以使用例如定点重用和非精确梯度更快地计算流,消耗的训练内存比递归对应器少4~6倍,并在相同的计算预算下获得更好的结果。

此外,提出一种新的、稀疏的定点校正方案来稳定 DEQ 流估计器,解决了一般DEQ模型的一个长期挑战。并在各种现实环境中测试了改方法,并表明它在Sintel和KITTI数据集上改进了SOTA方法,而且计算和内存效率都大大提高了。


已开源:
https://github.com/locuslab/deq-flow

论文:
https://arxiv.org/abs/2204.08442


#遥感影像##无监督变化检测#

Revisiting Consistency Regularization for Semi-supervised Change Detection in Remote Sensing Images

约翰斯·霍普金斯大学


遥感(RS)变化检测(CD)旨在从 co-registered 双时空图像中检测 "感兴趣的变化"。现有的深度监督CD方法的性能归因于用于训练网络的大量标注数据。然而,标注大量的遥感图像是劳动密集型和昂贵的,特别是对于双时态图像,因为它需要由人类专家进行像素级的比较。另一方面,由于不断增加的地球观测项目,经常可以获得无限的未标记的多时空RS图像。

本次工作,作者提出一个简单而有效的方法来利用未标记的双时空图像的信息来提高 CD 方法的性能。更具体地说,提出一个半监督的CD模型,除了监督的交叉熵(CE)损失外,还制定一个无监督的CD损失,即约束一个给定的无标签双时空图像对的输出变化概率图在应用于深度特征差异图的小的随机扰动下是一致的,该差异图是通过减去它们的隐藏特征表示得到的。

在两个公开的 CD 数据集上进行的实验表明,所提出的半监督 CD 方法可以达到更接近监督 CD 的性能,即使只获得10%的标注训练数据。


已开源:
https://github.com/wgcban/SemiCD

论文:
https://arxiv.org/abs/2204.08454

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言