作为世界多媒体领域最重要的顶级会议和中国计算机学会推荐的该领域唯一的A类国际学术会议。本届ACM MM吸引了国内外多媒体领域中的知名厂商和学者广泛参与,将有70场精彩报告,其中囊括了6场国内外顶尖学者的主旨报告、13场重磅专题研讨、51场国内外知名学者及学术新星的学术报告。
其中,腾讯优图实验室9篇计算机视觉相关的优质论文成功入选,涵盖弱监督图像描述及定位、表格结构识别、人脸安全等多个研究方向,这些技术创新面向智慧城市、智慧文娱、智慧制造等场景的落地应用,助力进一步提升AI技术能力,推进全球人工智能的发展。
深耕计算机视觉领域成效显著 9篇论文入选彰显强大实力
Distributed Attention for Grounded Image Captioning
弱监督图像描述及定位近年来逐渐受到国内外研究机构以及工业界关注。该任务是指对给定的图像自动生成一句话描述图像的内容,同时预测出描述中名词对应的目标位置。已有的工作主要通过正则化技术依靠注意力机制在生成图像描述的同时预测名词对应的目标的位置。这些方法的性能距离全监督的图像描述及定位有很大的差距。其中最主要的问题在于,依靠注意力机制的大部分方法预测结果往往集中于目标的最具判别性的局部位置,无法完整的预测目标的整体内容。基于此,我们提出一种十分简单且有效的分布注意力机制,挑选多个语义相同但位置不完全重合的目标之后进行聚合,从而得到更加完整的目标位置。在公开的Flickr30K Entities数据集上,保持图像描述性能不降的情况下大幅刷新目标定位性能SOTA,与全监督的方法性能持平。
Discriminator-free Generative Adversarial Attack
深度学习网络容易受到对抗样本的影响,在图像上加入一些不显眼的扰动后基于DNN的识别任务可能失效。目前大多数对抗攻击方法基于梯度搜索,这类方法生成对抗样本的耗时长,也会受到显存资源不足的影响。基于生成的方法(GAN)可缓解这些问题,但这类方法一方面训练比较难收敛,另外生成的攻击样本效果和视觉质量不稳定。我们发现判别器在对抗生成网络中并非必不可少,提出基于显著性区域的对称自动编码器方法(SSAE),该方法由显著性响应模块 (the saliency map)和特征角度正则解耦模块 (the angle-norm disentanglement)组成,用生成的显著性响应图去关注标签相关的区域,不再依赖判别器。在图像识别和图像检索任务上的大量实验证明SSAE方法生成的攻击样本不仅可以在主流网络模型上攻击效果好,同时也具有很好的视觉质量。
Show, Read and Reason: Table Structure Recognition with Flexible Context Aggregator
本文主要针对表格结构识别这一具有挑战性的问题进行研究。目前,业内方法往往采用基于图的上下文累积器,来稀疏地建模表格元素的上下文关系。然而,基于图的约束可能会引入过强的归纳偏置,无法充分地表示复杂的表格关系。为了让模型从数据中学习更合适的归纳偏置,本文引入Transformer作为上下文累积器。Transformer以密集上下文作为输入,同时由于的归纳偏置的弱化,Transformer对数据的规模要求更高,并且训练过程可能会不稳定。为了解决上述问题,本文设计了FLAG (FLexible context AGgregator) 模块,它将Transformer与基于图的上下文累积器以一种自适应的方式结合在一起。基于FLAG,本文设计了一个端到端的网络,称为FLAG-Net ,该网络不需要额外的OCR信息,并且可以灵活地调整密集上下文(dense context)和稀疏上下文(sparse context)的累积,进行表格元素的关系推理。本文还进一步探索了FLAG中的上下文选择模式,这对于识别表格结构是至关重要的。在标准测试集上的实验结果表明,本文提出的FLAG-Net的性能大大超过业内其他方法。
LSTC: Boosting Atomic Action Detection with Long-Short-Term-Context
相对于视频序列中的一般性运动检测,原子级的目标行为(如交谈,拾取,瞭望)的判断更加依赖于视频中上下文依赖关系的挖掘,同时这种依赖关系在不同的时间尺度上呈现若相关特性。本文将视频目标的行为与其以来关系解耦为稠密的短时上下文依赖(Dense Short-term Context)和稀疏的长时上下文依赖 (Sparse Long-term Context),并通过概率图模型将两者解耦为条件独立的交互关系分别辅助目标原子行为的判别,同时引入了一种近似高阶的注意力机制(High-Order Attention Mechanism),在计算复杂度不提升的条件下,将传统的注意力模型从一对一推广到一对多的交互关系。在AVA以及Hieve等基准测试集上表明,这种长短时依赖独立推断的机制能够有效帮助行为检测器正确推断目标行为。
ASFD: Automatic and Scalable Face Detector
在目前主流的目标检测器的设计范式中,特征增强以及特征融合模块已经成为了增强特征判别能力,提升检测效果的必备组件,但是由于数据分布上的差异,一般性目标检测网络中的特征增强模块并不能在人脸检测场景中带来稳定的提升。为此,本文系统性地分析了数据分布差异对于特征增强和融合模块效果的影响,并据此针对人脸检测场景,提出了一个可微分的自动化特征增强模块搜索流程AutoFAE, 同时,本文基于改搜索流程建立了用于网络搜索的超集,以满足不同推理速度约束下搜索到最优性能的模型结构。在主流的人脸检测数据集Wider-Face, FDDB上,本文搜索的人脸检测架构能够在相同的推理速度下达到更好的检测效果。
Adaptive Normalized Representation Learning for Generalizable Face Anti-Spoofing
随着多样化人脸攻击形式的出现,活体检测的泛化性受到越来越多关注。现有方法往往直接对网络学习的特征进行约束,然而忽略了模型特征提取的过程,尤其是标准化的影响。 针对该问题,本文提出了一种自适应标准化表征学习的活体检测新方法。具体而言,本文设计了一个自适应特征标准化模块(AFNM),该模块根据样本特征自适应地结合BN和IN标准化方式。并在在训练过程中结合元学习框架,在meta-test阶段重点学习AFNM模块,从而提升泛化性。此外,为进一步学习域无关的活体表征,本文设计了双重校准约束(DCC),包括域间兼容损失(IDC)和类间分隔损失(ICS)。多个学术数据集上实验结果表明我们方法优于现有方法,为实际场景下活体技术的应用提供了有效框架。
RecycleNet: An Overlapped Text Instance Recovery Approach
文本图像识别是理解多媒体媒介的关键技术手段。主流的设计范式关注独立文本行的精准识别,但这些方法在复杂真实场景如财务票据和学生作业簿上受到了严峻的挑战。简单通过优化识别方法本身或数据增强难以处理手写/印刷文本或印刷/印刷文本的套打(overlapping)。基于这个观察,本文介绍了RecycleNet,一个自动分离套打文本实例的策略。RecycleNet的关键设计在于定位并重用(recycle)了文本实例间套打的像素区域,将这些区域归还到其归属的全部实例,保障了分离后实例的完整性。RecycleNet平行于现有的文本识别解决方案,可作为可插拔模块,用很小的开销提升现有识别基线的精度。
Spatiotemporal Inconsistency Learning for DeepFake Video Detection
随着人脸生成技术的快速发展,人脸伪造检测也受到越来越多的关注。现有的方法往往将人脸伪造检测问题建模为二分类问题并提出了基于图像和视频的检测方法。 本文从一个新的角度出发,将该任务建模为时空不一致性学习过程,通过抓取伪造视频在空间和时序运动中的伪造痕迹来进行真假鉴别。具体地,本文设计了一个新的STIL单元,主要包括空间不一致性模块(SIM),时间不一致性模块(TIM)以及信息互补模块(ISM)。其中SIM采用具有残差结构的注意力机制重点捕捉空间不一致,TIM分别从水平和竖直两个方向捕捉时序运动中的不一致,ISM则进一步促进空间不一致和时序不一致间的信息交互。STIL单元非常灵活,可以插到大多数已有的2D网络中。大量的实验表明我们提出的方法在多个数据集上优于现有的方法,同时详细的可视化也充分证明了我们方法的可解释性。
以研促产 腾讯优图实验室通过AI助力数字经济发展
作为腾讯旗下顶级的人工智能实验室,腾讯优图实验室始终聚焦计算机视觉技术,专注人脸识别、图像识别、OCR等领域,致力于在工业制造、医疗应用、金融保险、娱乐社交等多行业场景的研究与落地。
凭借在视觉AI技术上的研究成果,腾讯优图目前已拥有超过1000件全球AI专利,更有300余篇论文被AAAI、ICCV等国际顶级AI会议收录。同时,腾讯优图还通过腾讯云共输出超过20项AI解决方案,100+AI原子能力,助力各行各业实现数字化转型。
此外,腾讯优图还打造了如跨年龄AI寻人、青少年内容审核、AI探星等技术能力,践行腾讯“科技向善”的使命和愿景。未来,优图实验室将继续专注人工智能技术发展,通过推进AI基础设施研发的形式为产业数字化转型提供助力,促进数字经济加速发展。