7月19日中午,第十二期DISCOVER LAB青年科学家论坛顺利开展。本期活动有幸邀请到了中国图象图形学学会高级会员、北京图象图形学学会理事赵健博士,为我们线上做了题为Towards Unconstrained Image/Video Deep Understanding(面向无约束场景下的图象/视频深度理解)的精彩报告,本次活动由清华大学智能产业研究院(AIR)周谷越副教授主持。
讲者介绍
赵健,中国图象图形学学会高级会员、北京图象图形学学会理事,博士毕业于新加坡国立大学,导师为冯佳时教授和新加坡工程院院士、AAAI/ACM/IEEE/IAPR Fellow颜水成教授。赵博士近5年受理国家专利5项(序1),发表高水平学术论文40余篇,单篇影响因子最高24.314,其中,以第一/通讯作者发表CCF A类论文11篇(含2篇T-PAMI、2篇IJCV)。他曾作为第一作者获得PREMIA'19 Lee Hwee Kuan奖和ACM MM'18最佳学生论文奖,并多次获得权威国际竞赛全球冠军。他的研究成果被包括图灵奖得主Yoshua Bengio和多位国内外院士、AAAI/ACM/IEEE/IAPR Fellow在内的权威学者引用和正面评价。赵博士有近8项技术在国家部委单位和科技行业领军企业得到应用,此外,他还开放了学界首个大规模无约束人脸识别平台(face.evoLVe),已被同行Star 2900余次、Fork 700余次,并被百度PaddlePaddle官方引入。赵博士曾入选北京市科协&中国科协“青年人才托举工程”,主持/参与科技委项目3项(序1/1/3),国自然青年科学基金项目1项。同时,他还担任CSIG高级会员、CSIG-BVD/CCF-CV委员、CSIG/BSIG青工委委员、BSIG理事会理事、VALSE资深领域主席和PRL/Electronics特刊客座编辑,T-PAMI、NeurIPS等本领域主流国际期刊/会议受邀审稿人。
报告内容
本次报告中,赵健博士首先介绍了个人及所在团队的研究基础,接着重点阐述了复杂环境下多模融合目标感知,以及无约束人物图象/视频深度理解两个方向的研究内容和成果。最后,赵博士也分享了未来将开展的几项研究工作,并与同学们就此展开了热烈的讨论。
多模融合目标感知
赵健博士首先介绍了开展低慢小目标(无人机)智能感知研究的背景。由于小型无人机具备体积小 、易操控、灵活自主等优点,在航拍、测绘、救援等多种领域都得到了广泛应用。然而,小型无人机的应用也带来了一定的负面影响,如未经许可进入公共及敏感区域、影响客机正常起降、意外掉落威胁人身财产安全等。因此,智能探测和监管低慢小目标具有重要的现实意义。
该监测目前运用的识别算法面临以下两大挑战:一是低空空域环境复杂,伪目标多且杂;二是基于单一模态的视觉数据难以实现全天候(时)目标的快速发现和跟踪。针对上述问题,赵博士团队提出了以下两种解决方案:
复杂环境下基于多模视频目标融合感知技术总体研究
一是根据应用任务的要求,赵博士团队进行大量调研和求证,完成了视频采集与嵌入式设备的选型,并制作了首个对齐的多模态、多光谱低慢小目标数据集。
任务引导的视频采集与嵌入式设备选项
二是赵博士团队提出了基于多层次融合的多模目标表征学习方法,充分利用了多模数据的优势互补特性,从而有效解决基于单一数据源进行目标检测识别的局限性。
基于多层次融合的多模目标表征学习
基于上述研究,赵博士团队还制作了一套原型系统,并发表了与之相关的五项国家发明专利和两篇高水平论文。同时,团队还依托CCF A类会议(CVPR 2020和ICCV 2021) 组织了两届Anti-UAV挑战赛,推动了相关领域前沿技术发展和应用落地。目前,该研究成果已转化应用于北京冬奥会赛区“低慢小”目标智能感知与监管。
无约束人物图象/视频深度理解相较于合作环境下的相同任务,无约束环境下的人物感知与理解更加困难,面临更多挑战。而经过多年的潜心研究,赵博士团队在该领域取得了多项技术突破:第一,从单张人脸图像生成一段视频,这项技术可以应用在增强/虚拟现实以及一些娱乐场景中。通常情况下,研究者利用生成对抗网络(GANs)将人脸图像和稀疏面部标志点作为输入,然后生成人脸视频。然而,由于面部标志点的表征能力有限,生成的人脸图像往往存在着质量损失、图像失真、身份改变和表情不匹配等问题。对此,赵博士团队提出利用单张图像重建出的三维脸部动力学作为视频生成的先验知识,然后通过三维动态预测网络预测单个人脸图像的三维动态序列,从而生成一个真实且保持身份的人脸视频。
基于单张人脸图像生成逼真人脸视频
第二,在现实世界中,许多因素会影响人脸识别算法的性能,如:变化较大的人脸姿态、低光照、低分辨率、以及模糊成像等。为了解决这些挑战,以前的工作通常是先将低质量的人脸还原成高质量的人脸,然后再进行人脸识别。然而,这些方法大多是多阶段性的,并不是最优的方案。因此,赵博士团队提出了通过多重退化人脸修复(MDFR)模型,以一个统一的网络生成正面化的高质量人脸图像,并在开放的测试环境中取得了最优的人脸识别效果。
联合人脸图像恢复和正面化的识别
第三,由于缺乏有效的算法和大规模的数据集,如何从多个文字段的描述到人脸图像的生成成为了一个颇具挑战的难题。对此,赵博士团队提出了一种新颖的句子特征编码和注意力模块,可以将任意数量的文字段描述整合到网络中,从而生成高度语义相关的人脸图像。
从多文本描述到人脸图像合成:数据集和算法
第四,团队还开发了一个人脸识别的软件库——Face.evoLVe。该库收集并实现了大量基于深度学习的人脸识别方法。目前,该软件库已经获得了2900多次star和700多次fork。
人脸识别的软件库——Face.evoLVe
第五,研究团队提出了一种用于自下而上的人体姿态估计的新型分组方法。该方法先检测人体的关节,随后利用身体的中心作为分组线索对关节点进行分组。为了更好地学习人体深度信息的特征表示,该方法引入了2D姿态引导的深度查询模块,用来提取2D姿态回归分支的特征,从而使深度回归分支能够感知每个人体的尺度信息。
按中心分组:预测向心偏移量以自下而上的估计人类姿态
最后,研究团队还提出了一种单阶段的多人3D绝对姿态估计方法。该方法创新性地将3D姿态解耦成2D图像关键点、深度信息、以及根关键点(骨盆)。该研究成果已成功服务于北京冬奥会花样滑冰比赛。它不仅能通过捕捉运动员的细微动作,帮助裁判对动作细节进行判别,还可以在赛前为运动员提供定制方案,辅助运动员训练。
单阶段即可:多人绝对3D姿态估计
报告的最后,赵博士提出了几个未来可能的研究方向,如自动网络结构搜索、持续/终身学习、小样本学习、和多光谱多模无约束图象/视频深度理解等。对此,线上的老师及同学们和赵博士进行了热烈的探讨。针对同学们提出的问题,如自动驾驶中如何融合可见光和雷达两模态信息、人体姿态估计和人行为意图理解的联系等,赵博士都一一给出了指导意见,并鼓励同学们在前沿领域积极探索。
关于 DISCOVER 实验室
DISCOVER实验室是AIR科研方向的横向支撑实验室之一,旨在利用机器学习、计算机视觉、计算机图形学、机器人学、运筹学、高性能计算与人机交互等前沿技术,围绕车路协同(V2I)、用户直连制造(C2M)、实验室自动化等各应用场景,构建以感知、规划、控制与决策为核心的智能算法平台体系,结合涵盖设计、工艺、计算与人因的智能系统架构体系,研究人-机-边-云四位一体的人在环路多智能体协同系统,开展具有创新性的算法理论与系统架构研究,紧贴以制造业为主的国家重点行业需求,攻克以人为中心的场景理解、人在环路机器学习、仿真到现实迁移与柔性制造工艺等关键技术瓶颈,与产业界深入合作探索自动驾驶与柔性制造的范式转移路径并实现关键技术验证与落地,推动我国在智慧交通和智能制造领域的产业升级。
版权声明:本文由艺术留学网整理发布,如需转载请注明出处。