近日,我院王勋教授团队董建锋研究员和中国人民大学、新加坡国立大学以及合肥工业大学研究团队合作的论文《Dual Encoding for Video Retrieval by Text》被计算机视觉和人工智能领域国际公认的顶级期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》模式分析与机器智能汇刊(简称IEEE TPAMI)录用,也是我院教师首次在该期刊发表论文。
IEEE TPAMI期刊的影响因子为17.86,为中科院1区期刊以及中国计算机学会推荐A类期刊,在2020年谷歌所发布的学术影响力排名中,位列所有计算机工程、电子工程及人工智能相关期刊首位。
论文在线出版链接:https://ieeexplore.ieee.org/document/9354593
论文代码开源链接:https://github.com/danieljf24/hybrid_space
董建锋研究员长期研究通过文字检索视频这一具有挑战性的任务。在该任务中,用户在没有示例视频的情况下,仅通过自然语句描述其即席查询需求来检索未标注的视频。考虑到视频是帧序列而查询是词序列,如何建立一个有效的序列到序列的跨模态匹配非常重要。为此,需要先将两种不同模型的文本和视频数据编码,然后将其投影到一个公共空间中。在该论文中,董建锋研究员和其他合作研究者提出一种对偶深度编码网络来实现这一目标,该网络将视频和查询编码为强大的稠密特征向量;同时通过语义概念来增强视频文本的特征表示。主要的创新点为以下两个方面:一,不同于基于特定单级编码器的现有技术,该研究成果提出一种多级的对偶编码方法,其从粗到精的方式表示两种模态的丰富内容;二、不同于传统的基于概念或潜在空间的公共空间学习算法,该论文提出混合空间学习,它结合了潜在空间的高性能和概念空间的良好可解释性。所提出的模型,在四个具有挑战性的视频数据集上达到了state-of-the-art的性能。
董建锋研究员的此项研究课题,受到国家自然科学基金、浙江省自然科学基金,阿里巴巴-浙江大学前沿技术联合研究中心等多个科研项目的资助。