近日,我院可视媒体与大数据实验室在多相机多人实时动作捕捉方向取得重要进展。杨文武教授为第一作者的最新研究成果TwinPose: Person-Specific Subspaces for Multi-View 3D Pose Estimation 被国际计算机图形学顶级会议 SIGGRAPH 2026 接收,并将发表于ACM Transactions on Graphics(TOG)。
论文简介:

在复杂真实场景中,多人三维人体动作捕捉面临遮挡严重、交互密集以及观测不完整等挑战。围绕这一问题,杨文武教授长期坚持“二维观测第一性原理”,即各视角的二维观测质量决定三维动作捕捉的性能上限。这一思想有助于从根本上刻画问题本质,同时具备良好的可扩展性与泛化能力。
基于上述理念,本文提出了多视角三维人体动作捕捉框架 TwinPose。该方法构建实例级“孪生姿态(Twin Poses)”,统一建模多视角二维姿态语义与三维几何一致性,为每个个体建立独立的子空间表示,从而实现复杂场景下多人三维姿态重建的高精度与高稳定性。TwinPose 打通了从二维观测到三维重建的关键一环,使算法能够逼近性能上限,同时支持任意二维人体姿态检测模型,为后续通过持续提升二维能力来增强三维性能提供了统一框架。
目前,TwinPose 已集成到团队自研的实时动捕系统中,可在复杂场景下实现多人动作与空间定位的实时感知,并已在运动分析、舞台表演等实际场景中落地验证。
此外,围绕二维侧能力的提升,团队近年来提出了DSTA(CVPR 2024)、PAVE-Net(AAAI 2026)以及TAR-ViTPose(CVPR 2026)等方法,系统探索如何高效利用时序信息提升二维人体姿态估计性能,致力于推动从当前主流“单帧范式”向“视频范式”的转变。其中,TAR-ViTPose 被计算机视觉顶会 CVPR 2026 评选为 Highlight 论文,体现了该方向研究成果的创新性与学术价值。
相关资源
项目代码与模型开源地址:https://github.com/zgspose
代表性论文
- Wenwu Yang, Tianyi He, Jiwei Ding, Xun Wang, Rong Zhang, Kun Zhou. TwinPose: Person-Specific Subspaces for Multi-View 3D Pose Estimation. SIGGRAPH 2026, to appear in ACM Transactions on Graphics (Article No. 61)
- 杨文武, 李跃, 邢帅, 蔡佳航, 王勋. 面向非约束环境下的轻量级实时多人三维动作捕捉. 《中国科学: 信息科学》, 2023, 53(11): 2230–2249
- Hongwei Fang, Jiahang Cai, Xun Wang, Wenwu Yang. Beyond Static Frames: Temporal Aggregate-and-Restore Vision Transformer for Human Pose Estimation. CVPR 2026, 美国丹佛, 2026-6-3至2026-6-7
- Jijie He, Wenwu Yang. Video-Based Human Pose Regression via Decoupled Space-Time Aggregation. CVPR 2024, 美国西雅图, 2024-6-17至2024-6-21: 1022-1031
- Yonghui Yu, Jiahang Cai, Xun Wang, Wenwu Yang. End-to-End Multi-Person Pose Estimation with Pose-Aware Video Transformer. AAAI 2026, 新加坡, 2026-1-20至2026-1-27: 12196-12203