
[本站讯]近日,软件学院举办“智能·软件·未来”论坛第11期:“SDU Rendering Café”系列讲座第6期,邀请中国科学院深圳先进技术研究院助理研究员邹诗浩作题为“多模态驱动的⼈体动作生成与检索:从语音交互到跨模态对齐的探索”的学术报告。
随着人机交互的不断演进,基于语言和视觉的动作生成与检索方法在智能交互系统中受到广泛关注。然而,传统交互方式普遍存在自然直观性不足和多模态对齐能力有限的问题。报告围绕“多模态驱动的人体动作理解”主题展开,深入介绍了在音频引导生成、四模态检索对齐等多模态桥接与语义对齐方面的前沿探索。报告提出基于语言语义的动作生成方法,通过用户输入的自然语言生成与语义一致的动作序列,有效提升交互自然性与准确性。在检索方面,报告展示了基于多模态表示对齐机制,构建文本、音频、视频和姿态之间统一语义空间的创新方法。通过引导建模策略,结合跨模态嵌入结构,实现了多模态条件下的人体动作生成与检索的系统性突破,为构建更自然、高效的交互系统提供了有力支撑。
邹诗浩,中国科学院深圳先进技术研究院助理研究员,长期从事计算机视觉、人体动作捕捉与生成、类脑神经动态计算等方向的研究工作。在CVPR、ICCV、ECCV、ACM MM等国际顶级会议及JCV、TMM、TCSVT、ACM TOMM等国际期刊发表论文20余篇,其中第一作者论文10篇,谷歌学术引用超过1500次。主持国家自然科学基金、深圳市自然科学基金等科研项目,曾多次担任CVPR、ICCV、ECCV、AAAI、SIGGRAPH Asia等国际会议审稿人。