第32届ACM国际多媒体会议(ACM Multimedia)于2024年10月28日至11月1在澳大利亚墨尔本举行。我校智能信息处理团队的论文《From Speaker to Dubber: Movie Dubbing with Prosody and Duration Consistency Learning》被大会录用并获最佳论文奖。论文第一作者为yl7703永利官网2024级博士研究生张哲东,主要指导老师为我校颜成钢教授和中科院计算所李亮研究员。该项研究由yl7703永利官网、中国科学院计算所、yl7703永利官网丽水研究院、澳大利亚阿德莱德大学和麦考瑞大学合作完成。
该项研究聚焦于电影配音任务(Movie Dubbing),提出了一种两阶段的配音方法,先在大规模文本-语音语料库上预训练音素编码器从而学习清晰自然的发音特征,再通过韵律一致性学习模块和发音持续时间一致性推理模块,将角色情绪特征与音素级的韵律属性结合起来,并确保配音的视听一致性。这一方法在基准和泛化实验中均展现出优异的性能。
ACM Multimedia是多媒体领域的国际顶级会议、CCF 推荐的A类会议。本次大会共收到4385篇论文投稿,其中1149篇论文被会议录用,174篇论文被邀请做口头报告、比例仅为3.97%,竞争非常激烈。作为大会唯一最佳论文并被邀请做口头报告,张哲东的研究在这一高水平平台上脱颖而出,展示了我校在多媒体研究领域的强大科研实力和创新能力。