无法在这个位置找到: left.htm
新闻中心   当前位置:主页 > 新闻中心 >
浙大研发AudioFace:随心录语音就能实时生成3D面部添加时间:2019-06-07


新智元报道

编辑:金磊,鹏飞

  【新智元导读】浙江大学和网易伏羲 AI 实验室的研究人员开发出一个端到端的机器学习系统 Audio2Face,可以从音频中单独生成实时面部动画,同时考虑到音高和说话风格。

  我们都知道动画里的人物说话声音都是由后期配音演员合成的。

  但即使利用 CrazyTalk 这样的软件,也很难将电脑生成的嘴唇、嘴型等与配音演员进行很好地匹配,尤其是当对话时长在数十甚至数百小时的情况下。

  但不要气馁,动画师的福音来了——Audio2Face 问世!

  Audio2Face 是一款端到端的机器学习系统,由浙江大学与网易伏羲 AI 实验室共同打造。

  它可以从音频中单独生成实时的面部动画,更厉害的是,它还能调节音调和说话风格。该成果已经发布至 arXiv:

  arXiv 地址:

  https://arxiv.org/pdf/1905.11142.pdf

  团队试图构建一个系统,既要逼真又要低延迟

  “我们的方法完全是基于音轨设计的,没有任何其他辅助输入(例如图像),这就使得当我们试图从声音序列中回归视觉空间的过程将会越来越具有挑战。”论文共同作者解释道,“另一个挑战是面部活动涉及脸部几何表面上相关区域的多重激活,这使得很难产生逼真且一致的面部变形。”

  该团队试图构建一个同时满足“逼真”(生成的动画必须反映可见语音运动中的说话模式)和低延迟(系统必须能够进行近乎实时的动画)要求的系统。他们还尝试将其推广,以便可以将生成的动画重新定位到其他 3D 角色。

  他们的方法包括从原始输入音频中提取手工制作的高级声学特征,特别是梅尔频率倒谱系数(MFC),或声音的短期功率谱的表示。然后深度相机与 mocap 工具 Faceshift 一起,捕捉配音演员的面部动作并编制训练集。


深度相机示意图

  之后研究人员构建了带有 51 个参数的 3D 卡通人脸模型,控制了脸部的不同部位(例如,眉毛,眼睛,嘴唇和下巴)。最后,他们利用上述 AI 系统将音频上下文映射到参数,产生唇部和面部动作。

无法在这个位置找到: footer.htm