阿里巴巴研究团队近日发布了一款名为“EMO(Emote Portrait Alive)”的 AI 框架,模子就可以或许让照片中的人物启齿说出相关音频,该框架还融合了两种留意机制和时间模块,该框架号称能够用于“对口型”,Wav2Lip、SadTalker 等竞品”。并正在 ArXiv 上发布了模子的工做道理,再连系多帧噪声和面部区域掩码来生成视频,声称 EMO 不只可以或许发生令人信服的措辞视频,据引见,以确保视频中脚色身份的分歧性和动做的天然流利。EMO 基于英伟达的 Audio2Video 扩散模子打制,还能生成各类气概的歌唱视频,只需要输入人物照片及音频,研究人员起首操纵参考收集(ReferenceNet)从参考图像和动做帧中提取特征,据悉,IT之家 3 月 1 日动静,研究人员征引一系列尝试成果,支撑中英韩等言语。研究团队分享了几段由 EMO 框架生成的 DEMO 演示片段,从而获得了相关 AI 框架。感乐趣的小伙伴也能够拜候 GitHub 查看项目。该框架工做过程分为两个次要阶段,号称利用了跨越 250 小时的专业视频进行锻炼!IT之家留意到。