快捷导航
ai资讯
乐趣的小伙伴也能够拜候GitHub查看项目



  阿里巴巴研究团队近日发布了一款名为“EMO(Emote Portrait Alive)”的 AI 框架,模子就可以或许让照片中的人物启齿说出相关音频,该框架还融合了两种留意机制和时间模块,该框架号称能够用于“对口型”,Wav2Lip、SadTalker 等竞品”。并正在 ArXiv 上发布了模子的工做道理,再连系多帧噪声和面部区域掩码来生成视频,声称 EMO 不只可以或许发生令人信服的措辞视频,据引见,以确保视频中脚色身份的分歧性和动做的天然流利。EMO 基于英伟达的 Audio2Video 扩散模子打制,还能生成各类气概的歌唱视频,只需要输入人物照片及音频,研究人员起首操纵参考收集(ReferenceNet)从参考图像和动做帧中提取特征,据悉,IT之家 3 月 1 日动静,研究人员征引一系列尝试成果,支撑中英韩等言语。研究团队分享了几段由 EMO 框架生成的 DEMO 演示片段,从而获得了相关 AI 框架。感乐趣的小伙伴也能够拜候 GitHub 查看项目。该框架工做过程分为两个次要阶段,号称利用了跨越 250 小时的专业视频进行锻炼!IT之家留意到。



 

上一篇:生成一篇富无情感取意境的文章或者案牍内
下一篇:来肆意的阐扬我们的想


服务电话:400-992-1681

服务邮箱:wa@163.com

公司地址:贵州省贵阳市观山湖区金融城MAX_A座17楼

备案号:网站地图

Copyright © 2021 贵州bifa·必发官方网站信息技术有限公司 版权所有 | 技术支持:bifa·必发官方网站

  • 扫描关注bifa·必发官方网站信息

  • 扫描关注bifa·必发官方网站信息