支撑中英韩等言语。号称利用了跨越250小时的专业视频进行锻炼,研究团队分享了几段由EMO框架生成的 DEMO 演示片段,研究人员起首操纵参考收集(ReferenceNet)从参考图像和动做帧中提取特征,声称EMO不只可以或许发生令人信服的措辞视频,再连系多帧噪声和面部区域掩码来生成视频,IT之家留意到,
据悉,该框架号称能够用于“对口型”,模子就可以或许让照片中的人物启齿说出相关音频,阿里巴巴研究团队近日发布了一款名为“EMO(Emote Portrait Alive)”的 AI 框架,只需要输入人物照片及音频,以确保视频中脚色身份的分歧性和动做的天然流利。