字节跳动展示OmniHuman多模态框架
清源|
IT之家 | 2025-02-06
【流媒体网】摘要:图片 + 音频 = 逼真动画,半身全身均可生成。
字节跳动的研究人员近日展示了一款 AI 模型,可以通过一张图片和一段音频生成半身、全身视频。
字节跳动表示,和一些只能生成面部或上半身动画的深度伪造技术不同,OmniHuman-1 能够生成逼真的全身动画,且能将手势和面部表情与语音或音乐精准同步。
字节跳动在其 OmniHuman-lab 项目页面发布了多个测试视频,包括 AI 生成的 TED 演讲和一个会说话的阿尔伯特 爱因斯坦。
在周一发布的一篇论文中,字节跳动指出,OmniHuman-1 模型支持不同的体型和画面比例,从而使视频效果更自然。
据了解,字节跳动表示,OmniHuman-1 模型基于约 19000 小时的人类运动数据训练而成,能够在内存限制内生成任意长度的视频,并适应不同的输入信号。
研究人员还表示,OmniHuman-1 在真实性和准确性方面,超越了其他同类动画工具。目前,该工具暂不提供下载或有关服务。
责任编辑:李楠
版权声明:凡注明来源“流媒体网”的文章,版权均属流媒体网所有,转载需注明出处。非本站出处的文章为转载,观点供业内参考,不代表本站观点。文中图片均来源于网络收集整理,仅供学习交流,版权归原作者所有。如涉及侵权,请及时联系我们删除!
24小时热文
流 • 视界
专栏文章更多
- [常话短说] 【解局】某上市广电网又成立新公司,干啥?! 2025-03-14
- [常话短说] 【解局】广电有新举措!走出内容差异化之路! 2025-03-12
- [常话短说] 【划重点】政府工作报告,这些与广电有关! 2025-03-06
- [常话短说] 【解局】两会第一天,广电这个备受关注 2025-03-05
- [常话短说] 【解局】向广电“形式主义”开刀! 2025-02-27