字节跳动展示OmniHuman多模态框架

清源| IT之家 | 2025-02-06

【流媒体网】摘要：图片 + 音频 = 逼真动画，半身全身均可生成。

　　字节跳动的研究人员近日展示了一款 AI 模型，可以通过一张图片和一段音频生成半身、全身视频。

　　字节跳动表示，和一些只能生成面部或上半身动画的深度伪造技术不同，OmniHuman-1 能够生成逼真的全身动画，且能将手势和面部表情与语音或音乐精准同步。

　　字节跳动在其 OmniHuman-lab 项目页面发布了多个测试视频，包括 AI 生成的 TED 演讲和一个会说话的阿尔伯特爱因斯坦。

　　在周一发布的一篇论文中，字节跳动指出，OmniHuman-1 模型支持不同的体型和画面比例，从而使视频效果更自然。

　　据了解，字节跳动表示，OmniHuman-1 模型基于约 19000 小时的人类运动数据训练而成，能够在内存限制内生成任意长度的视频，并适应不同的输入信号。

　　研究人员还表示，OmniHuman-1 在真实性和准确性方面，超越了其他同类动画工具。目前，该工具暂不提供下载或有关服务。

责任编辑：李楠

分享到：

24小时热文