夸克AI实验室与浙大联合开源OmniAvatar:音频驱动全身视频生成新突破,夸克ai引擎是不是就是神马
传统上,音频驱动人体运动的技术多集中于面部运动,缺乏全身驱动能力,且难以进行精确控制。而OmniAvatar的出现,彻底改变了这一现状。只需要输入一张图片和一段音频,OmniAvatar即可生成相应视频,且显著提升了画面中人物的唇形同步细节和全身动作的流畅性。不仅如此,该模型还可通过提示词进一步精准控制人物姿势、情绪、场景等要素。
本次突破不仅体现在产品层面,OmniAvatar的技术革新同样值得关注。团队提出了一种基于像素的音频嵌入策略,使音频特征可以直接在模型的潜在空间中以像素级的方式融入,从而生成更协调、更自然的身体动作来匹配音频。同时,采用多层级音频嵌入策略,将音频信息嵌入到DiT模块的不同阶段中,确保模型在不同层次上保持独立的学习路径。
OmniAvatar是团队在多模态视频生成上的初步尝试,并在实验数据集上得到了初步验证,但尚未达到产品级应用水平。未来,团队还将在复杂指令处理能力、多角色交互等方面进一步探索,扩大模型在更多场景中的应用。
本文系观察者网独家稿件,未经授权,不得转载。
1、中国足协:各级男足队伍将于10月、11月进行国际邀请赛,中国男足时间表