夸克AI实验室与浙大联合开源OmniAvatar：音频驱动全身视频生成新突破,夸克ai引擎是不是就是神马

近日，夸克AI技术团队与浙江大学强强联手，共同开源了一项创新成果——OmniAvata，这是一款领先的音频驱动全身视频生成模型，将为视频生成领域带来了革命性的变化。

传统上，音频驱动人体运动的技术多集中于面部运动，缺乏全身驱动能力，且难以进行精确控制。而OmniAvatar的出现，彻底改变了这一现状。只需要输入一张图片和一段音频，OmniAvatar即可生成相应视频，且显著提升了画面中人物的唇形同步细节和全身动作的流畅性。不仅如此，该模型还可通过提示词进一步精准控制人物姿势、情绪、场景等要素。

此外，长视频连续生成是音频驱动视频生成的难点，也是一项关键挑战。为此，OmniAvatar通过参考图像嵌入策略和帧重叠技术，确保了视频的连贯性和人物身份的一致性。

本次突破不仅体现在产品层面，OmniAvatar的技术革新同样值得关注。团队提出了一种基于像素的音频嵌入策略，使音频特征可以直接在模型的潜在空间中以像素级的方式融入，从而生成更协调、更自然的身体动作来匹配音频。同时，采用多层级音频嵌入策略，将音频信息嵌入到DiT模块的不同阶段中，确保模型在不同层次上保持独立的学习路径。