夸克AI实验室与浙大联合开源OmniAvatar:音频驱动全身视频生成新突破,夸克ai引擎是不是就是神马
近日,夸克AI技术团队与浙江大学强强联手,共同开源了一项创新成果——OmniAvata,这是一款领先的音频驱动全身视频生成模型,将为视频生成领域带来了革命性的变化。
此外,长视频连续生成是音频驱动视频生成的难点,也是一项关键挑战。为此,OmniAvatar通过参考图像嵌入策略和帧重叠技术,确保了视频的连贯性和人物身份的一致性。
为了解决完整训练和仅微调特定层所带来的问题,团队还提出了一种基于LoRA的平衡微调策略。该策略使用LoRA策略高效地适应模型,使模型能够在不改变底层模型容量的情况下学习音频特征,从而兼顾了视频质量与细节。
OmniAvatar是团队在多模态视频生成上的初步尝试,并在实验数据集上得到了初步验证,但尚未达到产品级应用水平。未来,团队还将在复杂指令处理能力、多角色交互等方面进一步探索,扩大模型在更多场景中的应用。
本文系观察者网独家稿件,未经授权,不得转载。
1、18亿广告总裁转型投资餐饮,她用2年时间拿下6家店,中国广告龙头老大
2、外媒:SpaceX“星链”突遭全球性网络中断2.5小时,马斯克致歉
3、财政部唐龙生:上半年全国一般公共预算收入超11.5万亿元,同比下降0.3%