今天,腾讯混元发布图生视频模型并对外开源,一起上线对口型与动作驱动等玩法,并支撑生成布景音效及2K高质量视频。根据图生视频的才能,用户只需上传一张图片,并简略描绘期望画面怎么运动、镜头怎么调度等,混元即可按要求让图片动起来,变成5秒的短视频,还能主动配上布景音效。
此外,上传一张人物图片,并输入期望“对口型”的文字或音频,图片中的人物即可“说话”或“歌唱”;运用“动作驱动”才能,还能一键生成同款跳舞视频。
此次开源的图生视频模型,是混元文生视频模型开源作业的连续,模型总参数量坚持 130 亿,模型适用于多种类型的人物和场景,包含写实视频制造、动漫人物乃至CGI人物制造的生成。