视频生成大模型赛道，只是看上去拥挤|界面新闻

文｜新莓daybreak 翟文婷

2024年最后一个月，国产大模型落地应用突然加速。尤其视频生成模型，就像密集射出子弹后的枪管，热得发烫。

12月19日，快手可灵更新了1.6模型，相比两周前高调扩散AI导演共创计划，这个动作显得安静很多。但是快手选择升级模型的这个时间点，似乎有些深意。

因为一天前的12月18日，字节火山原动力大会，第一次对外发布豆包视频生成大模型。同时张楠从抖音来到剪映成为掌门人之后，首次对外亮相。她简短介绍了今年5月份就推出的即梦，一款跟可灵类似的视频生成工具。

会上，张楠给出即梦的明确含义：想象力相机，以此对应抖音的现实相机。但是她没有讲太多产品细节，只是播放了两个样片。她说产品和技术都还在早期阶段。

这可能是避免外界将即梦和一周前公布的Sora Turbo做直接对比。

OpenAI年底为期12天的直播，重头戏是在12月10日，长达10个月的铺垫之后，Sora终于揭开面纱。

其中最大亮点是「故事板」（view story）功能，提示词可以直接转化剧本。此外新版Sora视频生成速度更快，编辑功能更实用。为此，用户每月要付出200美元的成本。所以虽然产品发布当天，服务器被海量流量冲击崩溃，但吐槽声音不断。

不管怎样，在大模型先锋OpenAI之后发布产品总是压力不小，除非有更惊喜强大的产品亮点，否则容易黯然失色。

因此，腾讯混元在12月初就抢先一步推出视频生成大模型，且将应用名字称作「元宝」。不过，相比Sora、可灵、即梦等既能文生视频也能图生视频的工具，腾讯混元目前只能文生视频。

问题在于，目前大模型对语义理解水平能力有限，所有文生视频的应用效果远远达不到令人满意的地步，也很难吸引AGIC创作者积极使用。

腾讯自然是明白的。所以产品发布当天，开源是腾讯积极释放的信号。

虽然国产视频生成应用也近10多款，从过去20天的情况来看，国产视频生成模型还是掌握在大公司手里，这不仅跟大模型水平、算力有关，视频数据积累更是决定性因素。而且大模型早期弥漫的一种FOMO情绪（Fear of Missing Out），此刻依然有迹可循。

只是正如张楠所说，产品和技术还处在早期。如果你了解到现在的AI视频是怎么做出来的，就不会被渲染的画面迷惑，只是发出一声惊叹。

此刻仅仅是发令枪响起，不要太早下结论。

01 图生视频是主流？

在我们接收到的信息中，大模型生成视频似乎易如反掌，一段文字还你一段视频，且效果比肩影视大片。人人都是大导演，近在迟尺。

事实是，AI视频的确降低了生产门槛，只是那些制作精良的广告宣传片、短剧类AI视频，还是少数人掌握的技能。

有必要先讲下一个2分钟的AI短片是怎么做出来的。

首先，跟传统创作类似，创作者要先拿出脚本，只不过是基于AI能力可以实现的内容。这个步骤是可以借助AI工具，ChatGPT、Kimi和智谱清言是被提及最多的。

其次，根据视频脚本拆解细化的分镜内容，创作者用AI文生图工具将分镜先以静态图的方式展现。

如果是有专业或者商业要求，比如广告，宣传片，短剧等，希望达到传统拍摄的专业与合理性，在将静态分镜图转成视频之前，需要创作者将生成的静态图进行PS后期及图片超分辨率处理来提高图片的原始质量，以次保证图生视频的质量基础。

之后，将这些图片给到AI视频工具进行动态分镜生成。Sora的720p单次可以生成最长20秒的视频，国产大模型一次都只能生成5-10秒的视频。

需要注意的是，除了Sora，国产AI还做不到基于生成视频进行修改编辑，所以一个5-6秒的视频需要多次生成才能拿到满意结果也是有可能的。

现在我们看到的2-3分钟AI视频，绝大部分都是图生视频，而且原料是经过专业处理的图片，需要多次续写并配合后期剪辑而成。

虽然目前国产视频生成模型中，只有腾讯混元是免费的，没有收费项目，但文生视频依然面临激励创作者使用的障碍（今年5月份腾讯生成式AI产业峰会上，腾讯公布的多模态能力中，其中提到混元支持图文等形态生成视频能力，只是还没有图生视频的落地应用）：

首先是大模型语义理解能力局限，视频最终呈现的是不是文字描述的东西，以及是不是符合创作者脑海设想的画面？

其次在于一致性。比如，你希望以「一个穿着淡黄色长裙的女生」为主角，生成一个长1-2分钟的连续视频。

按照现在大模型能力，你可能要不断续写几十次甚至上百次才有可能最终实现。但是可能你每次文字输入生成的视频中，这个女生的五官和穿的长裙款式都不一样，五官可能存在年龄与样貌偏差，服装颜色可能是浅黄、深黄或是橙黄，这就是一致性问题。

但是图生视频可以提前确定统一色调，在图片处理方面配合Comfy UI（一款基于节点工作流稳定扩散算法的图形界面）的换脸、换服装等功能做到人物一致性。

文生视频也不是被束之高阁，如果你要的就是短短五六秒的东西，或者一键让静图活动起来，使用门槛要更低一些。在文生视频领域，尚在内测阶段的腾讯混元（一天只能测试6次）的确是超出现在行业平均水平的。

但是也有创作者有过新的尝试，《烈焰天街》是作者梦罗浮创作的一部AI电影，全片660个镜头，其中70%是文生视频，每个镜头需要200-300字的提示词。他在分享创作心得时解释，「之所以用文生视频做主体创作，因为它表情和肢体动作比图生视频真实。」

他提到，即梦文生视频效果很像图生视频，「放眼望去，人人都是主演，多人内容场景模型不崩坏」。

不管怎样，现在看到绝美或是接近物理现实的AI视频，是少数懂得设计、审美，熟练操作各种工具的专业人士做出来的。你也可以理解为，这些人是AI视频的种子用户。一年前，他们中大部分是AI绘画工具的熟练掌握者，活跃在小红书平台。

因此，相比豆包、Kimi等AI对话类产品上来就海量投放转化的动作，可灵、即梦前期更多是在尽可能网罗种子用户的参与，激励他们创作更多作品，各个社群这些创作者都是被争取的对象。其中一些敏锐的创作者，靠售卖AIGC培训教程，抓住了一波变现红利。

成为各个应用的超创，创作者可以有机会获得平台推送的商单，免费积分，包括于电视台合作的支持。但可能平台也会要求超创每月输出一定的视频创作，甚至免费配合产品宣讲教程。

从大厂的一些动作也透露出应用在引导的用户群体和使用场景。

可灵从影视专业人员群体攻入，之前他们也提出AI+短剧的计划，意图就是在影视、广告、游戏等领域嫁接AI。自上而下渗透的意图显而易见。

腾讯混元在介绍中就明确提出，可在工业级商业场景例如广告宣传、动画制作等场景。腾讯广告妙思平台就已经接入文生图模式，降低广告主的创作门槛。

02 看不见的决定因素

尽管即梦和可灵具备图生视频的能力，已经占据一定的用户心智，但对于他们而言，依然前路漫漫。

除了我们所能感知到的产品特征和差异，国产AI视频应用的底层模型架构，有很大的相似性。

腾讯混元和快手可灵都是采用了跟Sora类似的DiT（Diffusion Transformer）模型架构。包括MiniMax的海螺AI也是如此选择。

一种观点认为，与OpenAI其他产品不同，在算力充足的前提下，DiT架构路径复刻难度相对较低。这也是国产视频生成大模型在短短几个月，布局速度和落地结果超出预期的原因。

但是接下来在一些关键性问题解决上，就看各家公司的底层优化能力和数据训练结果。

AGIC创作者温维斯Wenvis告诉新莓daybreak，他对AI视频应用实现的结果有两个期望：一是快速展现出自己脑海的想法，且跟预期是比较相符的；二是成为自己的灵感激发器，不一定是成品，但想法会被启发或提升。

在可灵发起的AI导演共创计划中，温维斯是导演王子川的AI合作者，他们共同创作了《雏菊》，前期一个基本想法就是，尽量避开AI不擅长的地方。

就目前而言，视频生成模型共同努力方向有几个：一致性，视觉真实度，动态幅度，提示词的语义理解能力等。

比如尽管很多产品宣称一致性表现不错，但几乎所有公司都还在默默努力。只有创业公司生数科技曾在今年9月高调发布所谓「全球首个支持多主体一致性的多模态大模型」，公司旗下产品Vidu现在已经开放使用，测评反馈在2D及多主体一致上表现不错，缺点是画面太糊，即使是会员可以享受高分辨率的用户也依然存在这个问题。

再比如，不论国内国外，AI视频软件的动态幅度都有待提升。最基本的人物开口说话，做一些特定的肢体动作，比如武术，运动体操这类大幅动作，目前所有工具表现都不尽如人意。

导演俞白眉接触AI最想探索的就是与动作连接的部分，他知道AI在规定镜头的运动方面，不是强项，也不擅长真人动作。但他还是积极参与了可灵的导演计划，希望尝试创作出一些之前没有见过的动作片段。

谈及整个创作过程，他说一言难尽，结果也差强人意，「这些作品都是涂鸦」。但他也提到，中间有趣味存在，学到了很多东西。

俞白眉的体感可能会得到不少共鸣。所以，创作者会根据不同题材，不同需求，使用不同的AI视频工具。也许个人创作偏好会导致他使用某个工具多一些，但现在远不到哪款产品形成绝对优势的地步。

国产AI生成视频应用，快手旗下的可灵是唯一公布过数据的。

快手第三季度财报发布时，可灵9月份月活超150万。到了12月10日，累计用户数达到600万，生成视频数量为6500万，图片超1.75亿张。快手还公布过商业化成绩，单月流水超过千万元，据说为此内部还切蛋糕，小小庆祝了一下。

可灵是国产大模型生成视频动作相对较快的一个，有种抢跑加速的焦虑感。

今年6月产品上线，当月就推出图生视频，以及续写视频，从一开始的最长2分钟延伸至3分钟。而且很早就明确跟短剧、影视相结合，可灵生成最早流传到海外的视频还被马斯克看到并点评。

即梦推出时间比可灵要更早，对外释放的信息和动作没有可灵频繁。但是因为字节AI部署能力和广泛用户基础，即梦在创作者群体的呼声也很高。

叶锦添有两句话说得非常好：如果用3D传统的方式，每次想试一样东西都要花同样的时间，但AI是不用的。这给了我不同的速度感，我就开始去领会，AI会影响我怎么看这个世界。他还说，AI有时候走得比我们快，所以有可能带来另外一种经验。

AI一天，人间一年。

文｜新莓daybreak 翟文婷

2024年最后一个月，国产大模型落地应用突然加速。尤其视频生成模型，就像密集射出子弹后的枪管，热得发烫。

这可能是避免外界将即梦和一周前公布的Sora Turbo做直接对比。

OpenAI年底为期12天的直播，重头戏是在12月10日，长达10个月的铺垫之后，Sora终于揭开面纱。

不管怎样，在大模型先锋OpenAI之后发布产品总是压力不小，除非有更惊喜强大的产品亮点，否则容易黯然失色。

问题在于，目前大模型对语义理解水平能力有限，所有文生视频的应用效果远远达不到令人满意的地步，也很难吸引AGIC创作者积极使用。

腾讯自然是明白的。所以产品发布当天，开源是腾讯积极释放的信号。

只是正如张楠所说，产品和技术还处在早期。如果你了解到现在的AI视频是怎么做出来的，就不会被渲染的画面迷惑，只是发出一声惊叹。

此刻仅仅是发令枪响起，不要太早下结论。

01 图生视频是主流？

在我们接收到的信息中，大模型生成视频似乎易如反掌，一段文字还你一段视频，且效果比肩影视大片。人人都是大导演，近在迟尺。

事实是，AI视频的确降低了生产门槛，只是那些制作精良的广告宣传片、短剧类AI视频，还是少数人掌握的技能。

有必要先讲下一个2分钟的AI短片是怎么做出来的。

其次，根据视频脚本拆解细化的分镜内容，创作者用AI文生图工具将分镜先以静态图的方式展现。

之后，将这些图片给到AI视频工具进行动态分镜生成。Sora的720p单次可以生成最长20秒的视频，国产大模型一次都只能生成5-10秒的视频。

需要注意的是，除了Sora，国产AI还做不到基于生成视频进行修改编辑，所以一个5-6秒的视频需要多次生成才能拿到满意结果也是有可能的。

现在我们看到的2-3分钟AI视频，绝大部分都是图生视频，而且原料是经过专业处理的图片，需要多次续写并配合后期剪辑而成。

首先是大模型语义理解能力局限，视频最终呈现的是不是文字描述的东西，以及是不是符合创作者脑海设想的画面？

其次在于一致性。比如，你希望以「一个穿着淡黄色长裙的女生」为主角，生成一个长1-2分钟的连续视频。

他提到，即梦文生视频效果很像图生视频，「放眼望去，人人都是主演，多人内容场景模型不崩坏」。

从大厂的一些动作也透露出应用在引导的用户群体和使用场景。

可灵从影视专业人员群体攻入，之前他们也提出AI+短剧的计划，意图就是在影视、广告、游戏等领域嫁接AI。自上而下渗透的意图显而易见。

02 看不见的决定因素

尽管即梦和可灵具备图生视频的能力，已经占据一定的用户心智，但对于他们而言，依然前路漫漫。

除了我们所能感知到的产品特征和差异，国产AI视频应用的底层模型架构，有很大的相似性。

腾讯混元和快手可灵都是采用了跟Sora类似的DiT（Diffusion Transformer）模型架构。包括MiniMax的海螺AI也是如此选择。

但是接下来在一些关键性问题解决上，就看各家公司的底层优化能力和数据训练结果。

在可灵发起的AI导演共创计划中，温维斯是导演王子川的AI合作者，他们共同创作了《雏菊》，前期一个基本想法就是，尽量避开AI不擅长的地方。

就目前而言，视频生成模型共同努力方向有几个：一致性，视觉真实度，动态幅度，提示词的语义理解能力等。

谈及整个创作过程，他说一言难尽，结果也差强人意，「这些作品都是涂鸦」。但他也提到，中间有趣味存在，学到了很多东西。

国产AI生成视频应用，快手旗下的可灵是唯一公布过数据的。

可灵是国产大模型生成视频动作相对较快的一个，有种抢跑加速的焦虑感。

即梦推出时间比可灵要更早，对外释放的信息和动作没有可灵频繁。但是因为字节AI部署能力和广泛用户基础，即梦在创作者群体的呼声也很高。

AI一天，人间一年。

历史搜索全部删除

热门搜索

视频生成大模型赛道，只是看上去拥挤

01 图生视频是主流？

02 看不见的决定因素

评论

视频生成大模型赛道，只是看上去拥挤

01 图生视频是主流？

02 看不见的决定因素