商汤科技数字文娱事业部总经理栾青：未来三到五年，更多大模型应用场景将逐步解锁

界面新闻记者 | 陈振芳
界面新闻编辑 | 文姝琪

9月6日上午，在界面新闻举办的2024 REAL科技大会上，商汤数字文娱事业部总经理栾青在演讲中介绍，商汤为AI大模型全方位布局，覆盖算力基础层、AI模型层与上层应用。

商汤大装置管理的算力实现了全国联网的统一调度，在上海、深圳、广州、福州、济南、重庆等地都拓展了新的计算节点，截止2024年7月，总算力规模高达20000 petaFLOPS ，已有超5.4万块GPU。

今年7月，商汤发布“日日新5o”模型，交互体验对标GPT-4o，实现全新AI交互模式。该模型能够整合跨模态信息，通过基于声音、文本、图像和视频等多种形式，呈现实时的流式多模态交互。

在视频生成领域，商汤在7月发布首个“可控”人物视频生成大模型Vimi，该模型主要面向C端用户，支持聊天、唱歌、舞动等多种娱乐互动场景。Vimi可生成长达1分钟的单镜头人物类视频，画面效果不会随着时间的变化而劣化或失真，通过一张任意风格的照片就能生成和目标动作一致的人物类视频，通过已有人物视频、动画、声音、文字等多种元素进行驱动。

栾青提出，2024年将成为AI视频的应用元年，未来三到五年，更多应用场景将随着模型能力提升和推理成本下降逐步解锁。

其次，AI视频生成将重塑传统视频制作工作，整合音视频创作的流程方法变为一个整体，降低AI视频内容的制作门槛，并以全新视频交互界面展现。

过去十几年，视频产业一直不断地发展，制作一个视频从几百人的团队，精简至几十个人的网剧团队，再到个人也可以创作短视频。技术推动下，视频团队和制作时间不断精简，而视频数量却在指数级的爆增，人类的消费习惯从曾经的看文案、图片、新闻，变成了看视频。

栾青认为，当视频的生成速度更快，甚至达到实时生成视频，AI能够带来新的交互体验，例如通过算法自动地控制人物动作，实时可交互的视频。

当前，AI视频生成有两大方向，一是用文字提示生成视频；另一个则是用其他信号，比如可控的逻辑性信号。例如动画设计师会捕捉人体和自然信号，再让人工智能学习，最终完成。这样生成的人物不仅合理，还能随着可控的信号进行变化。

栾青也提到，AI视频大模型在人物类视频生成上存在三大挑战：人物动作、表情难以精确控制，出效果仅靠大量“抽卡” ；人物身份稳定性不高，“常常换长相” ；仅支持稳定生成3-4秒时长，难以满足需求。因此，日常视频创作尚未达到可用的阶段。

“当前人们每天看到的视频80%都是人物为主题的视频。”

栾青介绍，商汤正在尝试用APP帮助用户来生成视频写真大片，利用AI算法控制运镜、光影变化、人物背景，让内容变得更真实和自然。例如用户输入一张照片，大模型产品也可以用不同的动画方式去制作内容，让内容形式更为丰富。

栾青认为，随着AGI技术在视频领域的深入，除了生产效率的变化，更多的是全新体验。大模型的能力可以让普通人更好的进行创作。

界面新闻记者 | 陈振芳
界面新闻编辑 | 文姝琪

栾青提出，2024年将成为AI视频的应用元年，未来三到五年，更多应用场景将随着模型能力提升和推理成本下降逐步解锁。

其次，AI视频生成将重塑传统视频制作工作，整合音视频创作的流程方法变为一个整体，降低AI视频内容的制作门槛，并以全新视频交互界面展现。

栾青认为，当视频的生成速度更快，甚至达到实时生成视频，AI能够带来新的交互体验，例如通过算法自动地控制人物动作，实时可交互的视频。

“当前人们每天看到的视频80%都是人物为主题的视频。”

栾青认为，随着AGI技术在视频领域的深入，除了生产效率的变化，更多的是全新体验。大模型的能力可以让普通人更好的进行创作。

历史搜索全部删除

热门搜索

商汤科技数字文娱事业部总经理栾青：未来三到五年，更多大模型应用场景将逐步解锁 | REAL大会

商汤科技

评论

商汤科技数字文娱事业部总经理栾青：未来三到五年，更多大模型应用场景将逐步解锁 | REAL大会