文|亿邦动力网 胡镤心
编辑|张睿
当主播在直播间讲解冲锋衣时,她可以瞬移般转场到户外、雪山、漫天风雪中,展示冲锋衣的使用场景;当主播在在直播间卖连衣裙时,则可以自然地走进不同城市街头咖啡馆,展示日常场景中的穿着效果……
这不是魔法,也不是电影特效,而是文生视频模型与电商直播的结合。
OpenAI发布的Sora将视频生成能力带到了新的高度,相应地也带来了丰富的应用想象空间。
IDC中国研究总监卢言霞认为,视频生成将最先应用于短视频、广告、互娱、影视、媒体等领域。当前Sora生成的是1分钟的视频,对于行业已经是重大突破,只是下一步何时能生成2分钟5分钟以上的视频,不可预测。
显然,视频营销的生产方式将彻底重构,无论是将主播和商品置于虚拟场景中,还是为商品创作更丰富的营销素材,品牌方、营销公司、视频平台、消费者,将欣喜地迎接抑或无奈地接受一个光怪陆离的新世界。
背后的核心问题是:基于大模型的AI电商到底长什么样子?
最新消息,Sora已于2月26日开放对外申请。目前有两种方式能用上官方版的Sora,第一,著名艺术从业者优先;第二,加入Red Teaming(专家社区,为OpenAI 提供风险评估)。同时,字节跳动剪映旗下的AI创作平台DreaminaAI也即将上线视频生成能力,目前已开始接收内测申请。
01 从视频营销到情感电商,Sora改变了什么?
当下的电商营销视频主要包括直播切片和商品展示两类。比如极睿科技的产品iCut,可以自动从直播中识别商品卖点,剪辑片段、保留语音、生成字幕,还能自动增加配乐、转场特效、标题、侧幕、品牌Logo等元素供品牌分发。卖家可以一边直播一边实时获得海量短视频素材。
“我们的工作更多是从1到100生产素材,Sora则可以帮助我们从0到1生产素材。”极睿科技CEO武彬说。
武彬介绍,此前电商不能用视频生成模型,主要原因有三:第一,视频时长太短,无法进行商品讲解。第二,清晰度不够。第三,可控性较差。
从生成效果来说,Sora弥补了电商营销素材生成的部分短板。
在Sora展示出的demo中,清晰度和完整度很好,一分钟也是一个常见的视频长度,适合卖家去制作并发布到淘宝逛逛、京东种草秀或抖音上。
Sora可以生成吸引眼球的空镜,比如蝴蝶在海底飞。
来源:Sora
还可以更换商品背景,配合展示。比如,在直播间讲解冲锋衣的主播,可以流畅地转场到户外、雪山、漫天风雪中,展示冲锋衣的使用场景。在直播间卖连衣裙的主播,则可以自然地走进都市街头咖啡馆,在日常场景中讲解商品。
来源:Sora
极睿科技要做的则是将此前积累的商品、场景、细节等行业知识,组合成合适的Prompt,完成内容生产。
同为电商营销的奥创光年也希望通过AIGC提升原始素材的创建速度,“因为用户给的素材可能是不够的,再加上平台现在的判重机制更严格,内容是否起量有一定随机性,需要我们提高视频生成的质量和效率,加快创意方向的探索和迭代,我们也希望把原始素材生成的比例提高。”奥创光年研发负责人张红春指出。
他指出,Sora对prompt的遵循能力与理解能力令人惊讶,视频补全、穿插过渡都非常自然,不管是3D的、多角度的、一镜到底的,数据cover得很全,因此可以生成更多原始素材,实现单点突破。
从成本角度,AI比摄影师和模特的成本更低。按DALL·E-3生成单张图片的价格来初步估算(DALL·E-3生成一张1024×1024的照片收费0.04美元),Sora生成1分钟视频的成本大约500多元。但因Sora参数规模增大,推理效率的优化也需要时间,现阶段应高于这个预估价。对于大B商家来说,找人实拍1分钟视频的成本在1000-2000元,随着模型可控能力、推理能力的迭代提升,在效果满足的情况下,成本降低至预估价范围,AI应用可以更加普及。
但电商营销要求“货对版”,不管是细微的色差,还是装饰品1厘米的误差,对电商来说都算虚假宣传。为此,奥创光年通过商品实拍和背景生成分开的方式来生产视频。“一部分实拍、一部分合成。在商品已固定,展示环节已固定的情况下,围绕商品的所有的元素都可以通过Sora生成。”张红春说。
“Sora解决不了货不对板的问题,意味着它并不真的理解物理世界,需要人的逻辑来弥补它的短板。”凌迪科技Style3D首席科学家王华民认为,“很多人夸大了Sora所代表的智能,它其实用海量数据,达到了很浅的智能,而且它的逻辑性和对物理世界底层的理解是有瑕疵的,最好由3D和物理仿真技术来提供整个逻辑关系,由AI来润色。现在的AI更适合扮演Copilot的角色。”
凌迪科技Style3D的思路是,提供从产品设计到销售展示的全链路3D+AI工具。
在设计阶段,凌迪科技Style3D提供的Style3D iCreate,帮助设计师或建模师以AI的发散性快速获取创意灵感;
确定款式后,使用Style3D Studio制作成精准的、可用于生产的3D虚拟样衣;
在上身展示环节,可以调用Style3D Studio资源库中的数字人模特,模特的表情、姿势、发型、配饰及背景都可进行调整;
基于3D虚拟样衣,结合AI优化,还可以一键生成电商上新图及详情页。整个过程最快仅需24小时。
“我们更偏向于做AI Agent,辅助从业者做好每一步。至于Sora所代表的视频生成,对我们肯定有帮助,但目前我想不出视频生成对设计师作用有多大。”王华民莞尔。
图片来源:Style3D
武彬认为,Sora更多是能力上的补充,并不能改变to B的产品逻辑。
电商营销素材的制作包括三个环节:素材整理,智能生成,多渠道分发。Sora在视频生成环节起作用,但在素材整理和渠道分发上,还是使用原有工具。“对于我们来说,模型是什么样,智能到什么程度不重要,重要的是能够实现目标,那就是一个好的AI。”武彬表示。
Sora刚发布了demo,硅基智能已经开始训练demo中的数字人开口说话。
硅基智能的业务是为大V制造数字人分身直播,并且为MCN机构提供数字人主播带货。那么Sora将如何改变直播带货?
在硅基智能CEO司马华鹏看来,下一代电商不一定是货架电商形式,“不能因为你给马车加了一盏电灯,就认为这是电气化。”
他提到一家以情感、陪伴、信任为中心的AI企业——Character AI,使用方式类似于钢铁侠的智能助手Javis,钢铁侠问Javis:“今天跟女朋友第一次约会,给我推荐一套西装。”Javis提供备选产品,确定后就安排送货上门。在沟通中完成购买,相当于“情感电商”。
“我有一个非常中立、非常爱我、非常替我考虑的AI助理,我今天问他晚上吃什么,它会基于我的个人信息、喜好、体质进行推荐,我觉得这有可能是新的电商,每个人接下来都会有个助理,这个事情会会对所有商业产生非常大的颠覆。”司马华鹏如是说。
而数字人就是这个AI助理的载体,目前,硅基智能不仅将数字人克隆技术从8000元降到4元,而且Sora能生成场景和数字人原型,结合硅基的数字人训练技术,给内容产业带来的冲击是巨大的。此外硅基智能试水数字人短剧拍摄,通过数字人+AI工具,成本降低10倍。
02 视频生成群雄竞出,Open AI缘何一枝独秀?
2024年的视频生成领域热闹非凡。1月4日,阿里云的“全民舞王”(Animate Anyone模型)横扫社交媒体。1月11日,字节跳动发布文生视频模型MagicVideo-V2,支持生成4K、8K分辨率,以及不同绘画风格的视频。1月17日,腾讯AI实验室发布了视频生成模型VideoCrafter2。同一天,来自百度的团队发布了视频生成模型UniVG。
在技术架构上,Sora相较于当下的视频生成模型,至少领先一代。
张红春介绍,像Pika、Runway,animatediff系列等视频生成模型,为充分地利用image diffusion的预训练权重和知识,都是在单帧图片的spatial模块后面,加一个时序(temporal)模块,来学习帧与帧之间的连贯性。这种通过空间和时间解耦的方式来建模,并非最优的视频表征和建模方法。
相比之下,不论是Google的W.A.L.T和Sroa,都在整个pipeline各模块上对空间(spatiotemporal)统一建模,同时借鉴DiT的思想,把unet替换为transformer,提升模型scaling up的能力;相对W.A.L.T,Sora在数据质量、数据多样性、多尺寸多分辨率等方面,又做了很多工作,多因素的累加让最终效果一骑绝尘。
来源:Sora技术文档
从大语言模型到多模态大模型,核心难点是把各个模态转成token喂到语言模型中去。张红春介绍,文本天然是token化的,图片和视频也有压缩方式进行token化,比如谷歌的MAGVIT;音频领域,谷歌也推出音频生成技术做底层的音频token化。所以谷歌和OpenAI都储备了音频、视频、图片、文本的token化技术。
但是国内目前谈论较多的是文本和图片的token化,音频、视频的token化能力还不多见。
来源:Google
XR创业者谢明炫认为,Sora展示了一种实时生成数字内容和虚拟世界的可能性,这让虚拟空间会成为新一代的大众媒介,取代短视频平台。
元宇宙的难点在于数字内容的生产效率太低——先要3D建模、贴图,再到游戏引擎中去制作,过程复杂,门槛过高。Sora的机制则是一种全新渲染引擎的可能性,以后的内容制作方式可以基于提示词创建3D内容。基于Sora,数字内容的生产中,脚本是自然语言,而不是编程语言,大幅降低数字世界的门槛,每个人都可以去很快速的去建造一个数字世界。
至于Sora自身的发展方式,大多从业者的共识还是,Sora还会被塞到大语言模型GPT-5中,形成类似谷歌Videopoet的产品形态。“理论上Sora应该是放到上下文里面去,基于更长的上下文去做理解推理、生成和交互。语言模型最适合做基础,也最适合做各个模型之间的大一统,放到语言模型中才能更好和人交互。”张红春总结。
文字生成领域没有太成熟的商业模式,以至于Open AI也不确定GPT生成的文字应该如何定价。但是视频生成有非常成熟的商业模式,一个短视频能卖多少钱,一部电影/电视剧多少钱,都有对应标准。“Sora开放后,如果测评好,千亿美元收入是可以的。按照市销率几十倍来估算,很容易做到万亿市值,我觉得这个事情并不难。”司马华鹏表示。
“视频生成这个路径会给OpenAI会带来非常大的收入,我预计会超过千亿美元。”司马华鹏补充。
回到Sora背后的Open AI,为何它的模型能够一枝独秀?
有国内AI企业高管告诉亿邦动力,2019年他试图挖一个OpenAI员工。沟通中他介绍,我们的愿景是帮助人类从碳基走向硅基。OpenAI员工回复,我们的愿景是创造上帝。
03 技术路线见顶,AI之王的盛世隐忧?
另一方面,相当数量的AI从业者看到Sora背后的技术隐忧。
OpenA遵循“大数据、大模型、大算力”的技术路线,把Scale当作核心价值观之一:我们相信规模——在我们的模型、系统、自身、过程以及抱负中——具有魔力。当有疑问时,就扩大规模,Sora就是这一思路的代表。
但王华民认为,很多从业者都看到了这一技术路径的上限,震惊于对Sora一边倒的赞美。
OpenAI的能力突破来自于率先使用了前人没用过的数据,数据量可以很快上涨。但大模型需要的数据量呈指数级增长,而全球的高质量语言数据预计将于2024年用尽。“我们对数据量太过乐观,全球数据上限会比算力上限更早到来。”王华民分析。
数据量达到上限,暴力美学的技术路线也将达到上限,而机器合成的数据会让模型效果变差,我们的不少访谈对象都认同这一观点。
高质量语言数据耗尽速度,来源:科技博主Dwarkesh Patel
Meta首席科学家杨立昆也认为,随着数据量见顶,模型性能会趋于饱和,我们需要其他维度的突破,要依靠科学研究,而不是追求数据量的增长。“现阶段没有这种技术能让AI像婴儿观察世界一样来学习。我们正在研究这个问题,希望得到突破。”
2023年,杨立昆提出一个新构思,即根据大脑运行机制,建立一个端到端的仿生架构,包含6个核心模块:配置器、感知模块、世界模型、成本模块、参与者模块和短期记忆模块,他基于该理念设计出V-JEPA“非生成模型”。
这至少代表暴力美学路径之外的另一条路径。在王华民看来,“杨立昆在做的事情,我们不敢保证他是不是能做成,但起码他们团队对这些事情是有认知的,知道现有的问题在哪。如果你连问题是什么都不知道,那就根本不可能去解决它。”
杨立昆的自主智能系统的架构示意图,来源《通向自主机器智能的路径版本0.9.2, 2022-06-27》
技术发展是非线性的,一个技术路线走到一定程度就会停止,之后会有新技术路线冒出来,超越它,达到更高的程度。“AI也是一样,Sora这一浪目前看是到不了理解物理,实现AGI的程度,后面会有新技术出来把它覆盖掉,最终我们是可以把AGI或者世界模型做出来的。”王华民总结。
没人知道OpenAI在想什么,“Sora发布前,外界并不知道他们在干什么,做到什么程度。”有创业者告诉亿邦动力,“OpenAI内部已经军事化管理,OpenAI的模型不止Sora一种,但大家并不知道有什么,而且他们在深度使用这些模型。”
或许在新一轮技术浪潮到来之前,我们期待Sora能在更多的场景中落地。
评论