Sora后观察：AI大模型产业落地的八个锚点|界面新闻

文 | 产业家斗斗

编辑 | 皮爷

“电影讲述了一名30岁男士的太空历险记，他身穿红色羊毛针织，戴着摩托车头盔，放眼望去只有蓝天和盐漠。请制作出色彩鲜艳的电影风格短片，用35毫米的胶片拍摄。”

这段提示词来自OpenAI 首个文生视频模型 Sora的介绍页面。在提示词对应的视频中，视频播放流畅、画质清晰、视频长度、连贯性、多镜头切换等方面的出色表现让人惊叹。

值得注意的是，在Pika发布产品后的短短不到3个月时间里，OpenAI Sora 在视频时长、视频画幅、扩展视频能力等方面就迈出了堪称“王炸”新一步。

资本市场显示，随着AI视频模型Sora的炸裂登场，A股掀起AI热潮，盘中人工智能指数一度涨超7%，多只个股涨停。

2024年的大门，已然由人工智能大模型“文生视频”敲响。一个崭新时代正在来临。

过去的一年，从生成式AI的爆发性创新，到模型小型化与场景化应用的深度融合，再到开源生态的繁荣和跨领域的协同效应，AI大模型正以前所未有的速度重塑世界。

在这个历史性的转折点上，也在Sora出现的节点，我们试图深入剖析AI大模型发展的8个锚点：在已经拉开帷幕的2024年，AI技术的发展标志将会是什么？将会在哪里？以及通向AGI，当下的世界将会走出哪几条路？

毫无疑问，一轮新的AI生产力革命正在到来。

一、垂直模型走出来，加速大模型落地

一个市场共识是，在通用大模型领域，鉴于高昂的研发资金壁垒，只有少数科技巨头有望在竞争中胜出，因为基础大模型对于需求多元的广大中小企业来说并不具备广泛适用性。

就目前来看，市面上的主流大模型厂商互联网厂商几乎占据半壁江山，例如百度文心大模型、阿里通义大模型、腾讯混元大模型等。

客观来看，通用大模型往往难以精准解决所有企业的具体问题，企业选择大模型时，关键考量因素还包括其对行业特性的契合度、数据安全策略、迭代升级能力以及综合成本效益等。

能够预知的是，今年大模型发展将会愈发呈现显著的细分化趋势，主要分为通用型、专用型以及针对特定场景设计的模型。

垂直行业的专业模型将在推动大模型广泛应用方面扮演重要角色，通过整合通用公域数据与行业专有数据，共同构建起产业级大模型训练所需的数据基础。

例如，在医疗行业中，由润达医疗联手华为云研发的“良医小慧”就是一款专注于医疗检验领域的垂直大模型，它基于盘古大模型和慧检检验知识图谱进行构建。同样地，在教育领域，网易有道推出的首个经官方备案的教育垂直大模型——“子曰”，已经成功应用于智能硬件及App产品之中。

来源：亿欧·TE《AIGC商业落地产业图谱2.0》

供应链管理方面，企企通凭借其在数字采购方面的“多边赋能”战略，很可能已在探索或已研发出专门针对采购和供应链管理流程优化的垂直AI模型。在旅游行业，携程推出的首个旅游垂直大模型“携程问道”，为用户提供全程智能化的服务支持，从出行前的规划到旅途中的服务再到行程后的反馈，都体现了AI技术对旅游业深度变革的影响。

这种行业垂直模型在新的一年里将成为技术突破之外的一个核心落地趋势，即专注行业、专注产业、专注垂直数据。如企业安全管理、财税管理等领域，这些更为精密的领域或将在2024年出现新的AI机会。

二、AI Agent，C端AI应用跑向全面商业化

随着深度学习、强化学习等人工智能理论研究的发展，以及大模型如GPT系列、Alpha系列等在实践中的成功运用，如今的AI Agent已经具备了较为成熟的知识表示、学习和推理能力。

从国外视角来看，如今OpenAI的GPT-3已用于生成代码、文本创作等多种场景，可以作为成熟的C端工具被人们使用，

除了单纯工具层面的使用，伴随着技术突破和应用逐渐落地，AI Agent正逐步实现视觉、听觉、语言等多模态信息的综合处理，使其能够理解并适应更为复杂的现实环境，并应用于C端市场。

例如，谷歌提出的CoCa就是结合图像和文字理解的多模态预训练模型，其应用场景正在不断拓宽。在客户服务、教育、医疗、工业制造等领域，基于AI Agent的智能客服系统、教学助手、诊断辅助工具、自动化生产线决策支持系统等开始规模化部署和应用。

此外，在2024年，还能明确看到的是AI Agent不仅体现在软件工具层面的进步，也伴随着智能硬件设备（如机器人、无人机）的智能化升级，实现了软硬一体的集成应用，进一步推动其实用化进程。例如，自动驾驶车辆中的决策系统、家庭服务机器人中的交互模块等。

无论是理论基础的夯实、技术产品的推出，还是实际案例的丰富、产业链条的完善，都充分表明AI Agent正逐步从理论研究走向实用化阶段。

国内企业也更在加速竞争这一市场，如钉钉、飞书、金山办公等AI Agent的应用。

钉钉在其产品中接入了名为“通义千问”的大模型。通过集成这一强大的AI技术，钉钉能够为用户提供更加智能的协同服务，例如智能客服、语音转文字、会议纪要自动生成、智能日程管理等。

此外，“通义千问”还可能帮助用户在工作场景下进行复杂问题的解答，提供跨部门信息查询以及根据业务需求定制化的解决方案。

飞书则推出了智能助手“MyAI”。它能够理解并执行用户的自然语言指令，处理日常工作流程中的任务，比如文件检索、项目进度跟踪、内部沟通协调等，并且结合机器学习能力不断优化用户体验。据了解，如今飞书的MyAI也在不断实现更高级别的自动化办公功能，如预测团队工作负荷、智能推荐工作流程优化方案等。

诸如此类的落地案例都正在生成熟过程中，而伴随着软件和硬件形态的成熟，AI Agent也正在从单纯的“炫技”走进实用阶段。

三、MaaS模式走向成熟，“AI+云”普惠化加速

MaaS（Model-as-a-Service，模型即服务）是一种云计算模式，通过将预先训练好的AI模型以API或SDK形式提供给开发者和企业用户使用，使得他们无需从零开始构建复杂的机器学习模型，可以快速地将AI技术集成到自己的产品和服务中。

具体来看，MaaS简化了AI的使用流程，无需用户拥有深厚的AI技术和大量计算资源来训练模型，降低了企业和个人应用AI技术的难度和成本。MaaS还提供标准化接口，用户可以根据自身需求灵活调用不同的模型服务，节省了大量的研发时间和资金投入。

用户不必在本地维护和运行复杂的模型，而是通过云端服务按需调用，实现了计算资源的有效利用和经济高效。MaaS模式能够支持不同行业、不同规模的企业快速实现业务智能化，例如精准营销、风险评估、智能客服等场景，进一步加速AI在各行业的普及和应用。

此模式下，服务商负责模型的持续优化和更新，用户只需关注业务逻辑和最终效果，可以享受到最新的AI成果和技术进步带来的好处。

从云厂商来看，华为、腾讯云、阿里云、百度智能云等一众大厂都在提供此类服务。专业厂商燧原科技也在其“曜图文生图MaaS平台”上提供了基于大模型的服务。此外，还有许多专注于特定领域或行业的初创公司和传统软件服务商也开始提供MaaS相关服务。

能够预知的是，这种模式也将成为云厂商的一种新型服务模型，在SaaS、PaaS、IaaS之外，为企业提供新型的付费模式，对云计算场而言，这恰是一个新的发展和市场拓展方向。

四、大模型“装进”终端，杀手级大模型应用诞生

2023年以来，诸多模型厂商、硬件厂商，都相继发布将大模型装进终端的愿景。芯片厂商如英伟达、英特尔和安谋等都在积极研发终端AI芯片产品，有力地支持了大模型在消费电子市场中的广泛应用。

随着技术的进步和优化，包括模型小型化、轻量化、边缘计算能力增强以及低功耗设计的发展，越来越多的大模型或其简化版本有望嵌入到个人电脑、智能手机、AR眼镜、家电等各种智能终端中。

此外，业界专家对于大模型在更多垂直领域的应用也持乐观态度，就目前而言智谱、通义等国内大模型厂商，已经逐渐推出适配手机终端的“轻量级”模型。

而在手机厂商一侧，小米公布了其历史上首个GPT大模型产品MiLM；OPPO发布了个性专属大模型与智能体即安第斯大模型（AndesGPT）；vivo 正式发布了自研AI大模型蓝心 BlueLM；荣耀Magic6支持荣耀自研的7B端侧AI大模型；华为宣布盘古大模型也开始融入到智能手机中……

这种趋势下，预计2024年会有更多的定制化、行业化的“轻量级”大模型实现商业落地，为用户带来更加个性化、高效且实时的本地智能服务。

随着这一愿景的落地，一些过去较难实现的技术也将照进现实。

例如高度个性化、能够深度理解用户需求的语音助手，可以更精准地预测用户行为和提供决策建议，帮助处理日常事务、制定行程规划等；

在医疗、法律、教育等领域，大模型可以作为专家系统，直接在移动设备上提供专业的咨询服务，例如基于患者症状即时给出初步诊断建议或法律咨询意见；

大模型驱动的图像生成、视频剪辑、文字写作等创作工具，让用户通过简单的指令就能生成高质量的内容，比如一键生成营销海报、自动生成短视频剧本等；

家庭智能设备中集成的大模型可实现自主学习与优化家庭环境，包括节能管理、安全防护、舒适生活体验等方面的自动化决策，并具备更强的理解和交互能力；

企业级软件中的大模型应用，如财务分析、市场趋势预测、客户关系管理等，可在移动端快速响应复杂问题，为管理者提供实时决策支持。

总之，在2024年，大模型与终端设备相结合的应用场景将进一步丰富和深化，从理论走向实践，并可能催生出新的杀手级应用产品和服务。这其中尤其以手机厂商和智能家居厂商为代表，作为上一个时代的入口，他们也更在致力于成为AI时代的新入口。

五、多模态大模型，重新定义人与机器交互

伴随着Sora的出现，能够感知到的是，除了在计算机视觉、自然语言处理等特定领域模型的发展，多模态大模型的进一步交叉融合或将成为2024年未来重要的实践方向。

不同于传统的交互方式通常局限于单一模态，比如键盘输入或触摸屏操作。多模态大模型可以整合并理解多种不同的输入模式（如语音、图像、文本、手势等），从而模仿人类自然交流的复杂性和丰富性，接近于我们日常生活中与他人交流的方式。

正如文章开篇所言，OpenAI Sora 便是多模态大模型的典型案例。而从资本对其的态度，就不难看出其未来落地的巨大商业价值。

可以预见，未来多模态大模型可以识别和响应用户的声音指令、面部表情、肢体动作甚至是眼神接触，使用户能够像与真人交谈一样与机器互动，极大地提高了交互的自然度和舒适感。

还能够融合不同模态的信息来提取更深层次的意义，例如通过结合视觉和听觉信息理解上下文，使得机器能更好地解析用户意图，即使在模糊、嘈杂或非正式的情境下也能进行有效沟通。

基于深度学习的大模型可以根据用户的习惯和偏好进行自我优化和个性化服务，提供更加精准的反馈和建议，实现动态且个性化的交互过程。

对于有特殊需求的用户，如残障人士，多模态交互提供了更多样化的交互手段，允许他们通过最适合自己的方式进行交流，从而提升技术的包容性和可达性。

在虚拟现实（VR）和增强现实（AR）环境中，多模态大模型能够通过感知用户的全面感官输入来创建高度沉浸式的环境，实现实时反馈和交互。

在团队协作和远程办公场景中，多模态系统能够捕捉和解释多个人同时发出的不同模态信号，促进高效沟通和协作。

这种多模态大模型，将使得未来人与机器之间的交互方式将更加丰富，或通过文字、视觉、语音等多维度沟通，进而提升效率。

目前大厂也在纷纷布局，如阿里云达摩院在自然语言处理、图像识别等领域有丰富的多模态技术应用，并已推出了相应的服务和产品；腾讯优图在计算机视觉和多模态智能方面有深度研究，其产品和服务涵盖了从内容理解到社交互动等多个应用场景；百度的大规模预训练模型如ERNIE-ViLG等具备多模态理解和生成能力，服务于搜索、广告、地图等多种场景。

六、大模型训练数据付费：数据价值提上新高度

2023年年末，OpenAI与AxelSpringer签订的一个协议表明，人工智能在使用媒体品牌内容进行大模型训练时将需要向媒体品牌付费，这意味着AI大模型向数据提供方的知识产权付费或将成为行业趋势。

2023年，国内多地出台促进 AI 技术发展的政策文件，如《北京市促进通用人工智能创新发展的若干措施》和《深圳市加快推动人工智能高质量发展水平应用行动方案》，其中均提到“ 高质量数据集”。

此外，国家网信办等七部门联合发布的《生成式人工智能服务暂行管理办法》规定了生成式 AI 服务提供者不得侵害他人知识产权。

可见，当前 AI 政策密集出台，高质量数据集和训练数据版权问题得到重视，未来优质训练数据库的价值将得到凸显。

目前在大模型训练过程中，特别是在深度学习领域中，针对大规模数据的管理和访问效率，一些向量数据库以及分布式存储系统表现较为突出，例如腾讯云推出的向量数据库服务和阿里云分布式NoSQL数据库等等。

此外，数据问题不单纯是数据库的问题，在2024年一些关于数据的隐私保护和确权问题也更将浮上水面：比如AI大模型厂商到底可以使用怎样的数据进行训练，专有数据集的来源在哪里，以及如何通过标注等获得更好的数据集，甚至基于AI大模型产出的产品，版权到底属于谁？

这些数据层面的问题将在2024年成为新的AI引爆点。

数据显示，如今AI企业平均的GPU和TPU成本分别为7.39万元和2.29万元，尽管GPU的成本较高，但其在处理并行运算，尤其是深度学习算习法方面的性能表现卓越，使得这一额外的投入成为企业无法避免的支出。

从市场占有率来看，GPU仍然是深度学习中最受欢迎的处理器架构。目前，Nvidia在GPU领域具有较强的竞争优势和品牌影响力，但实际应用中多元化的供应商选择依然存在。

七、B端，成为大模型核心主战场

在过去的一年，大模型在B端虽然已有一些成功的案例，但整体上大模型在垂直领域的定制化和实用性还处于发展阶段，此外数据隐私和安全法规可能还未完全跟上技术发展步伐，企业在应用大模型时面临合规挑战。

更为重要的是，企业内部对新技术的认知和接受程度不一，大规模部署仍需时间培养市场信心和技术准备。相关产业链配套尚待完善，包括硬件算力、软件生态、人才储备等方面需要进一步积累和发展。

而随着技术成熟度提升，大模型技术在2024年预计将达到更高的成熟度，不仅模型的性能和泛化能力更强，而且在垂直领域应用中具备更好的适应性和针对性。这使得大模型能更有效地解决B端业务中的复杂问题。

除此之外，随着数字化转型的深入，B端企业积累了大量的行业和业务数据。未来，大模型将能够更好地利用这些数据进行深度学习和预测分析，为企业的决策优化、生产效率提高和成本控制提供强大支持。

加之，云计算、边缘计算等基础设施的建设更加完善，为大模型在终端设备上的部署提供了条件，使得大模型能够在各种业务场景下实时响应，满足B端用户对快速、准确及个性化服务的需求。

如果说2023年，大模型领域还有一大批创业者们瞄准C端，那么在2024年，B端将成为最为核心的战场。对云厂商和软件厂商而言，在单纯的C端声量之外，其更多的经历也将放到B端的变现和落地上，以试图将AI转化为真正的成生产力。

写在最后：

随着AI应用的深入，对高质量、大规模且具有代表性的训练数据需求更为迫切。然而，获取和清理这类数据的成本高、难度大，尤其在处理多源异构、实时流式数据时，如何确保数据的质量、完整性及实时性是持续存在的问题。

除此之外，虽然算力不断提升，但面对日益复杂的任务场景和更精细化的应用需求，提高模型的准确率、鲁棒性、效率以及减少资源消耗仍是一大挑战。尤其是在深度学习领域，大模型训练成本高昂，模型压缩与加速、微调策略等优化手段有待进一步发展和完善。

尽管AI技术进步迅速，但将先进技术转化为实际产品和服务的过程中，需要考虑开发成本、维护成本、硬件成本等因素，同时还要保证商业模式可持续并产生可观的经济效益，这对AI整个市场的产品化能力和开放环境提出了考验。

加之不同行业有着各自独特的需求和规范，AI技术要成功商业化，就必须深入了解和适应各行业的特点，找到切实可行的应用场景，并克服行业间的壁垒，这同样是一个艰巨的过程。

总体而言，尽管如今伴随着Sora的出现，能看到的是，AI技术已经取得了显著进展，但在落地层面，数据难题、模型效能的极致追求，以及如何打破实现效果、成本和边际效应的三角形难题，商业化的诸多现实问题，仍将成为AI大模型在2024年的核心探索点。

在过去的一年里，我们看到的MaaS、AI Agent、多模态、开源、参数比拼、行业模型……这些关键词背后对应的也更是对工业世界的改变和中国产业数字化转型的加速推动，我们也更有理由想象相信，在正在进行的2024年，国内大模型也将更下沉和落地，在技术上的突破之外，也会出现更多的向下的产业兼容和产业实践案例，作为新质生产力推动产业数字化转型的航船加速前进。

文 | 产业家斗斗

编辑 | 皮爷

值得注意的是，在Pika发布产品后的短短不到3个月时间里，OpenAI Sora 在视频时长、视频画幅、扩展视频能力等方面就迈出了堪称“王炸”新一步。

资本市场显示，随着AI视频模型Sora的炸裂登场，A股掀起AI热潮，盘中人工智能指数一度涨超7%，多只个股涨停。

2024年的大门，已然由人工智能大模型“文生视频”敲响。一个崭新时代正在来临。

毫无疑问，一轮新的AI生产力革命正在到来。