端到端、世界模型、车路云……谁将成为2025年“AI+交通”最热词？|界面新闻

文｜极智GeeTech

1942年，科幻小说家艾萨克·阿西莫夫（Isaac Asimov）在他的短篇小说《转圈圈》（Runaround）中第一次明确提出了“机器人三定律”，这一定律也被称为“现代人工智能技术的基石”。

阿西莫夫可能没有完全预见到，八十年后的世界会多么接近他的科幻梦想。

如今，人们生活在一个由人工智能渗透的世界里，这个世界在许多方面已超越阿西莫夫的想象。2024年，我们见证了一系列人工智能技术的创新与涌现。从AI视频生成模型Sora到GPT-4o，一系列生成式人工智能新技术相继问世、更新迭代，让人感觉到似乎“未来已来”。

这一年，大模型、端到端、世界模型、车路云等已成为交通智能化领域最具革命性的技术应用，不仅提升了驾驶体验，还为城市交通的安全性、效率和可持续性带来新的可能。

展望2025年，随着人工智能与交通的进一步深度融合，哪些技术领域充满机遇？谁将引领新一年的行业发展？

BEV+OCC感知能力困局待解

对照着自动驾驶领域这几年的行业热词按图索骥，可以把握自动驾驶算法模型的发展脉络。在特斯拉的带动下，自2021年至今，自动驾驶行业这几年的动态热词依次为：BEV+Transformer、OCC占用网络、无图NOA、端到端。

BEV（鸟瞰图）网络通过矢量化的鸟瞰视角检测白名单障碍物，OCC通过体素化的占用网络预测3D空间的占位情况，实现对通用障碍物的感知，到无图NOA的阶段，自动驾驶算法可以通过车道网络实时建图，构建道路拓扑。

再到今年大火的端到端，一方面，由于消除了传统分模块方案中各种小模型的冗余，计算资源得以集约化使用，神经网络的参数量或规模得以进一步提升；另一方面，无论是分段式端到端还是一体式端到端，感知到决策之间的传输带宽增加，信息损失减少，进一步增强了系统的感知能力。

对于驾驶而言，感知交通环境信息越全面、越及时，驾驶的安全性也就相对越高。因此，自动驾驶系统对感知能力的需求是没有上限的。

BEV网络固然可以检测白名单障碍物，但能检测到1000多种物体基本上就是目前BEV网络的感知上限。OCC占用网络可以检测通用障碍物，但OCC算法的运算量跟随网格的大小成倍变化，网格大小缩减一倍，OCC算法的运算量将增加8倍，受限于算力和实时性，OCC网格的大小一般只能做到10厘米左右，这就意味着它很难检测微小物体。在很多情况下，10公分大的物体足以造成交通事故了。

不仅如此，那些和驾驶安全、效率、舒适性密切相关的天气、光照、雨雾等复杂语义，也是目前的BEV+OCC所解决不了的，而光照和天气恰恰是可以影响自动驾驶车辆行驶的关键要素。

数据正在成为端到端最大瓶颈

相较于分模块的自动驾驶方案，端到端方案主要解决了两个问题。首先，从人工逻辑代码到数据驱动，人工智能真正摆脱了“人工”，从此可以使用海量的数据迭代模型的性能；其次，通过自动抽取信息，减少信息损失，可以充分利用数据中的信息。

在过去几年的时间里，随着Transformer+BEV+OCC的问世，分立级联的感知模块已经慢慢完成了到端到端感知的切换，自2023年下半年以来这波端到端狂潮引发的“从人工逻辑代码到数据驱动”的转变，其实主要体现在决策和规划层面。

决策和规划从一板一眼的手工编写规则进化到基于神经网络的经验直觉，这种AI化和端到端化使得可以通过海量数据不间断训练优化驾驶策略，复现拟人且丝滑的老司机脚法。决策和规划的进步是巨大的，相比之下，感知能力的进步并不大。

端到端最核心的一点在于将自动驾驶算法进行了全面的AI化，转向了完全的数据驱动，但这意味着需要更加海量的数据进行模型的训练。

但对于到底需要多少数据才能训练出一个完美的自动驾驶模型，业界并没有一个统一的标准。之前有报道称，特斯拉2024年初的视频训练片段数量将近3000万个。按照每个视频片段30秒、30FPS的帧率、8个摄像头计算，训练图片数量高达220亿张。

此外，这种规模的训练数据训练出来的自动驾驶系统的等级仍未达到L3，自动驾驶系统能力每提高一个等级，需要的训练数据量至少会提升一个数量级，也就是说，要达到L4，至少需要训练几亿个视频片段。

端到端虽然强化了数据的作用，但大模型的引入却增加了庞大的数据标注需求。在基于语言模型的自动驾驶大模型中，其输入是当前驾驶场景的图片，其输出是各类交通参与者、道路拓扑、交通信号标识的语义信息，这种模型不具备自回归特性，进行有监督学习，其训练需要海量的数据标注工作。

这引发了一个新的问题：如果端到端自动驾驶模型的训练还需要继续打标签，在源源不断产生的海量数据面前，还如何保证高效训练？这也是一直以来影响端到端进一步发展的最大阻碍。

世界模型实现从感知到认知的跃迁

无论是BEV检测的白名单障碍物还是OCC占用网络检测的通用障碍物，从本质上来说，都属于基于判别式AI实现的对分立物体的单独感知。

生成式AI大模型具备的超强理解能力使得视觉语言模型、大语言模型、世界模型可以建立对当下场景的整体认知，实现从感知到认知的阶跃。

举例来说，BEV可以检测到一个行人，大模型可以通过意图理解判断出这是一个要横穿马路的行人。BEV网络可以检测到前方的一个车辆，大模型可以更进一步，通过长时序信息判断出这是一个即将减速的车辆。

也就是说，在基于判别式AI的物体识别之外，生成式AI的意图理解和长时序理解能力使其可以建立对整体驾驶环境的理解，更加贴近人类驾驶的知识逻辑。

自动驾驶真正的挑战并不在于能否检测（感知）出各个独立的物体，而是要准确判断（认知）物体的意图，根据车辆、行人微妙多变的姿态做出准确的博弈和决策，只有建立了这样复杂的语义理解和场景理解能力，才能像老司机那样游刃有余地驾驭各种路况。而从部分到整体，从分立到连续，从感知到认知，正是大模型给传统自动驾驶感知技术栈带来的重大转变。

世界模型的引入标志着自动驾驶向数据驱动智能的关键转变，在这种智能中，预测和模拟未来情景的能力成为安全和效率的基石。

数据稀缺性问题，特别是在如数据标注等专业任务中，突显了世界模型的创新性和必要性。世界模型的训练数据是视频序列，输入是当前时刻视频，输出是下一时刻视频，可以像语言模型拿自带标签信息的文字序列那样进行无监督训练，不再需要数据标注，这也就解决了传统端到端模型训练需要精确标注海量视频数据的巨大难题。

同时，通过从历史数据中生成预测情景，世界模型不仅规避了数据收集和标注带来的限制，还增强了在模拟环境中训练自主系统的能力，这些环境可以反映甚至超越现实世界条件的复杂性。

这种方法预示着一个新时代的到来，在这个时代，自动驾驶汽车具备反映某种直觉的预测能力，使它们能够以前所未有的复杂程度响应各类交通环境。

世界模型可以通过模拟和预测其他车辆、行人和动态环境变化，从而帮助自主系统做出更安全、更高效的驾驶决策。例如，世界模型可以预测交通流量、路况变化以及潜在的风险因素，使自动驾驶车辆能够提前做出反应，避免事故和优化行驶路径。

尽管世界模型已经表现出巨大的技术潜力，但其发展和应用仍面临挑战。

首先，是数据的多样性和质量。世界模型依赖大量高质量的数据进行训练和测试。然而，获取和处理这些数据往往需要耗费大量时间和资源。如何确保模型从多样化和高质量的数据中学习，是下一阶段世界模型在发展过程中迫切需要解决的问题。

其次，巨量的计算资源需求。训练和运行世界模型需要大量的计算资源，特别是在处理高维数据和复杂场景时。

第三，模型的可解释性。世界模型的复杂性使其决策过程难以解释和理解，这将在医疗诊断、自动驾驶等应用场景中可能带来潜在风险。

车路云，一个正在发生的潮流

如果说以上自动驾驶技术都是“舶来品”，那么车路云一体化则是一个带有鲜明“中国智慧”的技术方案。

2024年，是车路云一体化全面落地的里程碑年份。面对汽车智能化、网联化的大势所趋，中国率先提出车路云一体化与智能网联汽车融合发展的新路径，并发挥中国在统筹规划、基础设施建设、信息通信技术等方面的优势，积极开展试点。

1月，工业和信息化部、公安部、交通运输部等五部门联合印发《关于开展智能网联汽车“车路云一体化”应用试点的通知》，这是“车路云一体化”首次被写入国家政策文件。7月，五部门正式对外公布《关于智能网联汽车“车路云一体化”应用试点城市名单的通知》，共计20个城市进入试点，从南到北、由西至东覆盖全国。

与单一技术最大限度挖掘自身潜力不同，车路云一体化更多体现的是一种“众智”，其通过集成通信基站、卫星通信和定位、各类传感器、云控平台等基础设施，形成一个信息共享、高效协同的车路云网络，为普通汽车、智能汽车、机器人、无人机等所有智能设备提供系统级的实时数据服务，同时能够将实时数据信息在云平台进行海量交互与智能分析，在系统层面解决全局安全、全局效率与全局博弈问题。

站在系统发展角度看，自动驾驶追求越来越极致的智能化，而车路云一体化则追求的是极致的系统智能。车路云网络让车辆不再是孤立的智能体，而是融入到一个更大范围的智能交通生态系统中。

道路上布设的智能路侧设施如AI数字道路基站、V2X通信设备能够实时监测路况，通过多源数据融合技术，将不同类型、不同来源的数据进行有机整合，从而为后续的数据分析提供更丰富的素材。

根据车百智库研究报告显示，一辆L4级别自动驾驶汽车，每日通过车内外传感器采集的行驶数据、环境数据和行为数据等，已达到10TB量级，是传统汽车的5-10倍。其预计，在路上行驶的智能汽车每年上传到云端的数据超过7万PB。

在收集到海量的交通数据之后，云端利用大数据和AI算法，对数据进行分析与挖掘，从中提取有价值的信息。例如，通过对交通流量进行数据分析，交管部门可以根据实时交通流和道路情况智能调整配时方案，提高道路通行效率。同时，车辆也能接收到车路云网络的信息，提前了解道路上的障碍和危险，从而采取相应措施确保行车安全。

在数据分发与共享过程中，保障数据的安全性至关重要。智能车辆所采集的数据涵盖了多种传感器类型和数据源，通过这些数据不仅能够高精度地全面掌握城市各交通要道的状况，其中还可能会牵扯到重要区域的地理信息、人员流量、车辆流量等敏感数据，以及脸部识别、声纹、动作等个人信息，这些数据一旦被泄露或被非法调用和共享，不仅会侵犯个人隐私，还可能会危及到国家安全。因此，在数据采集后，要根据国家相关法律法规，对数据进行分类分级、降密、脱敏、加密等操作，为车路云数据的共享应用提供安全合规保障。

车路云一体化为城市交通管理的智能化升级提供了一条具有实践意义的路径。随着技术的成熟，车路云网络还将助力数字智能社会进入到一个整合系统，其将整合地面网络、低空网络、卫星网络，形成空天地一体化的通感算网络。最终，车路云网络将发展成为智能交通、低空经济、具身智能、AI智能终端的底层实时数据网络，为智能设备的大规模运行与自主交互协作提供重要支撑。

未来十年，所有行业都值得用人工智能重新做一遍。毫无疑问，人工智能仍将是2025年最受关注的技术。从自动驾驶到车路云一体化、从交通基础设施智能化建设到城市交通智能化管理，人工智能将越来越深地与交通领域进行融合，并拓展出更多超乎想象的全新应用场景，在为人们带来更智能、便捷出行方式的同时，也重塑着智能交通的未来。

文｜极智GeeTech

阿西莫夫可能没有完全预见到，八十年后的世界会多么接近他的科幻梦想。

展望2025年，随着人工智能与交通的进一步深度融合，哪些技术领域充满机遇？谁将引领新一年的行业发展？

BEV+OCC感知能力困局待解

对于驾驶而言，感知交通环境信息越全面、越及时，驾驶的安全性也就相对越高。因此，自动驾驶系统对感知能力的需求是没有上限的。

数据正在成为端到端最大瓶颈

端到端最核心的一点在于将自动驾驶算法进行了全面的AI化，转向了完全的数据驱动，但这意味着需要更加海量的数据进行模型的训练。

世界模型实现从感知到认知的跃迁

无论是BEV检测的白名单障碍物还是OCC占用网络检测的通用障碍物，从本质上来说，都属于基于判别式AI实现的对分立物体的单独感知。

生成式AI大模型具备的超强理解能力使得视觉语言模型、大语言模型、世界模型可以建立对当下场景的整体认知，实现从感知到认知的阶跃。

世界模型的引入标志着自动驾驶向数据驱动智能的关键转变，在这种智能中，预测和模拟未来情景的能力成为安全和效率的基石。

这种方法预示着一个新时代的到来，在这个时代，自动驾驶汽车具备反映某种直觉的预测能力，使它们能够以前所未有的复杂程度响应各类交通环境。

尽管世界模型已经表现出巨大的技术潜力，但其发展和应用仍面临挑战。

其次，巨量的计算资源需求。训练和运行世界模型需要大量的计算资源，特别是在处理高维数据和复杂场景时。

第三，模型的可解释性。世界模型的复杂性使其决策过程难以解释和理解，这将在医疗诊断、自动驾驶等应用场景中可能带来潜在风险。

车路云，一个正在发生的潮流

如果说以上自动驾驶技术都是“舶来品”，那么车路云一体化则是一个带有鲜明“中国智慧”的技术方案。

历史搜索全部删除

热门搜索

端到端、世界模型、车路云……谁将成为2025年“AI+交通”最热词？

BEV+OCC感知能力困局待解

数据正在成为端到端最大瓶颈

世界模型实现从感知到认知的跃迁

车路云，一个正在发生的潮流

评论

端到端、世界模型、车路云……谁将成为2025年“AI+交通”最热词？

BEV+OCC感知能力困局待解

数据正在成为端到端最大瓶颈

世界模型实现从感知到认知的跃迁

车路云，一个正在发生的潮流