正在阅读:

端到端模型落地量产,自动驾驶企业争抢上车

扫一扫下载界面新闻APP

端到端模型落地量产,自动驾驶企业争抢上车

纵然面对各种挑战,业界对端对端模型也抱有不同看法,但仍有诸多企业相信,端到端自动驾驶是未来最有希望实现无人驾驶的途径之一,并且已经开始在这条道路上加深探索。

作者:匡达

界面新闻记者 | 李如嘉

界面新闻编辑 | 文姝琪

3月18日,特斯拉开始在北美地区全面推送FSD(全自动驾驶)V12.3版本,这是去年公布V12以来,其向所有FSD用户推送的第一个正式版本,预计将在近期实现全面覆盖。

这次更新格外引人注目的关键在于,V12版本引入了“端到端神经网络”技术,使用神经网络替代了规则代码。

2024年以来,“端到端”成为了自动驾驶界最火热的概念,多家企业跟进特斯拉采取这一技术路线。

1月30日,何小鹏表示小鹏智驾未来将实现端到端模型全面上车,据报道,蔚来将在今年上半年推出端到端架构的主动安全功能;理想的新模型也将在今年上半年上线,算法新架构将不限制道路范围,全国都能开。

3月17日,元戎启行宣布已经成功将端到端模型适配到量产车上,该批量产车将于今年投入消费者市场。毫末智行也表示正在进行端到端模型的研发。

让众多车企和自动驾驶公司纷纷押注的“端到端”,究竟有何魔力?

“像人类一样开车”的端到端模型

“比之前任何版本都更接近人类的驾驶方式。”一位特斯拉FSD V12.3版本的被推送用户体验后在社交平台上这样感叹,“在高速公路上变道和汇入车流时比我还要开得好。”

根据网络上的测评视频,最新版本的特斯拉在一些突发事件中表现非常好,例如在车侧有自行车出现时,系统会选择减速通过;在车道前方突然有车辆停止时,系统也可以根据左侧车道的情况顺畅变道;在行人乱穿马路时,即使是绿灯系统也先选择了礼让行人,再通过路口。

虽然也有选错车道、在视野被遮挡时没能识别路口消防车的问题。但整体来看,采取端对端模型之后,特斯拉的自动驾驶更像一位人类司机,少了程序化的机械感,更加灵活、人性化。

自动驾驶的实现是通过输入摄像头采集的视频、GPS位置信息等,输出驾驶决策。与大部分复杂AI任务一样,自动驾驶的实现一般有两种技术路线:分治法和端到端。

目前,国内消费市场的智能驾驶系统采用的都是传统分治法,将自动驾驶任务切分为感知、预测、规划三个独立的模型,再进行系统集成来完成整个自动驾驶任务。

分治法的优点在于将复杂的自动驾驶任务拆解为大量相对简单的子任务,大幅度降低了系统开发难度。这样构成的系统具备很好的可解释性,可以针对每个模块的输入输出进行白盒化分析,一旦发生事故,可以深入分析,找到具体的问题点。

但是弊端在于需要编写的代码量巨大,系统设计时引入了太多的人为先验经验,导致自动驾驶能力上限比较低,系统的泛化性比较差,对于没有见过的场景往往无法处理。

“模块化的模型是基于规则的,驾驶动作的‘机械感’很强,但实际的道路状况千变万化,规则无法全部解决。”元戎启行CEO周光告诉界面新闻。

比如压实线的规则在大多数时候必须严格遵守,但在路边有很多违停车辆,或者道路施工的情况下,车辆不得不压点实线,借个道才能通过。遇到这样需要灵活处理的情况,使用分治法的系统只能依赖提前写好的程序来应对,这意味着工程师需要为每一种细分场景设定不同的规则,代码越写越长,但场景却无穷无尽。

在这种分裂的模块化架构下,信息的传递会出现减损,系统程序复杂,集成困难,维护难度大。

“在模块化的架构下,一位工程师一天只能处理10多个case,效率不高。”周光补充。

而端到端模型则将感知、预测、规划三个模型融为一体,无需冗长的代码来制定规则,而是通过用海量数据去训练系统,让机器拥有自主学习、思考和分析的能力,能更好地处理复杂的驾驶任务。

“FSD Beta v12将城市街道驾驶堆栈升级为端到端神经网络,经过数百万个视频训练,取代了30多万行C++代码。”特斯拉的更新日志中如此介绍V12。

由于任务更少、避免了大量重复处理,端到端自动驾驶可以提高计算效率,并且可以通过不断扩展数据来提升系统的能力上限。

在学术界,端到端并不是一个新鲜的概念,已经有诸多相关论文和研究。但是直到去年,在带高阶辅助驾驶功能的量产车大规模落地后,有了海量数据和海量算力加持,这才取得了突破性进展。

Chat GPT的出现也让端到端自动驾驶看到了新的希望。

“如果选择端端,就需要持续且巨大的投入,并且短期内也不一定看得到结果,这不是一个轻易的决定。但OpenAI验证了Scaling Law(标度律)在大语言模型上的奏效,让大家看到了端对端自动驾驶也有出现‘涌现’的可能性。”有业内人士告诉界面新闻记者。

只有头部玩家才能进入的赛道

“从特斯拉的开发经验来看,端到端自动驾驶真不是一般的企业能玩的,其所需的数据规模、算力规模远远超出国内企业的承受能力。除了成本高昂,端到端自动驾驶的技术难度也非常高,想要实现从学术到产品落地,相当于跨越从二踢脚到登月的难度。”毫末智行数据智能科学家贺翔告诉界面新闻。

如此庞大的投入究竟值得吗?不同企业有不同看法。

“我们对端到端自动驾驶系统能否全面应对自动驾驶挑战表示担忧,认为其还不够完备,并且没有必要性,端到端用在自动驾驶系统上大材小用了。”自动驾驶技术公司Mobileye的创始人、 总裁兼首席执行官Amnon Shashua认为,“Mobileye不需要一个端到端的系统来覆盖所有的角落情况。”

他表示,目前公司已经掌握了足够的数据量去证明自己的智能驾驶系统,但如果选择端到端模型,其需要的数据量将呈指数级增长。

“毫不夸张地说,数据会占据端到端自动驾驶开发中80%以上的研发成本。”贺翔判断。

根据特斯拉的计算,完成一个端到端自动驾驶的训练至少需要100万个、分布多样、高质量的 clips (视频片段)才能正常工作。而在2023 年初,特斯拉就声称已经分析了从特斯拉客户的汽车中收集的1000万个clips。

解决数据采集问题只是第一步,算力也是很大的限制。为了能在云端处理这些数据,当前特斯拉拥有近10万张英伟达的A100,位居全球top5。其目标是,依靠英伟达的GPU和自身的Dojo超级计算机,要在2024年底达到100EFlops的算力,遥遥领先。

而在美国多轮制裁之下,国内采购GPU难上加难。贺翔表示,“大部分企业手里拥有的算力资源非常有限,拥有超过1000张A100的企业寥寥无几,甚至全国加起来都没有特斯拉一家企业多。”

即使有了数据和算力,如何设计合适的自动驾驶算法来进行端到端训练,依然没有统一的答案。端到端自动驾驶的评估也十分困难。如何将系统从云端搬到算力和功耗都有限制的车上进行泛化又是难题。

端到端模型还有一个关键的弱点在于可解释性。当出现问题时,其无法像传统自动驾驶任务一样将中间结果拿出来进行分析,难以对事故、售后定责等问题给出有效的证据,也难以直接对出现问题的环节进行改进。

端到端模型,上车!

纵然面对各种挑战,业界对端对端模型也抱有不同看法。仍有企业相信,端到端自动驾驶是未来最有希望实现无人驾驶的途径之一,并且已经开始在这条道路上加深探索。

“我认为特斯拉也会迎来一个所谓的‘ChatGPT 时刻’,就算不是今年,我认为也不会迟于明年。这意味着某一天,突然之间,300万辆特斯拉汽车可以自己驾驶……然后是500万辆,然后是1000万辆……”马斯克在去年5月接受CNBC专访时说。

周光也在公司内部提到过,他希望元戎启行能够做端对端自动驾驶Scaling Law的验证者。

元戎启行是国内第一家能够将端到端模型成功上车的人工智能企业,并宣布已与英伟达达成合作,将于2025年采用英伟达的DRIVE Thor芯片适配公司的端到端智能驾驶模型。在2023年8月,公司已经运用端到端模型完成了道路测试。

在安全性问题上,元戎表示,刚开始把端到端模型上车的时候,会有很多兜底策略保证安全。譬如,发现将要发生碰撞时,系统就会启动安全模型,让车很早就进入保守的策略,避免出现安全事故。未来,随着端到端模型表现越来越好,兜底策略会越来越简化。

“算法上元戎有很深的积累,算力资源层面我们和英伟达有深度技术合作,我们的大股东阿里也会为我们提供支持,数据层面,我们已经和多家车企有了量产合作,客户为我们提供了很多有价值的数据。”周光对端对端的路线有着很大的信心。

正在进行研发的毫末则采取了将端到端大模型进行拆分的方式来降低训练难度:一个阶段解决感知问题,即让模型看懂世界,一个阶段解决认知问题,即做出驾驶决策。这样做的好处一是可以先独立训练,再进行调和,降低训练难度,二是在不同的阶段可以采用不同的数据,大幅降低数据成本。

此外,毫末还在端到端自动驾驶中引入了LLM(大语言模型),通过感知大模型识别后,将这些信息输入LLM,通过LLM来提取世界知识,并作为辅助特征来指导驾驶决策。

但据贺翔介绍,这个系统极为复杂,算力消耗非常大,目前还只能在云端运行,未来几年将加快向车端的落地。

端对端的未来还有哪些可能性呢?贺翔提到,为了解决长尾数据问题,业界也在尝试用AIGC技术构造数据。

面对一个尚未解决的问题,如果现实环境难以采集到类似的数据,例如车祸,可以考虑使用 AIGC技术来定向生成类似场景的数据,来快速提升效果。也可以使用仿真引擎来构造类似的场景,生成数据。

随着越来越多的端到端驾驶系统投入研发、落地,这一技术的未来也会越来越清晰。但是对于企业来说,起跑的枪声已经打响,路线是关键,而朝着选好的方向狂奔,也是他们不得不的选择。

未经正式授权严禁转载本文,侵权必究。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

端到端模型落地量产,自动驾驶企业争抢上车

纵然面对各种挑战,业界对端对端模型也抱有不同看法,但仍有诸多企业相信,端到端自动驾驶是未来最有希望实现无人驾驶的途径之一,并且已经开始在这条道路上加深探索。

作者:匡达

界面新闻记者 | 李如嘉

界面新闻编辑 | 文姝琪

3月18日,特斯拉开始在北美地区全面推送FSD(全自动驾驶)V12.3版本,这是去年公布V12以来,其向所有FSD用户推送的第一个正式版本,预计将在近期实现全面覆盖。

这次更新格外引人注目的关键在于,V12版本引入了“端到端神经网络”技术,使用神经网络替代了规则代码。

2024年以来,“端到端”成为了自动驾驶界最火热的概念,多家企业跟进特斯拉采取这一技术路线。

1月30日,何小鹏表示小鹏智驾未来将实现端到端模型全面上车,据报道,蔚来将在今年上半年推出端到端架构的主动安全功能;理想的新模型也将在今年上半年上线,算法新架构将不限制道路范围,全国都能开。

3月17日,元戎启行宣布已经成功将端到端模型适配到量产车上,该批量产车将于今年投入消费者市场。毫末智行也表示正在进行端到端模型的研发。

让众多车企和自动驾驶公司纷纷押注的“端到端”,究竟有何魔力?

“像人类一样开车”的端到端模型

“比之前任何版本都更接近人类的驾驶方式。”一位特斯拉FSD V12.3版本的被推送用户体验后在社交平台上这样感叹,“在高速公路上变道和汇入车流时比我还要开得好。”

根据网络上的测评视频,最新版本的特斯拉在一些突发事件中表现非常好,例如在车侧有自行车出现时,系统会选择减速通过;在车道前方突然有车辆停止时,系统也可以根据左侧车道的情况顺畅变道;在行人乱穿马路时,即使是绿灯系统也先选择了礼让行人,再通过路口。

虽然也有选错车道、在视野被遮挡时没能识别路口消防车的问题。但整体来看,采取端对端模型之后,特斯拉的自动驾驶更像一位人类司机,少了程序化的机械感,更加灵活、人性化。

自动驾驶的实现是通过输入摄像头采集的视频、GPS位置信息等,输出驾驶决策。与大部分复杂AI任务一样,自动驾驶的实现一般有两种技术路线:分治法和端到端。

目前,国内消费市场的智能驾驶系统采用的都是传统分治法,将自动驾驶任务切分为感知、预测、规划三个独立的模型,再进行系统集成来完成整个自动驾驶任务。

分治法的优点在于将复杂的自动驾驶任务拆解为大量相对简单的子任务,大幅度降低了系统开发难度。这样构成的系统具备很好的可解释性,可以针对每个模块的输入输出进行白盒化分析,一旦发生事故,可以深入分析,找到具体的问题点。

但是弊端在于需要编写的代码量巨大,系统设计时引入了太多的人为先验经验,导致自动驾驶能力上限比较低,系统的泛化性比较差,对于没有见过的场景往往无法处理。

“模块化的模型是基于规则的,驾驶动作的‘机械感’很强,但实际的道路状况千变万化,规则无法全部解决。”元戎启行CEO周光告诉界面新闻。

比如压实线的规则在大多数时候必须严格遵守,但在路边有很多违停车辆,或者道路施工的情况下,车辆不得不压点实线,借个道才能通过。遇到这样需要灵活处理的情况,使用分治法的系统只能依赖提前写好的程序来应对,这意味着工程师需要为每一种细分场景设定不同的规则,代码越写越长,但场景却无穷无尽。

在这种分裂的模块化架构下,信息的传递会出现减损,系统程序复杂,集成困难,维护难度大。

“在模块化的架构下,一位工程师一天只能处理10多个case,效率不高。”周光补充。

而端到端模型则将感知、预测、规划三个模型融为一体,无需冗长的代码来制定规则,而是通过用海量数据去训练系统,让机器拥有自主学习、思考和分析的能力,能更好地处理复杂的驾驶任务。

“FSD Beta v12将城市街道驾驶堆栈升级为端到端神经网络,经过数百万个视频训练,取代了30多万行C++代码。”特斯拉的更新日志中如此介绍V12。

由于任务更少、避免了大量重复处理,端到端自动驾驶可以提高计算效率,并且可以通过不断扩展数据来提升系统的能力上限。

在学术界,端到端并不是一个新鲜的概念,已经有诸多相关论文和研究。但是直到去年,在带高阶辅助驾驶功能的量产车大规模落地后,有了海量数据和海量算力加持,这才取得了突破性进展。

Chat GPT的出现也让端到端自动驾驶看到了新的希望。

“如果选择端端,就需要持续且巨大的投入,并且短期内也不一定看得到结果,这不是一个轻易的决定。但OpenAI验证了Scaling Law(标度律)在大语言模型上的奏效,让大家看到了端对端自动驾驶也有出现‘涌现’的可能性。”有业内人士告诉界面新闻记者。

只有头部玩家才能进入的赛道

“从特斯拉的开发经验来看,端到端自动驾驶真不是一般的企业能玩的,其所需的数据规模、算力规模远远超出国内企业的承受能力。除了成本高昂,端到端自动驾驶的技术难度也非常高,想要实现从学术到产品落地,相当于跨越从二踢脚到登月的难度。”毫末智行数据智能科学家贺翔告诉界面新闻。

如此庞大的投入究竟值得吗?不同企业有不同看法。

“我们对端到端自动驾驶系统能否全面应对自动驾驶挑战表示担忧,认为其还不够完备,并且没有必要性,端到端用在自动驾驶系统上大材小用了。”自动驾驶技术公司Mobileye的创始人、 总裁兼首席执行官Amnon Shashua认为,“Mobileye不需要一个端到端的系统来覆盖所有的角落情况。”

他表示,目前公司已经掌握了足够的数据量去证明自己的智能驾驶系统,但如果选择端到端模型,其需要的数据量将呈指数级增长。

“毫不夸张地说,数据会占据端到端自动驾驶开发中80%以上的研发成本。”贺翔判断。

根据特斯拉的计算,完成一个端到端自动驾驶的训练至少需要100万个、分布多样、高质量的 clips (视频片段)才能正常工作。而在2023 年初,特斯拉就声称已经分析了从特斯拉客户的汽车中收集的1000万个clips。

解决数据采集问题只是第一步,算力也是很大的限制。为了能在云端处理这些数据,当前特斯拉拥有近10万张英伟达的A100,位居全球top5。其目标是,依靠英伟达的GPU和自身的Dojo超级计算机,要在2024年底达到100EFlops的算力,遥遥领先。

而在美国多轮制裁之下,国内采购GPU难上加难。贺翔表示,“大部分企业手里拥有的算力资源非常有限,拥有超过1000张A100的企业寥寥无几,甚至全国加起来都没有特斯拉一家企业多。”

即使有了数据和算力,如何设计合适的自动驾驶算法来进行端到端训练,依然没有统一的答案。端到端自动驾驶的评估也十分困难。如何将系统从云端搬到算力和功耗都有限制的车上进行泛化又是难题。

端到端模型还有一个关键的弱点在于可解释性。当出现问题时,其无法像传统自动驾驶任务一样将中间结果拿出来进行分析,难以对事故、售后定责等问题给出有效的证据,也难以直接对出现问题的环节进行改进。

端到端模型,上车!

纵然面对各种挑战,业界对端对端模型也抱有不同看法。仍有企业相信,端到端自动驾驶是未来最有希望实现无人驾驶的途径之一,并且已经开始在这条道路上加深探索。

“我认为特斯拉也会迎来一个所谓的‘ChatGPT 时刻’,就算不是今年,我认为也不会迟于明年。这意味着某一天,突然之间,300万辆特斯拉汽车可以自己驾驶……然后是500万辆,然后是1000万辆……”马斯克在去年5月接受CNBC专访时说。

周光也在公司内部提到过,他希望元戎启行能够做端对端自动驾驶Scaling Law的验证者。

元戎启行是国内第一家能够将端到端模型成功上车的人工智能企业,并宣布已与英伟达达成合作,将于2025年采用英伟达的DRIVE Thor芯片适配公司的端到端智能驾驶模型。在2023年8月,公司已经运用端到端模型完成了道路测试。

在安全性问题上,元戎表示,刚开始把端到端模型上车的时候,会有很多兜底策略保证安全。譬如,发现将要发生碰撞时,系统就会启动安全模型,让车很早就进入保守的策略,避免出现安全事故。未来,随着端到端模型表现越来越好,兜底策略会越来越简化。

“算法上元戎有很深的积累,算力资源层面我们和英伟达有深度技术合作,我们的大股东阿里也会为我们提供支持,数据层面,我们已经和多家车企有了量产合作,客户为我们提供了很多有价值的数据。”周光对端对端的路线有着很大的信心。

正在进行研发的毫末则采取了将端到端大模型进行拆分的方式来降低训练难度:一个阶段解决感知问题,即让模型看懂世界,一个阶段解决认知问题,即做出驾驶决策。这样做的好处一是可以先独立训练,再进行调和,降低训练难度,二是在不同的阶段可以采用不同的数据,大幅降低数据成本。

此外,毫末还在端到端自动驾驶中引入了LLM(大语言模型),通过感知大模型识别后,将这些信息输入LLM,通过LLM来提取世界知识,并作为辅助特征来指导驾驶决策。

但据贺翔介绍,这个系统极为复杂,算力消耗非常大,目前还只能在云端运行,未来几年将加快向车端的落地。

端对端的未来还有哪些可能性呢?贺翔提到,为了解决长尾数据问题,业界也在尝试用AIGC技术构造数据。

面对一个尚未解决的问题,如果现实环境难以采集到类似的数据,例如车祸,可以考虑使用 AIGC技术来定向生成类似场景的数据,来快速提升效果。也可以使用仿真引擎来构造类似的场景,生成数据。

随着越来越多的端到端驾驶系统投入研发、落地,这一技术的未来也会越来越清晰。但是对于企业来说,起跑的枪声已经打响,路线是关键,而朝着选好的方向狂奔,也是他们不得不的选择。

未经正式授权严禁转载本文,侵权必究。