由上海报业集团作为指导单位、界面新闻主办、梅赛德斯-奔驰作为战略合作伙伴的第七届【界面财经年会】于12月18日在上海世博创意秀场成功举办。商汤绝影CTO肖枫发表主旨演讲《让每一辆车拥有「有趣的灵魂」》。
以下为主旨演讲实录:
大家好,我是来自商汤绝影的肖枫,今天非常有幸,我给大家分享一下我们最新的基于商汤流式多模态大模型的一个创新产品,它叫New Member,我们希望New Member能够给每一辆车都带来一个「有趣的灵魂」。
首先跟大家分享大模型进入车舱的整体趋势。从去年开始大模型就开始逐渐进入智能车舱,带来一个全新的智能化体验。大家可以感受到首先进入的是一种工具的形态,从案例角度来说,大家看见有了「车书」,有了「闲聊」,都是基于大模型,尤其是语言大模型。记得「车书」有个挺有意思的例子,在网上说,有人指着一个仪表屏幕上面的标识问:“我突然看见一个小男孩背着一个宝剑在跳舞,这是什么?”
其实这个就是一个没有系安全带的提醒,但很多新手司机都不太清楚,然后大模型可以告诉你,“这是你没有系安全带,我在提醒”。我只是举个例子,来说明一个简单的工具模式是什么样的。
然后大模型不断进化,赋予座舱的能力也越来越强,我们把它称为是一种助理模式。助理模式的典型的一个案例是大家熟知的Agent,也叫智能体。有了智能体以后,工具就变成了助手,比以前更强大了,能够完成的不只是简单的单一性的任务了。它可以做一些复杂任务,比如说现在大家都希望有一个旅程的推荐,智能体可以用一种非常泛化的方式,帮忙寻找更合适你的路线餐馆等等。
大家在一些车里面已经感受到了这种能力,今天我给大家带来的是,可以被认为是第三代的车舱大模型能力,这个能力最大的一个区别是,前面不管是工具还是助理智能体,首先车主或者乘客需要知道自己要什么,但在车里面现在场景越来越多,科技感越来越强,很多车主他可能很难描述要什么,也就无法下达准确的指令。
我们的New Member是一种主动性的、有互动能力的、人格化的体现,它能主动察言观色,看到的这个环境里面用户需要什么,然后可以推荐一个服务,服务的内容也是动态,会根据每个人的习惯,根据车里面的综合信息来提供服务,能够及时和你主动交互,实现一个更好的家庭成员般的服务体验。
一个有趣的灵魂是怎么形成的,我们提炼了几个关键要素。
首先它要能够察言观色,始终一直在观察你车里面人、车、物、环境的这种变化。这里面核心的技术是商汤绝影的原生流式多模态大模型,多模态感知和理解能力非常强。
第二个叫无时不在,我们专门为这个构建了一个持续推理的框架,来支撑着New Member中流式多模态大模型的持续的运转和推理。
在这个过程中我们会做到第三步,叫心有灵犀。如何做到心有灵犀?实际上就是把一些我们在人、车、物和环境里面的一些数据,能够通过模型的推理形成记忆,通过记忆,把服务真正推动了车主和乘客,实现两者之间的一个新的联系。
接下来,展开介绍前面三个能力背后绝影的技术。
首先给大家讲的是商汤绝影的原生流式多模态大模型,这是端到端的模型,现在很多多模态模型其实有好几段组成,相当于把图片转换成文字,把视频转换成图片再转换成文字,这些和原生流式多模态大模型相比,虽然都是多模态,但我们的是原生的端到端,我们可以通过感知文字、图片、视频等信息,直接端到端的输出音频、文字、视频等,所以整体效率非常高。
接下来是类人记忆框架。刚才谈了很多,我们在无时无刻不断观察人、车、路、环境的一些数据,这些观察到的数据我们称为叫临时记忆。这些临时的记忆通过数据管线,通过我们的大模型的推理,可以做加强反思等,形成各种人和人之间的关系,人和物之间的关联,还有人和车之间的一些关系,这些关系形成了长期记忆。
基于每天不同的场景,通过从临时记忆和长期记忆中提取重要信息,对这些信息实时处理和分析,作出决策或者解决问题,这就是场景记忆。不同的记忆会塑造不同的New Member。
最后,为了实现人和车之间的心有灵犀,这要求服务是无时不在的,我们设计了Always-on持续推理框架,这个框架目前是端云一体的架构,80%的场景会在端上操作,但是考虑到云上的一些核心的扩展和推理,有一些强大的反思,我们称为叫慢思考能力,所以还有20%场景就会放在云端,但在整个场景的融合用户是没有感知的。
说到数据,大家都会比较敏感。一个是安全方面,担心私人的记忆是不是会被其他人看到或者听到。我们商汤绝影专门设计了一个隐私保护和数据安全的安全框架,来支撑整个New Member的持续可靠运行,能够保证整个数据记忆只会在生成数据的相应环境下才会被触达,才会给用户提供专属的功能体验。
刚才说了不少技术方面的一些信息,下面通过一个场景来演绎一下我们的产品和技术是怎么支撑的。周五下午,老丁和儿子豆豆一起上车,他们不需要和导航说目的地,New Member会根据数据和记忆进行推理,就会主动问老丁是不是要带豆豆去网球场打球,得到确认后,就会主动设置导航路线。
最后,我给大家介绍下,产品层面的一些场景和大模型,整个工作流是如何耦合的。前面我们提到的老丁带孩子打网球的场景,用户上车了以后,New Member会主动询问,这是因为Always-on持续运行框架,它一直在记录人、车服务环境的一些数据,同时把这些数据转化成为记忆,有了这些基础,会根据场景推理出你要去的目的地。此外,New Member根据不同的穿着会推荐不同的地方,会猜测你想要做什么事情,有时候也会给出一些建议。
为了和车企更好的合作,我们也打造了记忆的场景库,专门做了一些人设,这些人设都会自动的构建出来,通过大模型可以构建出不同的人设,车企可以利用这些基础的场景库进行组合,或者进行针对性训练,打造更合适车企风格、满足用户需求的角色。
谢谢大家,因为现在有好几个车企已经都已经开始和我们绝影进行合作,有些进入了量产阶段,相信大家很快能够在车上看到并体验到“有趣的灵魂”。
作为国内领先的原创财经媒体,上海报业集团丨界面新闻始终关注财经领域最新动态,关注行业最新资讯,为品牌与企业提供市场的全面洞察,助力中国经济持续发展。
特别鸣谢本次2024财经年会的战略合作伙伴梅赛德斯-奔驰。作为汽车发明者,梅赛德斯-奔驰拥有着138年荣耀历程,为广大中国消费者提供杰出的产品、服务及品牌体验,实现对中国市场的长期承诺。
历经70年时光流转,传承11代,梅赛德斯-奔驰S级轿车以“世界,尽在于心”之格局,在大型豪华车领域开创驾乘安全新境界、树立数字豪华新标杆。以数字豪华的智能人机交互体验、领先完备的驾驶辅助科技,开创了豪华出行的全新时代。
年会最终解释权归界面新闻所有
评论