文|乌鸦智能说
今年,被很多人看作是AI硬件的元年,很多公司发布了不少有趣的AI硬件,像AI Pin、Rabbit R1,但都有点高开低走的意思,评价最好的反而是只做AI+录音机的Rewind Pendant。
可能是受到这个事情的启发,科技巨头们开始纷纷盯上了另一种AI驱动的新设备——AI耳机。根据外媒报道,Meta平台正在探索开发带有摄像头的人工智能耳机。而就在4月,字节跳动也收购了一家耳机公司。
相比AI Pin、Rabbit R1等AI硬件,AI耳机的好处在于,完全抛弃了显示功能,在充分利用AI感知能力的同时,最大程度地优化了便捷性,与手机形成了明显的差异化。
毕竟,在光学显示技术没有革命性进步的前提下,足够分辨率的显示效果,就需要增加设备的体积,进而影响便捷性,以至于AI硬件很容易面临灵魂拷问:既然都是要拿在手里,我为什么不用手机呢?
在所有人都幻想着下一代个人计算平台的当下,主打便捷性的AI耳机,似乎成为AI硬件最容易突破的方向。
/ 01 / 科技巨头扎堆AI耳机
这段时间,越来越多科技公司开始布局AI耳机。
据国外媒体报道,Meta平台正在探索开发带有摄像头的人工智能耳机,希望这种设备能用来识别物体和翻译外语。
Meta的首席执行官马克·扎克伯格(Mark Zuckerberg)已经看过了该设备的几种可能设计,但一名员工表示,他还没有对任何设计感到满意。目前尚不清楚最终设计将是入耳式耳机还是头戴式耳机。这个项目在Meta内部被称为“Camerabuds”。
OpenAI的CEO Sam Altman最近告诉一位合作伙伴,他和前苹果首席设计师Jony Ive的设计公司LoveFrom已经探索了开发带摄像头的耳机设备。不仅如此,苹果也在探索在其耳机中加入摄像头和AI。
据国外媒体报道,电子产品公司Ear Micro的Bear Clark表示,科技公司对开发“可听穿戴设备”的兴趣在过去八到十个月里激增。Clark说,最近有两家大型科技公司联系他,希望开发智能耳机,尽管他拒绝透露这些公司的名称。
除了自行研发外,科技巨头们也在通过收购布局耳机市场。根据媒体报道,字节跳动已于4月份收购OWS公司Oladance品牌大十科技,收购价格在3-5亿元之间,目前字节跳动团队人员已经进驻大十科技。
收购Oladance或是字节推出AI眼镜和AI手机的重要动作。据说创始人李浩乾将入职字节跳动,职级比大多类似的收购的CEO级别都要高,体现字节硬件的决心和战略高度。
今年4月,由 Alphabet 旗下的神秘实验室 Google X 孵化的Iyo,已经推出了一款AI 蓝牙耳机Iyo One。
Iyo One 的外观和交互没有 Ai Pin 那么激进,就是一副体型更大的蓝牙耳机,没有屏幕,不搞手势,不搞投影,不搞触摸,专注于自然语言的语音交互。在应用场景上,创始人 Jason Rugolo 举了一些例子,比如收到邮件或短信,不必拿出手机、滑动、打字,完全可以在坐着喝咖啡的时候,用耳朵接收信息。
至少从目前看,已经有Meta、OpenAI、字节跳动等多家科技大厂有意布局AI耳机。
/ 02 / 把便携性拉到极致
为什么这么科技公司会选择耳机?在我看来,主要有以下两个原因:
第一,尽管新的计算平台尚未诞生,但基于过去硬件发展的经验,行业对下一代计算设备仍然有几点共识:一个比手机更轻、更小、更便宜、更随身的设备。基于这几点,眼镜、耳机、项链、帽子等等一切可携带的物品,都被认为是可能的候选形态。
与AI Pin等AI硬件相比,AI耳机在便携性方面有着天然优势。AI耳机基本完全抛弃了显示这一交互方式,有利于最大程度放大便携性优势。
根据怒喵科技CEO李楠的看法,光学显示技术在三年内不会有革命性的进步,因此要想做到有足够分辨率的显示效果,就需要增加设备的体积,而这势必会影响便携性。而便携性恰恰是AI硬件最重要的属性。
第二,耳机这个品类过去几年在场景化方面取得了重要的突破,变得越来越重要。
手机渗透生活的历史,也是耳机技术变革的历史。智能手机时代耳机的变革分成三个阶段:音质驱动阶段:耳机的主要改进聚焦在音质提升;场景驱动阶段:分别面向开放场景和封闭场景两个方向发展;体验驱动阶段:为了能够长时间佩戴,出现了 OWS 开放式可穿戴耳机,分别向挂耳耳机和夹耳耳机两个方向发展。
随着手机中音频、视频内容占比的逐渐增加,人们对长时间佩戴耳机的需求越来越大。这标志着耳机从单一功能(仅用于听音乐或打电话)的转变为多功能普适性产品,成为接收各类多媒体信息的设备。
也就是说,耳机已经能够完成多媒体内容与日常信息交流的处理,是重要性、计算能力仅次于手机的第二大可携带计算设备。
基于以上两点,在没有新硬件形态的情况下,将便捷性拉到极致的耳机,似乎成为AI硬件最容易突破的方向。
/ 03 / 探索AI耳机的两种思路
从目前看,AI耳机的探索大致有两种思路:
AI耳机的第一种思路是AI+耳机,以耳机为硬件载体,通过更多交互方式,让耳机成为下一个的个人计算中心,路径有三:
一是,利用AI提升耳机的环境感知能力,不仅通过视觉感知环境,甚至加入视觉。比如,苹果和Meta都在尝试往耳机上面装摄像头。
根据彭博社爆料,苹果从去年开始就研究带有摄像头的AirPods,代号为 “B798”。这款耳机的大小和现有AirPods几乎相同,只不过内嵌了低分辨率摄像头。摄像头可以用来拍照,以及通过AI实现多个功能,为用户的日常生活提供协助。
二是通过技术实现更好的交互体验。比如,GPT-4o把语音交互的延迟从2s降低到300ms,还给了极其丰富的音色表现力。
不久前,华盛顿大学也研发了一款名为Target Speech Hearing(TSH)的人工智能耳机系统,它能够通过佩戴者的注视来“锁定”目标说话者,过滤掉环境中的其他声音。
佩戴者只需将头部对准目标说话者,注视3-5秒钟后,轻按一个按钮,系统便会开始捕捉并分析该说话者的声音特征。此后,无论佩戴者如何移动,系统都会持续播放被“锁定”的说话者的声音,实现个性化的听觉体验。
三是基于更强的计算能力,提供更多的语音功能。比如,Iyo One 正式发布时,预计将有消息、电话、导航、音乐播放等语音功能,动动嘴巴就能回消息。
AI耳机的另一种思路是往现有耳机里增加AI功能,在原有的基础上,利用AI技术补充一些功能,提供新的体验。
比如,研发翻译软硬件产品的深圳公司 Wooask,推出了结合 ChatGPT 的新款触屏耳机 TransBuds A8,支持实时翻译 144 种语言,声音传到耳朵,文字则显示在屏幕。
消费电子品牌 Nothing 也是这个思路,升级现有设备,而不是通过新的硬件重新发明轮子。
今年 4 月,Nothing 宣布,在 Nothing 手机安装了最新 Nothing OS 和 ChatGPT 的用户,可以直接通过 Nothing 耳机与 ChatGPT 对话,联网后捏住耳机便能激活,捏住耳机就能和 AI 对话、问问题。
相比于后者,前者的路线无疑更加兴奋。尤其当所有人都沉浸在AI创造下一个计算平台的叙事里,AI耳机无疑为我们带来了更多的可能性。
评论