编注:本文系作者视频内容文稿,原视频含品牌推广,文字版已移除相关内容。

 

在正文之前,首先感谢本期内容的联合创作者 @SysErr0r,他搜集了超多的相关资料,并且把他们有逻辑的编排在一起,完成了初稿的撰写。


从 ChatGPT 上线开始,全世界的厂商和媒体都在不停地重复这个词:AI。但同样是头部公司,苹果却直到最近才参与到这次如火如荼的 AI 浪潮当中。

有人说是苹果低调,轻易不显山露水,也有人说这纯属扯淡。苹果最近破天荒地在公开场合主动提到「AI」这两个字,不仅落后,而且急了。苹果在 AI 领域到底是个什么水平?他们都干了些什么?今年的 WWDC,苹果又会有哪些动作呢?

Hello 大家好,欢迎收看这一期的两颗皮蛋,我是初号。这期护城河,我们来聊聊苹果的 AI。

过往的积累

那其实跟很多报道的风向不太一样,苹果对 AI 技术的应用开始得很早,而且一直是很积极和具体的。只不过苹果吧,用词儿比较隔路,它在今年之前,一直用「机器学习」来指代整个这一大类的技术。

我问一下啊,就屏幕前各位 AirPods Pro 2 的用户,你现在回忆一下自己上一次戴上耳机以后,去动音量是什么时候?AirPods Pro 2 有一个独占功能叫「个性化音频」,它就是利用机器学习了解你在不同环境下,所需要的音量偏好,然后自动去给你微调。

这个功能,再加上自适应噪声控制,和自动设备切换,基本上等于干掉了耳机上所有需要手动控制的地方。用户只需要做一件事儿,那就是打开盒子,戴上耳机。

用户层面,像 GPT-2 模型驱动的自带输入法的单词预测,iOS 17  手记 App 里的智能建议,watchOS 9 开始自带的睡眠分析 App,这些东西的背后都是机器学习。

还有很多甚至是更加基础和不可见的,比如说很多辅助功能,像 Apple Watch 的手势捏合🤌,就是结合加速度计和心率传感器的数据,在手表本地跑了一个模型。再比如 Sign in with Apple 背后一整套的风控机制。

还有 iOS 和 iPadOS 刚上的那个眼动追踪,就眼动追踪这个能力,换成有些公司,一定都会先拿来做成用户注意力热区检测的 API,然后拿去卖广告。

它真的,我哭死(

就连自然语言处理这方面,苹果也是早在 2020 年就在系统里提供了本地运行的基于词、句向量的计算以及对句子成分和关系进行推理比较的 API。

Vision Pro 更是这样,它的两大基础能力,手势识别和房间建模,都是 AI 模型驱动的。可以说如果没有机器学习,Vision Pro 这个产品几乎不可能存在。

但是 iOS 上最古老的、机器学习驱动的软件功能,可能绝大多数用户手机从买到扔,一次都没打开过。在相册里头,点开下边那个「为你推荐」,这里头那个它自动分类、生成的这些「回忆」视频,就是苹果第一个有据可查的 AI 功能。从 2016 年的 iOS 10 开始就实装了。

其实 iOS 第一个 AI 功能这项殊荣,本来应该是 iPhone 7 Plus 的人像模式,它那个景深分割也用到了机器学习,但是最后因为软件更新的关系,7 Plus 的人像模式一直到 iOS 10.1 才正式推出。可见苹果不光机器学习的应用历史悠久,软件做的慢也是老传统了。


现实的窘境

那按这么说,苹果在 AI 领域不光不落后,甚至还遥遥领先吗?应该这么说,在大模型出来之前,苹果的体验确实算是不错的,只是他的 AI 能力用在了很多功能细节上,来帮助用户减少使用步骤,但是像 Google IO 那种全场 AI 的大活确实少一些,Siri 也是有点躺平的意思。

但是在 22 年底 ChatGPT 出来之后,大语言模型这个词一下就出现在了普通人的视野当中,而这恰恰是苹果技能树偏弱的部分。这个东西的背后是以注意力机制,和巨大参数量的大语言模型为代表的,机器学习领域的一次范式转移。这两个东西结合起来,让 AI 模型具备了以前难以想象的性能和能力。

历代 GPT 参数量对比
新老两代技术对比

一个最明显的例子是在 ChatGPT 之前,不管你说什么都能接住的聊天机器人几乎是不存在的。这一波范式转移,就是让包括苹果在内的所有消费电子公司,都如坐针毡的真正原因:大语言模型的出现让人类的自然语言第一次变成了一种可行的人机交互界面。

就像 iPhone 用触摸屏取代了机械按钮一样,HUMAIN 的 AI Pin 和 Rabbit R1 赌的都是同一件事儿,那就是这一次人机交互界面的变革将再一次颠覆消费电子产品的主流形态。但是很可惜,从发售以后的评测来看,这两家公司的产品,差的都太远了。Rabbit R1 甚至连天气预报这么基础的东西都能顺嘴儿胡编。自定义能力也很差,甚至还不如 Siri。

The Verge Rabbit R1 评测文章

苹果真的落后了吗?

前进半步是先进,前进三步是先烈。从语音交互这个角度讲,母公司当年的 TNT 死得实在是太早了。但是这产生了一个新问题,就是为什么苹果在 AI 领域应用的这么积极,在大模型领域还是慢了半拍呢?

首先肯定不是因为外部的物质条件。人才、算力、训练数据,这些能用钱解决的事儿对字面意义上富可敌国的苹果来说都构不成问题。实际上根据现有的报道,苹果从 18 年到现在,已经从谷歌最少挖走了 36 个 AI 领域相关的技术人才。AI 服务器也准备直接上 M2 Ultra,自给自足。至于大模型的训练,海外媒体估算 GPT-4 的训练成本大概在 6300 万美元左右,而苹果 2023 财年的净利润高达 969.95 亿美元,眼一闭,一睁,五个半小时就全挣回来了...

那既然不是物质条件的原因,这事儿就只能是跟苹果的主观意愿有关了。

一方面苹果是一家极度关注「技术落地」的公司,他追求的是敢为人后、后中争先,纯粹的技术预研风险高、落地周期不可控,这不是他擅长的东西,就你啥时候看见过苹果发布会的发言人挂的 Title 是苹果研究院吗?没有,他压根就没有研究院这个东西。而苹果擅长的是,哪个公司捣鼓出新玩意,他直接买过来就是了,然后把技术工程化,把东西量产出来,他做的更多是工程创新,甚至可以说是工程奇迹。

VP 的硬件说起来,没有任何东西超越了行业的技术水平和想象力

但这个世界上最重要的技术创新,大部分都是几个科技公司的研究院搞出来的,就比如说大模型的基石 Transformer,他就是谷歌研究院的杰作。可以说真正的脱产,往往才能有真正的创新。这个问题大伙可以去看杨玄感老师的这条视频,讲得老牛*了。

那另一方面,我觉得也是路径问题。大语言模型能力大小某种意义上是跟参数量大小绑定在一起的。巨大的参数量,也让它几乎跟端测运行说再见了。OpenAI 今年 4 月出了一个新的 Batch API,把你的请求放在一个文件里打包上传,可以在 24 小时内返回结果,费用打五折,完全是大型机时代的运行模式。这些跟苹果过去在机器学习领域的产品实践正好是完全相反的。

可以说,苹果在这一轮范式转移的过程中慢了一步,是无可争议的,但这时候一棒子敲死苹果还为时尚早,苹果之所以坚持不做脱产预研,也是因为他认为,技术只是解决问题的一种手段,最终都要落回到实际体验,而好的体验是有很多部分组成的,技术领先固然重要,但是当技术不具备领先性时,对于问题的思考和洞察,其实同样重要。这是苹果构建护城河的重要基石,就像我们以前讲到的,苹果虽然没有发明、也没能力制造 OLED,但是他依托供应商的 OLED 屏构建了全流程的 HDR 生态,依然在很长一段时间做到了体验领先。

而在 AI 领域,苹果依旧有着非常多的积累。

首先是硬件层面的积累,前面我们说了,机器学习近 10 年来始终是苹果产品不可分割的一部分。这里面所有的功能都是硬件驱动的。苹果的 Neural Engine 从 A11 Bionic 开始算力就一路水涨船高,再加上 CoreML,让苹果能够迅速地把 AI 驱动的功能带到每一台条件允许的苹果设备上。

 

苹果不做中端芯片,只有旗舰芯片,去年的旗舰芯片,还有大去年的旗舰芯片,还有... 

 

这样的模式,在这时候就能体现出优势了,向大模型的技术路线迁移时,苹果能够保证覆盖到更多的机型和用户,我估计端测模型往前覆盖 2 代用户应该不成问题。

再就是需求洞察上的积累,大语言模型的产品落地之路走得也并不顺畅。大众预期和产品的真实能力存在巨大落差,它最大和最成功的用途很可能是被营销号和机器人水军用来在互联网上制造内容垃圾,甚至相当比例的真实用户需求也是一样。大家拿它来写都是工作报告、文献摘要、公开致辞...

套话还是那些套话,只不过现在不用现编了。

去年 5 月份,谷歌内部泄露出来一篇文档,你光看标题都能感觉到那种绝望和焦虑:《我们没有护城河,OpenAI 也没有》。本质上,大家还是在找场景,找痛点,而这件事苹果已经做了很多年了。前面提到的很多例子都证明,AI 早就融入进了系统体验的方方面面。所以苹果会怎么用大模型来加强他既有的功能和体验,并且拿出新的需求洞察和解决方案,绝对是今年 WWDC 最大的看点之一。

WWDC 24 AI 预测

那正好我们发这期视频的时候 WWDC 也快开了。最后咱们就结合现在苹果已经公开发表的模型、论文和媒体的公开报道来预测一下 WWDC24,苹果在 AI 方面会有哪些动作。

大的方向我认为是不会变的。苹果过去在机器学习方面的实践和最近相关的爆料仍然都指向一个小型化的、能运行在用户设备端的帮助用户解决实际问题的模型。

首当其冲的就是 Siri。这块如果不出意外的话他肯定是往死了抄 ChatGPT,因为样板实在是做得太好了,听苹果抄别人好像是个挺新鲜的事儿哈。首先他能记住你之前跟他说过所有的内容,问他问题时应该也不仅仅局限于语音或者文字这一种了,并且回答也是经过检索和总结的,而不是直接甩给你一堆搜索结果。

但是苹果做这件事的优势在于,Siri 他能获得的信息维度比 ChatGPT 要大很多,他更容易知道你跟设备当前的状态,你拍过什么照片,你常用哪些 App,以及你有哪些事情要做,这样他就可以给出一些更有语境更有上下文的回答。甚至是不是能够根据场景,他可以主动的发起对话,我觉得如果做到这个体验,那确实可以 Wow 一下了。不过这里面的难点是,虽然 Siri 现在作为一个智能助理他是不及格的,但是定个闹钟、问个天气,这些他都是没有问题的,我就有点担心接入大模型之后,他反而会给你搞出点花活,我们已经看过不少大模型一本正经编瞎话的例子了,如何能让他的回答更有创造力,更有理解力,同时执行简单任务的时候保持稳定和准确,这是一件苹果必须要解决的问题。

跟他对话只是交互的手段,重要的是那个执行结果。

其次是对于界面当中内容的理解能力,那去年年底苹果悄悄开源了一个叫「Ferret」也就是雪貂的多模态大语言模型,重点是今年 4 月,他们推出了一个变种 Ferret-UI。这个模型能够理解手机 UI 的界面元素,并且在这篇论文的实例当中,允许用户通过自然语言去操作 App。

同样是 4 月份,他们的另一个大模型 ReALM 则是专门针对自然语言的模糊性做了改进。你跟它说,打这个电话,摁底下那个按钮,它也都能听懂,你指的到底是屏幕上的哪个元素。

这个东西再往前想一步,就是 Rabbit R1 发布会上他们想要做的自动化程序,帮用户点击页面,填写信息,最终达成一句话就可以帮用户打车、订机票酒店的体验。而且这两个模型都不大,雪貂能找到 70 亿和 130 亿的版本,ReALM 更小,最小的版本只有 8000 万参数。明显是奔着在 iPhone 上,甚至是 Apple Watch 和耳机上跑的。

 

毕竟手表和耳机,也只有旗舰芯片,去年的旗舰芯片,还有...

 

不管最后这个能力包装进 Siri 还是什么,总之苹果是最有机会打通整套体验的,毕竟前面统一 UI 框架的底子已经打了很多年了,还能顺带大幅度改善无障碍的体验,以后就不是猫踩你手机帮你锁了 SU7 的订单了,还有可能是 Siri 干的。

再来,让真正需要 AI 的场景生效,肯定是苹果的做事方式,苹果估计还是不会整什么大活,而是把 AI 贯彻在一系列的功能细节中。比如文生图或者图生图这种场景,肯定是要结合在 Keynote 生成背景或者个性化生成壁纸这种场景才更有想象力的。再比如内容总结或者摘要,也应该放在 iMessage 或者其他聊天软件中才更合理,直接通过上下文帮你新建日程安排,Siri 在帮你检索一下机票酒店的价格,做个推荐,感觉一下就闭环了。

最后就是面向开发者这一侧,苹果应该会把大模型的能力打包成 API,直接开放给开发者。提升旧能力,提供新玩法,甚至把三方 App 的能力直接整合进 Siri 建议。这方面我会在 WWDC 之后好好看一下后续的开发者课程,如果发现了什么有意思的东西在做成视频分享给大家。

总结

当然啊,我们讲到的可能是最好的情况,即使是苹果估计也很难一口吃成胖子,即便这些体验,下一代系统没有办法全部达成。你从它的研究方向上也能看出来,未来让用户可以通过自然语言简单无缝地指挥 Siri 去操作手机,肯定是苹果在大模型领域的终极目标之一。甚至在他的曾经的产品定义中,苹果汽车都是这么操作的。

但是如果真这样发展下去,苹果也即将要面对一个终极困境,就是 AI 越强,用户对 App 的需求越弱。AI 杀死苹果生态中最重要的一环——App Store,从逻辑上来说是必然会发生的,只是时间长短的问题。

现在的 App 开发者可能慢慢都会变成服务的提供者,由 AI 来调用他们的能力。而因为 App Store 诞生,各个 App 之间建立起的阻隔之墙,是非常有希望被 AI 直接捅破的。原本互联网时代一个网址就可以跳转和分享的体验,是不是能够重新变成日常,这个我们可以把时间拉长到五年或者十年拭目以待。

不过呢,App 可能会消失,但手机仍然是承载 AI 最好的载体,自然语言交互不可能适用于所有场景,内容消费也需要一块高素质的屏幕,与此同时手机拥有的算力、机器视觉以及能够满足需求的续航体验,是其他设备短时间没有办法给你的。

可以说 AI 不会消灭手机,

但没有 AI 的手机,注定消亡。

参考资料

> 关注 少数派小红书,感受精彩数字生活 🍃

> 实用、好用的 正版软件,少数派为你呈现 🚀