具透 | 从更聪明的 iOS 10 和 Siri，看看苹果在 AI 上如何 Think Different

关于栏目

苹果、谷歌每年一次大更新的新系统都值得关注。「具透」会挖掘、详解新系统的各个功能细节，并会以长期更新形式，让你对它们有更深入全面的了解。

今年，Google 的 AlphaGo 打败了人类围棋的冠军，一时间科技圈外的人们也都听说了这只「狗」，人工智能（AI）再次掀起了一个高潮。纵观 Google 的所有产品线，无论是 Gmail 的回复预测，还是 Google Photos 的智能识别，Google 对人工智能的运用，简直无处不在。甚至其最核心的业务——搜索，在今年年初原搜索负责人 Amit Singhal 离职后，也由人工智能团队总监 John Giannandrea 接管了。

而反观苹果，似乎在科技巨头当中，是在人工智能领域最没有作为的一家公司，年内科技圈内对苹果的担忧日益渐长，尤其是 Benedict Evans 在撰写了《AI, Apple and Google》一文后，将这场讨论推向了高潮，苹果甚至不得不进行公关造势，以扭转自身的形象，于是罕见的，Eddy Cue、Craig Federighi 与多位 Siri 首席科学家接受了采访，通过《The iBrain is Here》一文透露了许多 Siri 和苹果在人工智能领域的内幕与细节。

再多的争论，也比不上实际的行动。iOS 10 恐怕是苹果目前交出的关于人工智能最直接的答卷。这次系统更新，不仅仅发布了面向第三方应用扩展的 SiriKit，相册也终于支持人脸识别，还在系统范围内加入了一系列智能特性。

我们今天就一起来透过表象看实质，从 iOS 10 的这些改变，来进一步聊一聊苹果在人工智能领域，如何 Think Different。

Siri：连接一切的语音交互

我曾在多篇文章里发表过对语音交互的看法：语音交互就是未来最普遍的 UI 范式。在《Google Home 详解》和《下一代交互革命是语音》都有提到：

从前设备与设备之间是孤立的，随着物联网的大潮，未来每一个物件都会连接在一起，告别那些笨重而丑陋的遥控器和各类按钮，告别那一本本没人阅读的说明书，也告别你需要在手机上分别安装 5 个 App 去控制 5 个不同的家电。你只需要拥有一个 Echo 这样的中央设备，然后对它说话，一切便自然地发生。

iOS 10 中的 Siri，终于走出了第一步。虽然它还不是一切物件与 App 的交互中枢，但这次随着 SiriKit 的开放，第三方 App 终于可以接入 Siri，这是第一步。

不过也是非常有限的一步。苹果目前只针对六个领域向第三方应用开放了 Siri，即：音视频通话、健身、消息服务、支付、搜索照片和视频、叫车。按苹果的说法，开放的领域会谨慎地一步步扩大，这么做的目的也是为了在可控的范围内，不断地调校 Siri 以达到更好的效果。

在 App Store 的 iOS 10 专题中，也将目前适配了 Siri 的 App 单独列了出来，主要包括：QQ、滴滴出行、阿甘跑步、野兽骑行、携程旅行、Runtastic 六款应用。当然，除了被苹果官方列出的这些应用之外，大众点评、易到、优步、Airmail 等应用也都有适配 Siri 的新特性。

所以，实际使用的体验是什么呢？比如，你现在只要对 Siri 说「用 QQ 给某某人发消息告诉他什么内容」，Siri 就会自动从 QQ 中读到相应的联系人，并准备好消息，这时候会问寻你是否发送，你只要再回答一句「是的」，消息就发送出去了。全程只需要张嘴和 Siri 说两次话，完全不用打字输入或单独打开 QQ。

一样的体验，你可以试试对 Siri 说「用滴滴出行打车去某地点」，Siri 就会显示出预估费用、车辆信息等情况。

这一切体验，是不是特别美好？

但是，没错，「但是」来了。如果你实际使用的话，会发现这么几个坑：

1. 速度慢

有时候 Siri 的识别需要十几秒的时间，如果你手头正在忙别的事情，那可能还好，但比如打车的时候，你可能已经在路边了，这时候用 Siri 来叫车，可能还不如直接打开滴滴的 App 来得更快；

2. 首次使用时需要授权，导致流程中断

当使用 Siri 调用第三方 App 时，苹果保持了一贯的作风——隐私安全是首位的，苹果需要你主动授权 Siri 去访问和调用第三方 App 的数据。虽然在你首次打开 App 时会寻问授权，但你如果安装后直接使用 Siri，它会告诉你需要去设置中授权。而最坑爹的地方在于，授权后，你需要重新唤起 Siri，再重复一遍你刚才说的话。

3. 猜不到的语音指令

QQ + Siri 能做什么，可能还比较好猜。但是比如像「携程旅行」呢？是不是可以订机票、订酒店、订自由行？我试了一遍，统统不行。

没错，如果 App 本身不给你很明确的提示，你很有可能猜不到它到底可以通过 Siri 做什么，你能发出什么样的指令。

于是在我查询了携程旅行的官方日志后，原来它可以帮你打车……

4. 傻，换一个方式就不认账了

如果说前面这些不足都还能忍受，那么最难以接受的恐怕就是它的傻。

例如刚才举的用 Siri 发送 QQ 消息的例子。如果我换一个表达的句式（图二），仅仅调整了语序，Siri 就识别不出具体的发送对象和消息内容了。而如果我换一个表达方式（图三），例如只是把「发消息」变成了「告诉」，Siri 甚至傻到没有调用 SiriKit，而是在识别出这句话后，直接帮我跳转打开了 QQ。

同样的体验，如果你说的是「滴滴」而不是「滴滴出行」，「优步」而不是「Uber」，Siri 都认不出来你在说哪个 App。

甚至，你必须按照滴滴出行官方给出的「用滴滴出行打车去……」这个句式，Siri 才能成功地识别地点，如果你只是换一个说法，变成「用滴滴出行叫一辆去……的车」，不好意思，Siri 就完全不知道你要去哪了。

总的来说，如果一定要给 iOS 10 的 Siri 新特性打分，只能给 59 分。方向是对的，但是实际的使用实在太不友好了。从易用性、可发性性、容错性各个角度来说，Siri 目前的表现都不尽如人意，最后很可能变成人们必须小心翼翼地重复出固定的句式和语序，Siri 才能成功地工作。这样，一方面人们弄不清楚 Siri 到底可以调用第三方 App 可以做什么，另一方面在几次尝试失败之后，这种挫败感很可能让人放弃 Siri，还是老老实实和原来一样去桌面上打开 App 使用，可能反而更方便。

遍地开花的 AI：相册、输入预测、地点猜测等

虽然 Siri 实际的使用体验还不尽如人意，不过 iOS 10 中还有相当一部分智能的新特性，让人眼前一亮。

1. 补齐短板的照片相册

首先不得不提的就是照片相册。终于，苹果加入了人脸识别和回忆。实际上这两个功能在 Google Photos 中早就存在了，「回忆」是 iOS 系统会智能地分析你的照片，自动将一系列照片生成一个小幻灯片。相薄中，人物、地点、自拍、屏幕截图都会作为单独的类别罗列出来。

不过，这些功能最多只能算补齐短板，真正值得一提的是苹果的实现方式。要知道人脸识别作为一个相当普通的功能，苹果之所以到 iOS 10 才加入，是因为苹果一直不希望这些识别是像 Google 那样通过云端完成的。

没错，所有的这些照片识别实际上都是在手机本地完成的，因此你必须插上电源的情况下，iOS 才会开始扫描分析你的照片。甚至在当前阶段，不同设备间的识别数据都不会共享，例如你同时使用 iPhone 和 Mac，两边的照片都是分别在本地识别完成的。

而实际上，iOS 10 识别的不仅仅是人脸，它能识别的物体和范围要大得多。你可以尝试在相册中搜索一些关键词，如「花」「夜总会」「高楼」等等，iOS 实际上都建立了相关的照片索引，你可以看到有相关内容的照片合集。

2. 地图中智能预测地点，关联通话记录

在《iOS 10 的地图是「苹果水准」的地图》一文中提到了，新版的地图会根据剪切板记录、最近去过的地点、常去地点、日历和邮件中的位置等来源，根据时间段智能地猜测你可能要去哪儿，并直接显示预测的行程时间。

除此之外，如果你在地图中搜索过某个地点，例如某家餐馆，并拨打了电话。在通话记录中查看详情的时候，也会智能地引用地图中的数据，显示该地点的照片、路线导航、营业时间等信息。

3. 情景预测：知道你要说什么、做什么

iOS 10 还在系统层面加入了情景预测（Contextual Predictions）。简单来说，它可以做这么几件事情：

智能地提供回复预测，如你需要回复姓名、电话、位置的时候，会直接在候选栏提供选项，可以一键输入；不过如果是根据对方的信息来猜测，目前只支持在 iMessage 中。但如果是根据你已经输入的内容，如你在文本框中输入「我的电话是」后，候选栏中也会智能地出现你的电话号码，这样的预测是在整个系统层面通用的。

可以根据在 iMessage 中的聊天上下文智能地创建日程，如在前后对话中分别提到了星期天、聚餐、11 点、来福士广场等关键词，可以直接点击时间创建日程，会将前后文中的相关内容智能地填充到日程的时间、地点、邀请人当中，不过对中文的支持不是特别友好；
多语言输入：在以前，如果你要混输中英文，不得不在两个输入法之间切换。现在，你可以试试直接在一次输入中既打拼音，又打英文单词，iOS 一样可以识别出来。

Hey Siri 只会激活一台设备

从前，如果你拥有众多苹果设备在面前，如 iPhone、iPad、Mac，尤其是新版 macOS 中还加入了 Siri，想一想这时候喊一句「Hey Siri」，所有的设备都亢奋地回应你。

9to5mac 报道，在 iOS 10 中只会激活一台设备了。当你发出「Hey Siri」的指令后，虽然第一时间所有接收到的设备都会亮屏，但一旦设备之间发现周围已经有设备被激活了，它就不会回应语音指令了。根据 9to5mac 的发现，虽然没有得到技术细节的证实，似乎多设备共存时，iPad 的响应优先级是高于 iPhone 的。

苹果在 AI 上如何 Think Different

介绍了这么多 iOS 10 相关的智能特性后，有必要来谈一谈苹果在深度学习和人工智能方面的一些立场和选择。

众所周知，苹果在科技巨头中，一向以隐私安全卫道士的身份自居，在今年和 FBI 的对抗，甚至还更极端地在云端也加密了用户的 iCloud 备份，使得他们自己想要破解都无处下手。然而，深度学习和人工智能最需要的就是数据样本，从这一点上来看，似乎和用户隐私多多少少存在一些冲突。按传统的做法，Google 尽可能地收集用户的数据，并以此调校自己的人工智能模型，通过「模型建立 - 模型应用 - 模型修正」这样的自我反馈，以达到更精准的效果。

说实话，很多人可能并不在意自己的隐私，觉得自己只是茫茫人海中的一份子，自己那一份数据在汪洋大海中，根本不会有人把他揪出来。但这么想不一定对。最有名的一个案例是，2007 年，Netflix（纸牌屋制作方）曾设立了一项 100 万美金的奖励计划，鼓励人们帮助它改进其内容推荐系统。为此，它放出了一个数据库，里面包含了其用户对各个电影电视剧的评分，但抹去了姓名等隐私信息。不料，有人将 Netflix 放出的数据库与网络上最大的影视数据平台 IMDB（类似中国的豆瓣电影）做了交叉对比，从而还原出了 Netflix 数据中用户的真实身份。

如果把电影名字也去掉，只留下电影的类别呢？也不一定完全可靠，比如只要有用户的评价打分时间，很可能用户会在两个平台同时完成打分操作，交叉匹配这部分数据，同样有可能暴露出用户的真实身份。

正是基于这样的隐私风险，在公众眼中，苹果一直在深度学习和人工智能领域十分保守。直到今年的 WWDC 上，他们也在强调「Apple will not see your data」。不过，苹果也没有放弃在人工智能领域进一步探索的决心。现在的问题是，鱼与熊掌，可以兼得吗？

苹果的答案是：可以。

如果拿照片识别这件事来看，可以很明显的看出苹果做法的不同。业界通行的做法一般是将照片上传到云端，由云端的服务器进行识别，然后将识别结果返回给用户。但苹果不是，前面提到了，所有照片的识别都是在手机或电脑的本地完成的，虽然你的照片上传到了 iCloud，但所有识别相关的过程，都只发生在设备本地，甚至不同设备之间，识别的数据也是不共享的。

可以看出，苹果在 AI 的应用方面，有两点强烈的原则：

1. 能本地完成的，不上传到云端识别。

苹果一直坚信，最好的隐私保护的办法，就是彻底杜绝他们接触用户数据的可能性。而比加密更好的手段是，这些数据根本不进入到服务器。例如在照片识别这方面，苹果还在 WWDC 上嘲讽道：「我们不需要搜集所有用户拍摄的山，才知道山长什么样」。苹果通过一系列的公开数据，已经完成了模型的初步建立，在用户本地设备上，这些模型被实际运用。事实上，像人脸识别这样的技术和模型，业内已经有相当完善的解决方案，云端识别从模型修正的角度来看，对准确率的提升并不大。

2. 不得不上传到云端分析的，使用差分隐私技术（Differential Privacy）。

不可避免的，仍有一部分数据需要上传到服务器，例如用户修正了本地识别错误的数据，这些苹果也会收集回来以改善自己的识别模型。但是，苹果在这个过程中，使用了差分隐私技术。

虽然这个名字起得很玄乎，但它其实并不是苹果自创的一项技术，更具体地说，它在理论界已经被广泛地讨论，只是没有真正地实施应用到具体的业务中，而其实 Differential Privacy 也不是具体指某一项技术，而是指一系列技术的综合运用，从而最终达到这个目的：有没有办法，从总体 A 中去掉某一个样本后得到 A'，而在统计分析上，两者在数学上是无差别的。

要实现这个目标，Craig Federighi 在 WWDC 上提到苹果做了几件事情：

局部抽样：与其上传用户的整体资料，苹果很可能是以某一频率，局部采集一部分用户的数据，如非必要，则不上传；
哈希加密：例如用户的键盘输入记录，可以先用布隆过滤器哈希一遍，这样就可以在保护用户隐私的前提下，得知用户是否使用某些固定的表达；
注入噪音：在采集用户的数据前，向其中随机地注入一些噪音，只要被注入的噪音抽样是正态分布的，那么回到整体来看，这些噪音最终将相互抵消。

实际上，Google 也有尝试过类似的事情，在 GitHub 上开源了一个名为 RAppOR (Randomized Aggregatable Privacy-Preserving Ordinal Response) 的项目，从原理上来说，也是向数据中注入可控的噪音元素的方式来保护用户隐私，早在 2014 年 Google 就以这项技术来收集用户使用 Chrome 浏览器时的资料。

遗憾的是，一如苹果宣称的，苹果是唯一一家将 Differential Privacy 作为标准来大规模部署的公司。

不过，担心也是同样存在的，使用 Differential Privacy 之后，模型的准确率相比 Google 又如何？要知道，即使是 Google，前不久也发生过错误地将黑人识别为大猩猩这样的闹剧。而在实际使用过程当中，对比 iOS 照片和 Google Photos 的识别结果，总的来说，前者还是会将同一个人识别成多个不同的人，而 Google Photos 则几乎没有这样的错误。

除了原则和理念上的不同，苹果在组织架构和公关宣传方面，其实也和 Google、Facebook 不同。

从组织架构来说，苹果这五年来也收购了二十家左右的人工智能相关的公司，不过，在苹果内部却并没有一个统一的人工智能部门，这些公司被收购后，人才都相应地流动到了各个产品线当中。按苹果的理念，深度学习和 AI 应该是一项为用户体验服务的基本能力，它应该贯穿于各个软硬件和服务产品线当中，而不是像 Google 一样成立专门的部门。

从公关上来说，除了今年苹果在风口浪尖选择接受采访回应外，其余时候在人工智能方面并没有大张旗鼓地宣传。在《The iBrain is Here》一文有提到，实际上苹果早在 2014 年 7 月，就对 Siri 的后台技术进行过一次大规模升级，升级之后 Siri 的进步从内部统计数据上来看是非常显著的，但苹果在此之前从来不曾对外提起过。而在历次发布会上，苹果也保持一贯务实的风格，并没有专门把人工智能作为一个演讲章节，或者推出一些诸如 Google Home 这样实验性的产品，在媒体公关上相对低调。

总的来看，苹果一直在 AI 方面低调地努力着，iOS 10 中的种种改变，应用和应用之间、设备和设备之间都仿佛更加了解彼此。我觉得相比起 AirPods，苹果对于隐私的坚守、给出 Differential Privacy 的方案，才是真正称得上 Courage。

（题图来自 CNET）

少数派对 iOS 10 已有若干篇详解文章，我们特地制作了专题页面，并会持续更新。

阅读更多：《专题 · 全面了解 iOS 10》