具透 | 从更聪明的 iOS 10 和 Siri,看看苹果在 AI 上如何 Think Different

关于栏目

苹果、谷歌每年一次大更新的新系统都值得关注。「具透」会挖掘、详解新系统的各个功能细节,并会以长期更新形式,让你对它们有更深入全面的了解。


今年,Google 的 AlphaGo 打败了人类围棋的冠军,一时间科技圈外的人们也都听说了这只「狗」,人工智能(AI)再次掀起了一个高潮。纵观 Google 的所有产品线,无论是 Gmail 的回复预测,还是 Google Photos 的智能识别,Google 对人工智能的运用,简直无处不在。甚至其最核心的业务——搜索,在今年年初原搜索负责人 Amit Singhal 离职后,也由人工智能团队总监 John Giannandrea 接管了。

而反观苹果,似乎在科技巨头当中,是在人工智能领域最没有作为的一家公司,年内科技圈内对苹果的担忧日益渐长,尤其是 Benedict Evans 在撰写了 《AI, Apple and Google》 一文后,将这场讨论推向了高潮,苹果甚至不得不进行公关造势,以扭转自身的形象,于是罕见的,Eddy Cue、Craig Federighi 与多位 Siri 首席科学家接受了采访,通过 《The iBrain is Here》 一文透露了许多 Siri 和苹果在人工智能领域的内幕与细节。

再多的争论,也比不上实际的行动。iOS 10 恐怕是苹果目前交出的关于人工智能最直接的答卷。这次系统更新,不仅仅发布了面向第三方应用扩展的 SiriKit,相册也终于支持人脸识别,还在系统范围内加入了一系列智能特性。

我们今天就一起来透过表象看实质,从 iOS 10 的这些改变,来进一步聊一聊苹果在人工智能领域,如何 Think Different。

Siri:连接一切的语音交互

我曾在多篇文章里发表过对语音交互的看法:语音交互就是未来最普遍的 UI 范式。在 《Google Home 详解》 和 《下一代交互革命是语音》 都有提到:

从前设备与设备之间是孤立的,随着物联网的大潮,未来每一个物件都会连接在一起,告别那些笨重而丑陋的遥控器和各类按钮,告别那一本本没人阅读的说明书,也告别你需要在手机上分别安装 5 个 App 去控制 5 个不同的家电。你只需要拥有一个 Echo 这样的中央设备,然后对它说话,一切便自然地发生。

iOS 10 中的 Siri,终于走出了第一步。虽然它还不是一切物件与 App 的交互中枢,但这次随着 SiriKit 的开放,第三方 App 终于可以接入 Siri,这是第一步。

不过也是非常有限的一步。苹果目前只针对六个领域向第三方应用开放了 Siri,即:音视频通话、健身、消息服务、支付、搜索照片和视频、叫车。按苹果的说法,开放的领域会谨慎地一步步扩大,这么做的目的也是为了在可控的范围内,不断地调校 Siri 以达到更好的效果。

在 App Store 的 iOS 10 专题中,也将目前适配了 Siri 的 App 单独列了出来,主要包括:QQ滴滴出行阿甘跑步野兽骑行携程旅行Runtastic 六款应用。当然,除了被苹果官方列出的这些应用之外,大众点评、易到、优步、Airmail 等应用也都有适配 Siri 的新特性。

所以,实际使用的体验是什么呢?比如,你现在只要对 Siri 说「用 QQ 给某某人发消息告诉他什么内容」,Siri 就会自动从 QQ 中读到相应的联系人,并准备好消息,这时候会问寻你是否发送,你只要再回答一句「是的」,消息就发送出去了。全程只需要张嘴和 Siri 说两次话,完全不用打字输入或单独打开 QQ。

一样的体验,你可以试试对 Siri 说「用滴滴出行打车去某地点」,Siri 就会显示出预估费用、车辆信息等情况。

这一切体验,是不是特别美好?

但是,没错,「但是」来了。如果你实际使用的话,会发现这么几个坑:

1. 速度慢

有时候 Siri 的识别需要十几秒的时间,如果你手头正在忙别的事情,那可能还好,但比如打车的时候,你可能已经在路边了,这时候用 Siri 来叫车,可能还不如直接打开滴滴的 App 来得更快;

2. 首次使用时需要授权,导致流程中断

当使用 Siri 调用第三方 App 时,苹果保持了一贯的作风——隐私安全是首位的,苹果需要你主动授权 Siri 去访问和调用第三方 App 的数据。虽然在你首次打开 App 时会寻问授权,但你如果安装后直接使用 Siri,它会告诉你需要去设置中授权。而最坑爹的地方在于,授权后,你需要重新唤起 Siri,再重复一遍你刚才说的话。

3. 猜不到的语音指令

QQ + Siri 能做什么,可能还比较好猜。但是比如像「携程旅行」呢?是不是可以订机票、订酒店、订自由行?我试了一遍,统统不行。

没错,如果 App 本身不给你很明确的提示,你很有可能猜不到它到底可以通过 Siri 做什么,你能发出什么样的指令。

于是在我查询了携程旅行的官方日志后,原来它可以帮你打车……

4. 傻,换一个方式就不认账了

如果说前面这些不足都还能忍受,那么最难以接受的恐怕就是它的傻。

例如刚才举的用 Siri 发送 QQ 消息的例子。如果我换一个表达的句式(图二),仅仅调整了语序,Siri 就识别不出具体的发送对象和消息内容了。而如果我换一个表达方式(图三),例如只是把「发消息」变成了「告诉」,Siri 甚至傻到没有调用 SiriKit,而是在识别出这句话后,直接帮我跳转打开了 QQ。

同样的体验,如果你说的是「滴滴」而不是「滴滴出行」,「优步」而不是「Uber」,Siri 都认不出来你在说哪个 App。

甚至,你必须按照滴滴出行官方给出的「用滴滴出行打车去…」这个句式,Siri 才能成功地识别地点,如果你只是换一个说法,变成「用滴滴出行叫一辆去……的车」,不好意思,Siri 就完全不知道你要去哪了。 

总的来说,如果一定要给 iOS 10 的 Siri 新特性打分,只能给 59 分。方向是对的,但是实际的使用实在太不友好了。从易用性、可发性性、容错性各个角度来说,Siri 目前的表现都不尽如人意,最后很可能变成人们必须小心翼翼地重复出固定的句式和语序,Siri 才能成功地工作。这样,一方面人们弄不清楚 Siri 到底可以调用第三方 App 可以做什么,另一方面在几次尝试失败之后,这种挫败感很可能让人放弃 Siri,还是老老实实和原来一样去桌面上打开 App 使用,可能反而更方便。

遍地开花的 AI:相册、输入预测、地点猜测等

虽然 Siri 实际的使用体验还不尽如人意,不过 iOS 10 中还有相当一部分智能的新特性,让人眼前一亮。

1. 补齐短板的照片相册

首先不得不提的就是照片相册。终于,苹果加入了人脸识别和回忆。实际上这两个功能在 Google Photos 中早就存在了,「回忆」是 iOS 系统会智能地分析你的照片,自动将一系列照片生成一个小幻灯片。相薄中,人物、地点、自拍、屏幕截图都会作为单独的类别罗列出来。

不过,这些功能最多只能算补齐短板,真正值得一提的是苹果的实现方式。要知道人脸识别作为一个相当普通的功能,苹果之所以到 iOS 10 才加入,是因为苹果一直不希望这些识别是像 Google 那样通过云端完成的。

没错,所有的这些照片识别实际上都是在手机本地完成的,因此你必须插上电源的情况下,iOS 才会开始扫描分析你的照片。甚至在当前阶段,不同设备间的识别数据都不会共享,例如你同时使用 iPhone 和 Mac,两边的照片都是分别在本地识别完成的。

而实际上,iOS 10 识别的不仅仅是人脸,它能识别的物体和范围要大得多。你可以尝试在相册中搜索一些关键词,如「花」「夜总会」「高楼」等等,iOS 实际上都建立了相关的照片索引,你可以看到有相关内容的照片合集。 

2. 地图中智能预测地点,关联通话记录

《iOS 10 的地图是「苹果水准」的地图》一文中提到了,新版的地图会根据剪切板记录、最近去过的地点、常去地点、日历和邮件中的位置等来源,根据时间段智能地猜测你可能要去哪儿,并直接显示预测的行程时间。 

 

除此之外,如果你在地图中搜索过某个地点,例如某家餐馆,并拨打了电话。在通话记录中查看详情的时候,也会智能地引用地图中的数据,显示该地点的照片、路线导航、营业时间等信息。

3. 情景预测:知道你要说什么、做什么

iOS 10 还在系统层面加入了情景预测(Contextual Predictions)。简单来说,它可以做这么几件事情:

  • 智能地提供回复预测,如你需要回复姓名、电话、位置的时候,会直接在候选栏提供选项,可以一键输入;不过如果是根据对方的信息来猜测,目前只支持在 iMessage 中。但如果是根据你已经输入的内容,如你在文本框中输入「我的电话是」后,候选栏中也会智能地出现你的电话号码,这样的预测是在整个系统层面通用的。
  • 可以根据在 iMessage 中的聊天上下文智能地创建日程,如在前后对话中分别提到了星期天、聚餐、11 点、来福士广场等关键词,可以直接点击时间创建日程,会将前后文中的相关内容智能地填充到日程的时间、地点、邀请人当中,不过对中文的支持不是特别友好;
  • 多语言输入:在以前,如果你要混输中英文,不得不在两个输入法之间切换。现在,你可以试试直接在一次输入中既打拼音,又打英文单词,iOS 一样可以识别出来。

Hey Siri 只会激活一台设备

从前,如果你拥有众多苹果设备在面前,如 iPhone、iPad、Mac,尤其是新版 macOS 中还加入了 Siri,想一想这时候喊一句「Hey Siri」,所有的设备都亢奋地回应你。

9to5mac 报道,在 iOS 10 中只会激活一台设备了。当你发出「Hey Siri」的指令后,虽然第一时间所有接收到的设备都会亮屏,但一旦设备之间发现周围已经有设备被激活了,它就不会回应语音指令了。根据 9to5mac 的发现,虽然没有得到技术细节的证实,似乎多设备共存时,iPad 的响应优先级是高于 iPhone 的。

苹果在 AI 上如何 Think Different

介绍了这么多 iOS 10 相关的智能特性后,有必要来谈一谈苹果在深度学习和人工智能方面的一些立场和选择。

众所周知,苹果在科技巨头中,一向以隐私安全卫道士的身份自居,在今年和 FBI 的对抗,甚至还更极端地在云端也加密了用户的 iCloud 备份,使得他们自己想要破解都无处下手。然而,深度学习和人工智能最需要的就是数据样本,从这一点上来看,似乎和用户隐私多多少少存在一些冲突。按传统的做法,Google 尽可能地收集用户的数据,并以此调校自己的人工智能模型,通过「模型建立 - 模型应用 - 模型修正」这样的自我反馈,以达到更精准的效果。

说实话,很多人可能并不在意自己的隐私,觉得自己只是茫茫人海中的一份子,自己那一份数据在汪洋大海中,根本不会有人把他揪出来。但这么想不一定对。最有名的一个案例是,2007 年,Netflix(纸牌屋制作方)曾设立了一项 100 万美金的奖励计划,鼓励人们帮助它改进其内容推荐系统。为此,它放出了一个数据库,里面包含了其用户对各个电影电视剧的评分,但抹去了姓名等隐私信息。不料,有人将 Netflix 放出的数据库与网络上最大的影视数据平台 IMDB(类似中国的豆瓣电影)做了交叉对比,从而还原出了 Netflix 数据中用户的真实身份。

如果把电影名字也去掉,只留下电影的类别呢?也不一定完全可靠,比如只要有用户的评价打分时间,很可能用户会在两个平台同时完成打分操作,交叉匹配这部分数据,同样有可能暴露出用户的真实身份。

正是基于这样的隐私风险,在公众眼中,苹果一直在深度学习和人工智能领域十分保守。直到今年的 WWDC 上,他们也在强调「Apple will not see your data」。不过,苹果也没有放弃在人工智能领域进一步探索的决心。现在的问题是,鱼与熊掌,可以兼得吗?

苹果的答案是:可以。

如果拿照片识别这件事来看,可以很明显的看出苹果做法的不同。业界通行的做法一般是将照片上传到云端,由云端的服务器进行识别,然后将识别结果返回给用户。但苹果不是,前面提到了,所有照片的识别都是在手机或电脑的本地完成的,虽然你的照片上传到了 iCloud,但所有识别相关的过程,都只发生在设备本地,甚至不同设备之间,识别的数据也是不共享的。

可以看出,苹果在 AI 的应用方面,有两点强烈的原则:

1. 能本地完成的,不上传到云端识别。

苹果一直坚信,最好的隐私保护的办法,就是彻底杜绝他们接触用户数据的可能性。而比加密更好的手段是,这些数据根本不进入到服务器。例如在照片识别这方面,苹果还在 WWDC 上嘲讽道:「我们不需要搜集所有用户拍摄的山,才知道山长什么样」。苹果通过一系列的公开数据,已经完成了模型的初步建立,在用户本地设备上,这些模型被实际运用。事实上,像人脸识别这样的技术和模型,业内已经有相当完善的解决方案,云端识别从模型修正的角度来看,对准确率的提升并不大。

2. 不得不上传到云端分析的,使用差分隐私技术(Differential Privacy)。

不可避免的,仍有一部分数据需要上传到服务器,例如用户修正了本地识别错误的数据,这些苹果也会收集回来以改善自己的识别模型。但是,苹果在这个过程中,使用了差分隐私技术。

虽然这个名字起得很玄乎,但它其实并不是苹果自创的一项技术,更具体地说,它在理论界已经被广泛地讨论,只是没有真正地实施应用到具体的业务中,而其实 Differential Privacy 也不是具体指某一项技术,而是指一系列技术的综合运用,从而最终达到这个目的:有没有办法,从总体 A 中去掉某一个样本后得到 A',而在统计分析上,两者在数学上是无差别的。

要实现这个目标,Craig Federighi 在 WWDC 上提到苹果做了几件事情:

  • 局部抽样:与其上传用户的整体资料,苹果很可能是以某一频率,局部采集一部分用户的数据,如非必要,则不上传;

  • 哈希加密:例如用户的键盘输入记录,可以先用布隆过滤器哈希一遍, 这样就可以在保护用户隐私的前提下,得知用户是否使用某些固定的表达;

  • 注入噪音:在采集用户的数据前,向其中随机地注入一些噪音,只要被注入的噪音抽样是正态分布的,那么回到整体来看,这些噪音最终将相互抵消。

实际上,Google 也有尝试过类似的事情,在 GitHub 上开源了一个名为 RAppOR (Randomized Aggregatable Privacy-Preserving Ordinal Response) 的项目,从原理上来说,也是向数据中注入可控的噪音元素的方式来保护用户隐私,早在 2014 年 Google 就以这项技术来收集用户使用 Chrome 浏览器时的资料。

遗憾的是,一如苹果宣称的,苹果是唯一一家将 Differential Privacy 作为标准来大规模部署的公司。

不过,担心也是同样存在的,使用 Differential Privacy 之后,模型的准确率相比 Google 又如何?要知道,即使是 Google,前不久也发生过错误地将黑人识别为大猩猩这样的闹剧。而在实际使用过程当中,对比 iOS 照片和 Google Photos 的识别结果,总的来说,前者还是会将同一个人识别成多个不同的人,而 Google Photos 则几乎没有这样的错误。

除了原则和理念上的不同,苹果在组织架构和公关宣传方面,其实也和 Google、Facebook 不同。

从组织架构来说,苹果这五年来也收购了二十家左右的人工智能相关的公司,不过,在苹果内部却并没有一个统一的人工智能部门,这些公司被收购后,人才都相应地流动到了各个产品线当中。按苹果的理念,深度学习和 AI 应该是一项为用户体验服务的基本能力,它应该贯穿于各个软硬件和服务产品线当中,而不是像 Google 一样成立专门的部门。

从公关上来说,除了今年苹果在风口浪尖选择接受采访回应外,其余时候在人工智能方面并没有大张旗鼓地宣传。在《The iBrain is Here》一文有提到,实际上苹果早在 2014 年 7 月,就对 Siri 的后台技术进行过一次大规模升级,升级之后 Siri 的进步从内部统计数据上来看是非常显著的,但苹果在此之前从来不曾对外提起过。而在历次发布会上,苹果也保持一贯务实的风格,并没有专门把人工智能作为一个演讲章节,或者推出一些诸如 Google Home 这样实验性的产品,在媒体公关上相对低调。

总的来看,苹果一直在 AI 方面低调地努力着,iOS 10 中的种种改变,应用和应用之间、设备和设备之间都仿佛更加了解彼此。我觉得相比起 AirPods,苹果对于隐私的坚守、给出 Differential Privacy 的方案,才是真正称得上 Courage

(题图来自 CNET


少数派对 iOS 10 已有若干篇详解文章,我们特地制作了专题页面,并会持续更新。

阅读更多:《专题 · 全面了解 iOS 10》

25

子不语Rex

子不语Rex

【子不语】微信公众号:ZiChat

关注
登录 使用文章全部功能