上周有三个新闻可以放一起看。

一个新闻是今日头条旗下音乐短视频应用抖音即将全面国际化,按照今日头条官方的说法:「要投入上亿美金」。

另一个新闻来自阿里,发布+公测将近一个月的天猫精灵 X1 正式开售,这是一个可称之为「中国版 Echo」的智能音箱,目前已经可以通过语音操作实现智能家居控制、语音购物、手机助手等 40 多个操作技能。

第三个新闻的主角是 Facebook,社交巨人上周表示,公司正在为网页版、移动应用开发一个名叫「Watch」的功能。未来,用户可以通过这个入口直接观看视频,包括体育、真人秀等。

上述三个新闻看似没有必然关系,毕竟,一个是中国创业公司的出海举措,一个是中国互联网巨头的卡位产品,一个是大洋彼岸社交应用的一个新功能,但这三个举措,或者说行动,却都指向了一个方向:降低获取用户的成本以及降低用户内容消费、内容生产的成本。

更有趣的一点,这三家公司在产品层面,都不约而同地放弃了文字和图像,而是选择了音视频

最新一季的 Facebook 财报披露,FB 的月活用户已经突破 20 亿。下图是全球主流社交产品的月活用户对比[1]

自 2004 年上线到现在,FB 已然让全球三分之一的人变成了其月活用户,这还不包括拥有将近 14 亿人的中国,这是一个伟大的成就,但同时也给 FB 提出了一个更大的难题:当欧美主流人群都已经覆盖之后,下一个 10 亿用户又该从哪里获得?以及下一个 20 亿月活用户又应该分布在哪些地方?

事实上,回答这个问题也十分简单,比如,开拓中国市场,毕竟中国巨大的用户群体摆在那里,然而中国特殊的国情几乎让这个答案变得毫无意义。

另一个答案就是印度,这个人口与中国不相上下的国家正在成为互联网公司的最爱。但印度的人口量并不等于印度互联网(移动互联网)用户量,这中间的转化历程非常艰难。

比如移动互联网的上网资费,根据 Mary Meeker 《互联网报告 2017》的统计(如下图),印度手机用户每月 1 GB 的流量费用一直居高不下,直到 2016 年才下降到可接受的程度。

为了「帮助」印度人民更方便地上网,Facebook 为此还启动一个名叫「Free Basic」的计划,通过与当地运营商合作,提供捆绑式的 Free Basic app 和 Express Wi-Fi 热点,免费向当地用户提供互联网接入服务,然而到了 2016 年 2 月,印度政府终止了这个项目,当局担心,FB 利用这个免费的上网入口,有可能垄断用户使用互联网的所有场景。比如当时用户通过 FB 提供封服务接入互联网后,用户可以浏览多达40个网站,网站内容涉及就业、医疗卫生、新闻和教育等方面,但谁进入这个名单以及谁排在前面,FB 掌握极大的决策权[2]

第二个特殊情况并非局限在印度,而是普遍存在于互联网的欠普及地区。《华尔街日报》的一篇文章指出了这种差别:

Instead of typing searches and emails, a wave of newcomers—“the next billion,” the tech industry calls them—is avoiding text, using voice activation and communicating with images. They are a swath of the world’s less-educated, online for the first time thanks to low-end smartphones, cheap data plans and intuitive apps that let them navigate despite poor literacy.

如果说流量资费昂贵的状况正在改变,那么印度的大量低教育水平迫使包括 FB、Google 这样的巨头做出妥协,其解决办法也很粗暴,提供更多的音频和视频入口

对于过去几年越来越多的语音交互产品、应用的分析,很多时候归因于基于深度学习进步所带来的体验升级,早年间的语音交互往往因为机器识别准确率不足而无果而终,但最近几年语音识别、自然语言处理的发展重新塑造了语音交互的可能性,并被认为是下一个风口。

但站在另一个角度去看,如上文所言,当受教育程度不高的用户第一次接触互联网,尤其是移动互联网时,触摸屏尽管是一种很自然的交互,不过基于触摸屏的文字输入却依然是一个有门槛的事情,这意味着,你需要知道字母(拼音)的拼写或者汉字的笔画。

更困难的则是,在中国、印度在内的很多地区,他们生活的环境几乎不存在与书写、文字相关的条件,请注意,这和文盲无关,而是这些人处在一个口语文化的环境里,它们或许能读,也能书写一些文字,但无法适应书写文化的需求。换句话说,你让他们在微信里用文字聊天是万万不可能的。

而此时,语音输入的便捷性已经非常明显了。不管是社交聊天应用里的语音消息还是搜索时的语音搜索,切实解决了这个难题。如果你生活在一线城市,可以细心观察下一个规律,越是所谓高端的微信群,语音消息越少,而再去看看比如小学同学或者亲戚群,语音消息满天飞的现象非常普遍——请注意,这里并没有任何鄙视的含义,而是以现象入手,探讨不同教育背景、生活背景下的媒介交互机制的不同。

那主打语音交互的智能音箱呢?不管是亚马逊的 Echo 还是阿里巴巴的天猫精灵 X1,其广告宣传的重点都是瞄准了一群事业有成的中产阶级,在自己的「豪宅」里使用这款产品,但一份来自咨询机构 Verto 调查后发现,在包括亚马逊 Alexa (Echo 背后的系统)、Google 助理(运行在 Google Home)等基于语音的入口产品使用场景里,真正的用户是 52 岁的女性,他们每月花费的时间是 1.5 个小时。

这看起来是给匪夷所思的结果,就连Verto 也表示很奇怪:

In fact, personal assistant apps seem to be more popular among women overall: Verto’s data shows that women (54 percent of total user base) use personal assistant apps slightly more frequently than men. And interestingly, there is a trend toward personal assistant app usage in older age groups, especially adults in the 45 to 54 and 55-plus age groups. Based on use cases and ease of functionality, these apps could see wider adoption among older generations, as voice-activated apps become integral to assisted living communities. While most apps generate buzz or downloads from millennials or Gen Z, personal assistant app users do not conform to typical “early adopter” consumer profiles.

如果纯粹从新技术应用的角度去理解,上述想象与我们的一般认知存在分歧,但如果换成用户的使用角度来理解,或许就变得非常简单,一如热衷社交聊天应用里发送语音消息的那批人,智能音箱、语音助手在这里所扮演的,仅仅是一个更没有门槛的交互工具,反而成为这一波语音交互的先锋军。原本被认为是目标受众的中产阶级或知识分子,由于有其他的选项以及这样那样的担心,成了最不热衷新技术的一批人。

相比于语音,视频的应用场景更多。

首先,一如当年的电视一样,同样基于动态影像的手机视频是一种没有任何门槛的内容消费方式。波兹曼曾这样描述人们如何被电视改变了获取「性知识」的方式:

在电视之前的某段时期,《北回归线》特别受青少年的追捧,为什么?因为里面涉及到很多两性秘密的描写,但要看懂这些描写是有成本的,比如这本书比较难找,里面的文字也相对晦涩,一方面需要金钱成本,另一方面也需要一定的文字功底,最起码应该认识很多单词。但当电视出现的时候,这个门槛不复存在了。你可以轻而易举地在午夜的公共频道或付费频道获取你想知道的一切秘密,而且,视觉的冲击力直接削减人类从文字那里思考的漫长时间……

坦白说,波兹曼的观察还是站在一个知识分子的角度,去痛斥知识获取方式的变化,但在现在的语境下,手机视频应用带给用户的,更多还是毫无门槛、打发无聊时间的娱乐内容,下图展示了印度和美国用户截然不同的消费习惯,从中你可以看出两个不同发展阶段的国家里,用户对于内容消费类型的追逐竟然差别这么大:

《华尔街日报》介绍了一位印度普通人对于手机上网的需求:

Mr. Singh, 36, balances suitcases on his head in New Delhi, earning less than $8 a day as a porter in one of India’s biggest railway stations. He isn’t comfortable reading or using a keyboard. That doesn’t stop him from checking train schedules, messaging family and downloading movies. “We don’t know anything about emails or even how to send one,” said Mr. Singh, who went online only in the past year. “But we are enjoying the internet to the fullest.”

在中国这个成长迅速又潜力无限的市场里,视频内容的需求到底有多旺盛,看看 QuestMobile 二季度移动互联网统计报告就能了解个大概,秒拍与快手遥遥领先,前者有微博的流量支持,后者则是中国移动互联网下一个用户增量爆发点的「内心写照」,这里有着底层社会里的各种稀奇古怪的人和场景,尽管一次次地被诸如知乎这样的「高逼格」社区所鄙视,但快手所展示的增长潜力,早已超越了知乎。

第二,在手机上,视频是一种更简单的内容生产方式。曾几何时,拍视频是一种特权,因为你需要器材拍摄,同样还需要后期处理的视频,这也是长期以来互联网主流内容生产形式都是文本的原因。

现在,你只需要一部手机,就能完成比文本生产更简单的视频内容生产。不管是国内的秒拍、快手还是国外的 Instagram、Snap,都在鼓励你打开手机摄像头拍摄短视频,并提供了一整套后期剪辑的滤镜、配乐或文字。

我们当然需要感谢技术的进步,但更应该思考这个变化的背后意义:当视频生产的门槛越来越低,会给社会以及个体认知带来什么?尤其是,联系到上文提到的第一点,如果社会广大群体习惯了毫无门槛的视频内容消费,又会产生怎样的连锁反应?

一个可以预见的事实,那就是随着中美互联网巨头不断寻找下一批用户的增长点,以语音、视频为核心的产品还会越来越多,这并非仅仅是因为新用户的受教育水平低,更是因为新用户的低龄化趋势势不可挡,当初 Snapchat 如此,最近的抖音也是如此,甚至,前有 Instagram 的「stories」,后有 Facebook 的「Watch」,连产品或功能名字都变得越来越大众化……从这个角度望过去,互联网或者说移动互联网的未来,显然是一副以动态影像与声音交互铸就的全新业态。过往我们常常将碎片化的微博看作是对文字的「肢解」,但好歹那时的用户还在阅读文字,而接下来就只剩下了「观看」与「说话」,无论是看人还是看机器人,无论是与人对话还是与机器对话,书写文化的衰落已毫无悬念。

至此,我愿意使用柏拉图在《斐德罗篇》的一个故事来展现这种影响,该故事也是尼尔·波兹曼在《技术垄断》的开篇,同时我严重推荐各位朋友去阅读《技术垄断》这本书,它能回答我们很多困惑:

塔姆斯详细询问每样发明的用途,并根据提乌斯的介绍发表自己的见解,评判提乌斯所宣称的功用是否站得住脚。如果把塔姆斯对各个发明的优缺点所作的评价一一罗列出来,那将需要很长的篇幅。……在提到文字的时候,提乌斯说:“国王陛下,这项发明将改进埃及人民的智慧和记忆。我所发现的正是这样一瓶提升记忆和智慧的灵丹妙药。”听了这话,塔姆斯回应道:“提乌斯先生,您真是一位伟大的发明家,但在评价某种技艺对使用者所带来的好处和坏处时,技艺的发明人往往不能做出最好的评价。就像您刚才提到的文字,您是文字之父,自然会喜欢自己发明的文字,却可能因此看不到这项发明实际作用的反面。人们学会读文识字之后,就不会再锻炼自己的记忆力,因此会变得健忘。人们对文字产生依赖之后,需要外在的标识才能唤醒记忆中的信息,而不再运用自身内在的资源。你所发明的灵丹妙药,能改善的只是回忆,而不是记忆。至于智慧,人们即使掌握了文字这项技能,也可能只是虚有其表、名不符实,因为他们虽然获取了大量的信息,却得不到适当的指引。因此最后可能出现的情况是,虽然看似学识渊博,其实对大多数事情都一无所知。这些人满脑子都是虚假的智慧,而非真正的智慧,因而将成为社会的负担。”
  1. 由于统计数字的时间分布上并不相同,因此这份对比并不严谨,仅供参考。  ↩
  2. 关于这点,我曾在第 20 期会员通讯里做过详细分析。  ↩