2019 年 8 月 22 日,Google 在官方博客 The Keyword 上发布了一篇名为 Building a more private web(《构建更私密的网络》)的文章,同时公布了「隐私沙盒」项目的启动。按照 Google 的说法,作为开放标准的隐私沙盒的任务是「创建一个尊重用户、默认隐私的蓬勃发展的网络生态系统」。然而就是这样一个「追寻网络用户共同福祉」的项目,自测试起就风波不断,除去来自广告业者与互联网研究者的质疑1,甚至招来对这一组技术的反垄断审查2。而其技术本身,与用户直接相关的广告追踪技术在一年内就直接换代,测试不到半年的 FLoC 惨遭抛弃,后继者 Topics API 刚刚官宣仍未实装测试。此时,距离 Google 原计划中屏蔽第三方 Cookies 的(延期过后的)时限不到八个月。
Google 的隐私沙盒究竟打算做什么?他们为什么要开发隐私沙盒?本文希望从用户的视角出发,帮你简单了解这个「新标准」的一些要点。建议配合少数派此前发布的相关内容进行阅读。
需要注意的是,本文章包含一部分作者针对隐私沙盒观点性的表述,也欢迎各位围绕这一话题和其他的互联网隐私话题在评论区进行讨论。
为什么会有隐私沙盒?
一切都是从对第三方 Cookie 的声讨开始的。
Cookie 本身没什么问题。它是一段存储在本地的数据,一般用来保存用户的信息,比如你的登录状态。这样一段时间之内你重新上网站,网站服务器读你电脑上存的 Cookie,「喔,这人登录过这个账号的」,啪一下就让你浏览了,省得重复登录带来麻烦。但因为存了个人信息,Cookie 也可以拿来分析你做过什么,比如网站服务器那边就可以知道,「登录了这个账号的这个特定的人,在我的网站上看了 AB 和 C」。
如果是你访问的网站看到这些内容,其实也并无大碍,因为你自己点进去的,人家也是为了提供更好的服务。但如果访问这个网站,你的数据被另一个网站拿走,问题就变成了「我只跟 A 站说我喜欢番茄,结果 B 站也知道了」。如果 B 是个广告平台,问题就会变成「我跟 A 站说我喜欢番茄,CDEFGHI 开始每天催我买打折番茄」。侵犯隐私的边界是模糊的,因为它需要用户本人感知得到,但广告平台这么弄了好多年,论谁都感知得到了,甚至还进一步催生出了「手机窃听」「电脑偷窥」等等阴谋论出来。一件提供便利的事儿,生生被用成了恐怖故事。
用户骂浏览器,浏览器也烦,「管不了了,那给关了得了。」
在 2018 年 10 月,Mozilla 宣布 Enhanced Tracking Protection (ETP) 将在 Firefox 中实装。ETP 会自动屏蔽网页中的第三方 Cookie 追踪器,在严格模式下,ETP 会进一步屏蔽所有第三方 Cookie,这一功能在实装一年后,也就是 2019 年 9 月转为默认开启。另一边,Apple 早在 2017 年就确定了自己的隐私策略,在 WebKit 下推出了 Intelligent Tracking Prevention (ITP),并在未来的几年中不断升级,于 2020 年完全禁用了第三方 Cookie。
很难说 Google 开发隐私沙盒的决定和这两者的隐私策略无关。尽管 Chrome 的市场占有率仍然是毋庸置疑的第一,Safari 加上 Firefox 带来的压迫感还是不容小觑。毕竟 Google 在《构建更私密的网络》一文中开头就说了:「在我们从事的一切事务中,隐私永远是重中之重。」当竞争对手纷纷选择更加严格的隐私限制时,Chrome 必然需要带来一些改变。
数据来源:Browser Market Share Worldwide | Statcounter Global Stats
问题在于,Google 不仅是浏览器的开发者,还拥有互联网世界中最大的广告平台。在 2021 年,广告相关业务为 Alphabet 带来的收益高达 2094.9 亿美元3,而 Google Ad 及相关产品选用的跟踪方法就是 Cookie,业务网页中也有大量与 Cookie 具体使用相关的介绍4。
Google 自然不可能像 Apple 和 Mozilla 一样,把第三方 Cookie 说砍就砍,要不然对不起自己这每年占了 80% 比重的营收来源。但 Safari、Firefox 和诸如 Brave 等其他浏览器已经将「注重隐私」当成了宣传板,概念深入用户内心,Chrome 不作回应并不合适;但如果要回应,它就需要同时拿出一套方案,让用户开心的同时安抚住广告商和出版商,至少把对赚钱的影响程度降到最小。
不过,无论 Google 的出发点是照顾利益还是注重隐私,对用户来说其实都无所谓,重要的是隐私沙盒到底能带来什么样的变化。
隐私沙盒里装了啥?
在之前讨论 隐私模式 和 FLoC 的文章中,我们可以了解到,目前基于 Cookie 的广告追踪,主要是通过广告平台基于此前用户行为的搜集,得到一个比较精准的用户画像,然后推送合适的广告。
我们假设大部分广告商都只使用了第三方 Cookie 进行数据收集,当你访问网站时,你的行为通过 Cookie 标识后传递给广告平台。在这个过程中,用户知道自己的信息被收集,因为他们能在自己没访问过的网站上看到符合自己喜好的广告。比较愿意钻研的用户会看得到自己的信息不止传递给了访问的网站(第一方),还传递给了广告平台(第三方),但是不知道它们具体收集了什么、标记了什么。这种不透明就是对用户隐私的挑战。
如果只屏蔽第三方 Cookie 而不提供新的接口,广告从业者为了维持自己的效益,必然选择其他更难被发现、识别和阻碍的信息搜集途径,这样一来对用户隐私与信息安全的损伤反而更加严重。Google 提出的解决方案就是「隐私沙盒」,不使用第三方 Cookie 以及其他追踪技术,就能满足必要的跨站需求。
隐私沙盒要做的,是让浏览器接管一部分此前需要服务器来做的工作,把可能涉及用户隐私的内容迁移到浏览器本地进行存储和处理,从而达到网站只能通过隐私沙盒中包含的 API 获取必需的信息,但无法逆向定位到某个确定的用户身上的效果。
为了让隐私沙盒成为开放互联网的新标准,Google 公开接受互联网社区的修订提案 30 多份,并在目前形成了 9 个主要提案。总结起来,它们分别针对了「隐私防护」和「维护广告收益」两大方面。
隐私保护与防追踪
隐私沙盒提议引入「隐私预算」的概念。
简单说来,目前的指纹跟踪主要是通过 JavaScript API 等手段获取用户信息。而隐私预算就是在浏览器内设置档位,不同的信息有不同的暴露限度。在相关的设备信息被访问时,隐私沙盒会控制可以呈递的信息总量,在达到上限后便停止上报,达到不影响网页正常加载并限制信息暴露的效果。
除了对接口的控制,隐私沙盒中的 Gnatcatcher 提案还限制了服务器对 IP 地址的获取。它通过两种途径运作。其一,它规定了网站可以向浏览器声明不会将 IP 地址与用户进行关联,从网站方放弃对用户的追踪。其二,近路 NAT(near-path NAT)方案可以让一组用户全部通过一个私有化服务器发送流量,从服务器端避免站点主机获取到个体用户的 IP。
对于需要跨站点登录的需求,隐私沙盒引入了「第一方集」(First Party Set),允许同一实体下的不同网站声明自己为同一来源,而非按照域名严格划分。除此之外,隐私沙盒还引入了信任代币 API(Trust Token API),通过本地化的处理为网站排除机器人与恶意用户,替代此前第三方 Cookie 与指纹识别等技术的安全用途。
广告本地化处理
至于广告方面,隐私沙盒期望通过将广告追踪、竞价等环节统一搬到浏览器中进行。在现有的常规流程中,广告需要在广告平台完成竞价,与相关的用户完成匹配,并且追踪广告投放的效果。针对这些流程,隐私沙盒主要提出了三个新的 API。
首先,为了让广告商完成对广告投放效果的测量,隐私沙盒引入了归因报告 API(Attribution Report API),这一方案和 Safari 目前采用的方案非常类似。在禁用第三方 Cookie 之后,Safari 为广告方提供了一个接口,在用户完成广告点击的转化后,在 24 到 48 小时后的某一个随机时间点,Safari 会向服务器返回一次数据,包含的信息将用户的可识别数据抹除,用自然语言表述,服务器会得到「有人在过去 24 到 48 小时内在该网页点击了 a 转化为 b」,这之前所有数据由浏览器在本地处理。
但 Chrome 的方案受到了部分研究者的批评,因为 Safari 为广告安排的识别代码位数有限,大小仅有 6 bit,仅够作为广告识别码。Chrome 的第一次方案则安排了 64 bit,被批评足够包含太多信息量,可能被用于追踪。于是该接口方案仍在不断修改。
在广告分发这边,Google 引入了 Topics API 和 FLEDGE 两个 API。非常有趣的是,这两者都被多次提出异议,技术已经经历了几代更迭,仍然无法最终确定上线方案。
目前的方案中,Topics API 已经有过文章介绍。它主要用于在浏览器本地通过分析用户过往的浏览记录,生成几个可以提供给网站调用的话题,以匹配相关性高的广告。
而 FLEDGE 则替代了以往的服务器端竞价,它将确定好的话题和广告商提供的广告与价格在浏览器本地进行比对,从而避免将用户资料呈递给第三方。
隐私沙盒真的能带来改变吗?
单就广告追踪这件事来说,屏蔽第三方 Cookies 其实用处并不大,它更大的意义是避免第三方 Cookie 被恶意滥用,导致用户的个人资料被一些身份与目的不明的第三方拿走。第三方 Cookie 在跨站登录、个性化广告等等方面是能实实在在带来便利的——如果它们真的只拿走了必要的信息,并且妥善保管。
而对广告从业者来说,大家也都不傻,一条路堵死,自然要走上另一条路;比如采用第一方 Cookie 分析用户5,或是启用设备指纹识别等等更精准的追踪技术。指纹识别这样的追踪技术在开发之初也是类似的目的,因为 Cookie 太容易被绕过,无法识别正在访问的用户究竟是真人、机器人还是恶意用户,于是依靠机器特征识别对方是谁。只是这样的技术反过来又被恶意用途吸纳,或是被广告商用来无限制地滥采数据6。
还是以 Safari 为例,ITP 技术从对第三方 Cookie 进行限制,到完全禁用第三方 Cookie,花了至少三年。这期间的工作,主要就是对 ITP 进行修缮,堵上规则中的漏洞7,同时对指纹识别等其他跟踪技术进行阻拦;为了方便必要的数据共享,它们还提供了一些新的 API——其中有一些又变成了跟踪技术的新突破口,以至于它们要进一步修补这些新家伙什儿。大家都在进化,只靠浏览器开发商去堵肯定不行,一定要有同时提出新的解决方案。Safari 这么做了,但它们只有 20% 市场份额,离成为行业标准远得很。
而 Google 站出来开发新标准,更大的意义就是在广告从业者没有被迫采用更差的点子之前,找到一个可以标准化的方法,平衡用户对个人隐私日益提高的需求、以及广告投放者对成本控制和投放效果的需求。作为绝对的主流浏览器,Chrome 有一种「被迫」的责任在身。它不光需要迎合变化、迎合新需求,还必须拿出一个让大家都能满意的方案,并且越快越好。
隐私沙盒最好的结果,就是 Google 真的拿出了一套可以通用的网络标准,并且从理念和技术上都让人挑不出毛病。FLoC 被其他浏览器拒绝,就是因为这一方案照样有机会逆向追踪到个人,于是它们只能拿出看起来更模糊更难追踪的 Topics API。如果隐私沙盒最终真的达到了各方面提出的要求,这场隐私战争就可以在大范围内告一段落。广告产业的参与者只用在 Topics 上修修补补做调整来优化策略;我们可以控制自己想让广告平台看到什么,选择性出让信息来换取一定量的便利。大家相安无事,快乐上网,快乐赚钱。
直到有新的追踪技术再次被滥用,我们再打一场这样的仗。
> 下载 少数派 2.0 客户端、关注少数派公众号,发现更多实用小技巧 💸
> 实用、好用的 正版软件,少数派为你呈现 🚀