太长不看版

使用类似“互联网档案馆”的网页缓存服务,可以通过查看网页的历史快照,找回失效的网页信息。部分搜索引擎的“网页快照”功能,也可以作为备选方案。

网页内容失效问题

作为数字内容的消费者,日常“上网冲浪”的过程中,偶尔会遇到读过的内容失效的问题。

  • 一个常见的原因可能是内容提供者/平台方由于一些原因主动删除或屏蔽,这种情况在中文互联网环境非常常见,相信大家都曾经遇到过。
  • 还有一种情况是,随着时间的推移,内容提供者/平台的技术故障,导致部分内容失效。比如少数派部分老文章引用的外部图床失效,导致图片无法加载。
https://tva1.sinaimg.cn/large/0081Kckwgy1gll946614lj311v0lbe3p.jpg
少数派的老读者可能见过这张图片

网页内容失效的解决方案

及时保存重要信息

通过及时做信息的保存(如通过 Notion、Evernote 插件主动剪藏需要的信息),或者更简单一点的截图保存,可以在一定程度上避免这些问题。

但是如果在发现的时候,信息已经失效了,可以尝试通过一些缓存服务尝试找回信息。

缓存服务的推荐方案:Internet Archive

Internet Archive(互联网档案馆)Wayback Machine(时光机)

使用办法非常简单,我们以少数派的《用 Notion 实践卡片盒笔记法》这篇文章为例。可以看到这篇文章由于使用了已失效的外部图床,文章内图片是无法正常加载的。

无法显示图片的文章

 

只需要在 Wayback Machine(时光机)网页的搜索框中贴入 URL 并执行搜索,然后在日历控件中手动选择一个历史版本的缓存。

选择快照

接下来就是见证奇迹的时刻,网页缓存中的图片可以成功加载。

网页缓存中的图片

作为备选的补充方案——搜索引擎的网页快照

我曾经十分依赖 Google 的网页快照功能,但是非常遗憾,从2024年开始,Google不再对外提供网页快照功能(信息来源)。如果遇到自己想要找回的网页没有被 Internet Archive 收录的情况,可以尝试用其他搜索引擎的快照服务碰碰运气。

附:针对图床失效问题给少数派的一点小建议

少数派作为一个运营多年的内容网站,沉淀了很多优秀的历史文章。这些历史文章承载的信息帮助了无数读者,也是属于少数派社群的数字资产。由于一些历史原因,这些文章中的一些使用了外部图床。随着时间的推移,这些外部图床失效的风险会持续累积。建议站方可以考虑做一些批量缓存和替换的策略,批量解决图床失效的问题。大致的策略如下:

  • 周期性遍历少数派历史文章中非少数派域名的图片 URL,识别失效图片;
  • 对于失效的图片,调用 archive.org 获取历史图片缓存;
  • 用少数派的服务器缓存历史图片,然后替换原文中失效的图片 URL 为少数派地址的 URL。