首页文章不够看？我这样“改造”少数派

利益相关声明：作者与文中产品有直接的利益相关（开发者、自家产品等）

楔子

可以这样说，少数派是我日常访问最多的科技类网站。编辑审阅和推荐制度确保了首页及社区广场内容的质量。然而，作为高强度冲浪选手，我常常觉得每天 2-3 篇文章不够看。偶然间，我在会员社区中看到编辑发布的一个交流帖，了解到通过修改少数派文章的末尾 ID 可以查看所有文章。这激发了我自己动手筛选想看文章作为补充的想法。

话不多说，开干！

第一次尝试时，我使用了 Manus 让其根据 ID 帮忙整理简报。它顺利完成了任务，并提供了代码和产出内容，证明这条路是可行的。但考虑到 Manus 每日有限的积分，可能不足以支持我经常获取所需的文章内容，于是趁着最近有空，决定自己来实现这套流程。

会员社区讨论帖：https://sspai.com/t/3h0l48zy5byz，大家可自行观看这个粗糙的版本

Manus 链接如下：https://manus.im/share/p7te05XDWscgKNvE9FoMgi?replay=1

说干就干，经过与 Claude 4 的激烈讨论和少许调试，我实现了一个简易的基于 Python 的爬虫和分析程序 SSpai Scraper。

下面为简要介绍

项目目标：根据文章 ID 号，遍历访问网页，将文章内容输入大模型进行摘要总结。然后将总结内容、标题、作者和 ID 号保存在本地，供我阅览，并根据摘要信息筛选感兴趣的内容。

执行逻辑：

核心功能：

智能抓取：精确提取文章标题、作者、内容和发布时间
AI摘要：使用OpenAI GPT-4o-mini生成高质量中文摘要
批量处理：支持单篇、批量和大规模范围爬取
多种输出：JSON、JSONL、Markdown等格式
实时保存：边爬取边保存，支持断点续传

技术亮点：

流式处理：JSONL格式增量存储，避免程序运行中断导致内容缺失
错误恢复：支持异常处理机制
速率控制：可配置的请求间隔，友好对待目标服务器
进度追踪：实时显示处理进度和成功率

相关代码已在 GitHub 上开源，OpenAI API 需自行准备，详细使用说明可参考 README 文件。

开源地址：https://github.com/xiaozhamao/sspai_scraper

更多的程序实现细节，请大家移步 GitHub，欢迎提宝贵建议。

强烈提醒：为避免对少数派服务器造成负担，请合理安排爬取频率。也是考虑这个原因，我不打算将其制作成一个上手就能使用的工具，而是保留一定的技术门槛。

为避免资源浪费，我也会将已分析获得的摘要信息开源到项目页面，下载 JSONL 文件即可自行查看，筛选自己感兴趣的文章内容。

使用方法简明版：

# 1. 克隆项目
git clone https://github.com/xiaozhamao/sspai_scraper.git
cd sspai_scraper

# 2. 安装依赖
pip install -r requirements.txt

# 3. 配置API密钥
export OPENAI_API_KEY="your-openai-api-key"

# 4.交互式使用 
python main.py

看着文档中沉甸甸的内容，好了又可以大饱眼福了，干货还是不少的嘛！

分析

在开发完成后，我收集了 ID 90001 - 95000 这 5000 篇文章的摘要信息，得到了以下感受：

发现优质内容：确实找到了没被编辑推荐但符合我个人口味的文章，虽然写作水平参差不齐，但整体上优于其他平台的大部分文章。我也关注了一些喜欢的博主，以后可以及时看到他们的更新。

大量空白文章：在这 5000 篇文章中竟然有 2436 篇是空的。不过，想到我自己草稿箱里的内容，也不算意外。

改进分析速度：目前用字符串匹配或肉眼查看的方式较慢，后续可以利用大模型来创建一个 Agent，根据我的兴趣关键词自动整理文章列表，比如“汽车”、“摄影”、“旅行”、“效率工具”等。

思考

这么做是否会侵害少数派的利益？

我尝试这样说服自己，大家写文章就是为了让别人看到，我构建这个程序也只是供自己或者少数派的受众们使用，以便更好地阅读作者们的劳动成果。编辑的筛选有自己的阅读品味和曝光考量，这个程序作为一种补充，只要控制好爬取频次，应该是没有问题的。

此外，今年少数派的主题是“共创”，有些“恬不知耻”地说，这是否也是一种形式的共创呢？

AI 的进步确实显著提升了生活体验。

这个想法已经诞生一段时间了，但从梳理实现方法到程序实现，再到 bug 修复及重构成适合开源的版本，仅仅花了不到半天。我不得不承认，以 Claude 为代表的大模型已经可以实现比我水平更高的代码，让基础开发者感到压力的同时，也释放了更多时间用于打磨想法。就我所在的科研机构而言，大家的工作已经完全离不开大模型。无论是阅读论文、撰写材料、实现代码，还是最后的润色，大模型都发挥着越来越重要的作用。的确，对于用人单位来和个人发展说，会使用 AI 将变得越来越重要。

不过，我真挺担心传统白领会不会真的很快被 AI 取代呢？

AI 蓬勃发展，是否会加速信息过载？

从研究生开始，我在 AI 行业已经从业 5 年。AI 从蹒跚学步迅速成长为助力时代发展的巨人。在这一轮生成式人工智能爆发的窗口，我感受到了技术门槛降低带来的时代红利，现在人人都可以成为程序员、画师、动画制作者。未来，AIGC 会成为互联网上的主流信息来源。虽然目前 AI 合成的虚假信息和低质量内容仍然存在，但随着创作者水平的提升和法律法规的完善，在 AI 的辅助下，人人都能看到为自己量身定制的高度浓缩精炼的信息流，又何乐而不为呢？

对少数派的看法

自从少数派会员群从飞书社区迁移到网站后，反对或差评的声音似乎多了不少。尽管我也认为网站内容和会员机制有很多需要提升之处，但我理解这大多是由于人手不足和生存需要的妥协。只要创始人和团队成员能够保持初心，在维持团队正常发展的同时，不断创造优质内容，维护会员这个优质社群，我依然看好少数派的未来。但是之前画的“饼”，也的确需要与会员及时沟通，聊聊进展。

题外

对于下一季会员，我也会继续支持。不是因为会员内容本身，而是因为这个平台让我接触到众多优秀的作者。

And，悄悄说，在少数派的稿费和参加各种活动“白嫖”的礼品，已经相当于我好几年的会费了，想必很多深度用户也有这种感受。

简单几句，祝少数派越来越好，愿大家在这个平台上开心阅读，收获满满！