楔子
可以这样说,少数派是我日常访问最多的科技类网站。编辑审阅和推荐制度确保了首页及社区广场内容的质量。然而,作为高强度冲浪选手,我常常觉得每天 2-3 篇文章不够看。偶然间,我在会员社区中看到编辑发布的一个交流帖,了解到通过修改少数派文章的末尾 ID 可以查看所有文章。这激发了我自己动手筛选想看文章作为补充的想法。

话不多说,开干!
第一次尝试时,我使用了 Manus 让其根据 ID 帮忙整理简报。它顺利完成了任务,并提供了代码和产出内容,证明这条路是可行的。但考虑到 Manus 每日有限的积分,可能不足以支持我经常获取所需的文章内容,于是趁着最近有空,决定自己来实现这套流程。
会员社区讨论帖:https://sspai.com/t/3h0l48zy5byz,大家可自行观看这个粗糙的版本

说干就干,经过与 Claude 4 的激烈讨论和少许调试,我实现了一个简易的基于 Python 的爬虫和分析程序 SSpai Scraper。

下面为简要介绍
项目目标:根据文章 ID 号,遍历访问网页,将文章内容输入大模型进行摘要总结。然后将总结内容、标题、作者和 ID 号保存在本地,供我阅览,并根据摘要信息筛选感兴趣的内容。
执行逻辑:

核心功能:
- 智能抓取:精确提取文章标题、作者、内容和发布时间
- AI摘要:使用OpenAI GPT-4o-mini生成高质量中文摘要
- 批量处理:支持单篇、批量和大规模范围爬取
- 多种输出:JSON、JSONL、Markdown等格式
- 实时保存:边爬取边保存,支持断点续传
技术亮点:
- 流式处理:JSONL格式增量存储,避免程序运行中断导致内容缺失
- 错误恢复:支持异常处理机制
- 速率控制:可配置的请求间隔,友好对待目标服务器
- 进度追踪:实时显示处理进度和成功率
相关代码已在 GitHub 上开源,OpenAI API 需自行准备,详细使用说明可参考 README 文件。
开源地址:https://github.com/xiaozhamao/sspai_scraper
更多的程序实现细节,请大家移步 GitHub,欢迎提宝贵建议。
强烈提醒:为避免对少数派服务器造成负担,请合理安排爬取频率。也是考虑这个原因,我不打算将其制作成一个上手就能使用的工具,而是保留一定的技术门槛。
为避免资源浪费,我也会将已分析获得的摘要信息开源到项目页面,下载 JSONL 文件即可自行查看,筛选自己感兴趣的文章内容。
使用方法简明版:
# 1. 克隆项目
git clone https://github.com/xiaozhamao/sspai_scraper.git
cd sspai_scraper
# 2. 安装依赖
pip install -r requirements.txt
# 3. 配置API密钥
export OPENAI_API_KEY="your-openai-api-key"
# 4.交互式使用
python main.py


看着文档中沉甸甸的内容,好了又可以大饱眼福了,干货还是不少的嘛!
分析
在开发完成后,我收集了 ID 90001 - 95000 这 5000 篇文章的摘要信息,得到了以下感受:
发现优质内容:确实找到了没被编辑推荐但符合我个人口味的文章,虽然写作水平参差不齐,但整体上优于其他平台的大部分文章。我也关注了一些喜欢的博主,以后可以及时看到他们的更新。
大量空白文章:在这 5000 篇文章中竟然有 2436 篇是空的。不过,想到我自己草稿箱里的内容,也不算意外。
改进分析速度:目前用字符串匹配或肉眼查看的方式较慢,后续可以利用大模型来创建一个 Agent,根据我的兴趣关键词自动整理文章列表,比如“汽车”、“摄影”、“旅行”、“效率工具”等。
思考
这么做是否会侵害少数派的利益?
我尝试这样说服自己,大家写文章就是为了让别人看到,我构建这个程序也只是供自己或者少数派的受众们使用,以便更好地阅读作者们的劳动成果。编辑的筛选有自己的阅读品味和曝光考量,这个程序作为一种补充,只要控制好爬取频次,应该是没有问题的。
此外,今年少数派的主题是“共创”,有些“恬不知耻”地说,这是否也是一种形式的共创呢?
AI 的进步确实显著提升了生活体验。
这个想法已经诞生一段时间了,但从梳理实现方法到程序实现,再到 bug 修复及重构成适合开源的版本,仅仅花了不到半天。我不得不承认,以 Claude 为代表的大模型已经可以实现比我水平更高的代码,让基础开发者感到压力的同时,也释放了更多时间用于打磨想法。就我所在的科研机构而言,大家的工作已经完全离不开大模型。无论是阅读论文、撰写材料、实现代码,还是最后的润色,大模型都发挥着越来越重要的作用。的确,对于用人单位来和个人发展说,会使用 AI 将变得越来越重要。
不过,我真挺担心传统白领会不会真的很快被 AI 取代呢?
AI 蓬勃发展,是否会加速信息过载?
从研究生开始,我在 AI 行业已经从业 5 年。AI 从蹒跚学步迅速成长为助力时代发展的巨人。在这一轮生成式人工智能爆发的窗口,我感受到了技术门槛降低带来的时代红利,现在人人都可以成为程序员、画师、动画制作者。未来,AIGC 会成为互联网上的主流信息来源。虽然目前 AI 合成的虚假信息和低质量内容仍然存在,但随着创作者水平的提升和法律法规的完善,在 AI 的辅助下,人人都能看到为自己量身定制的高度浓缩精炼的信息流,又何乐而不为呢?
对少数派的看法
自从少数派会员群从飞书社区迁移到网站后,反对或差评的声音似乎多了不少。尽管我也认为网站内容和会员机制有很多需要提升之处,但我理解这大多是由于人手不足和生存需要的妥协。只要创始人和团队成员能够保持初心,在维持团队正常发展的同时,不断创造优质内容,维护会员这个优质社群,我依然看好少数派的未来。但是之前画的“饼”,也的确需要与会员及时沟通,聊聊进展。
题外
对于下一季会员,我也会继续支持。不是因为会员内容本身,而是因为这个平台让我接触到众多优秀的作者。
And,悄悄说,在少数派的稿费和参加各种活动“白嫖”的礼品,已经相当于我好几年的会费了,想必很多深度用户也有这种感受。
简单几句,祝少数派越来越好,愿大家在这个平台上开心阅读,收获满满!
