利益相关声明:作者与文中产品有直接的利益相关(开发者、自家产品等)

楔子

可以这样说,少数派是我日常访问最多的科技类网站。编辑审阅和推荐制度确保了首页及社区广场内容的质量。然而,作为高强度冲浪选手,我常常觉得每天 2-3 篇文章不够看。偶然间,我在会员社区中看到编辑发布的一个交流帖,了解到通过修改少数派文章的末尾 ID 可以查看所有文章。这激发了我自己动手筛选想看文章作为补充的想法。

原贴:https://sspai.com/t/2b3iy5w34owg

话不多说,开干!

第一次尝试时,我使用了 Manus 让其根据 ID 帮忙整理简报。它顺利完成了任务,并提供了代码和产出内容,证明这条路是可行的。但考虑到 Manus 每日有限的积分,可能不足以支持我经常获取所需的文章内容,于是趁着最近有空,决定自己来实现这套流程。

会员社区讨论帖:https://sspai.com/t/3h0l48zy5byz,大家可自行观看这个粗糙的版本

Manus 链接如下:https://manus.im/share/p7te05XDWscgKNvE9FoMgi?replay=1

说干就干,经过与 Claude 4 的激烈讨论和少许调试,我实现了一个简易的基于 Python 的爬虫和分析程序 SSpai Scraper。

控制台版本

下面为简要介绍

项目目标:根据文章 ID 号,遍历访问网页,将文章内容输入大模型进行摘要总结。然后将总结内容、标题、作者和 ID 号保存在本地,供我阅览,并根据摘要信息筛选感兴趣的内容。

执行逻辑

程序执行流程图

 

核心功能

  • 智能抓取:精确提取文章标题、作者、内容和发布时间
  • AI摘要:使用OpenAI GPT-4o-mini生成高质量中文摘要
  • 批量处理:支持单篇、批量和大规模范围爬取
  • 多种输出:JSON、JSONL、Markdown等格式
  • 实时保存:边爬取边保存,支持断点续传

技术亮点:

  • 流式处理:JSONL格式增量存储,避免程序运行中断导致内容缺失
  • 错误恢复:支持异常处理机制
  • 速率控制:可配置的请求间隔,友好对待目标服务器
  • 进度追踪:实时显示处理进度和成功率

相关代码已在 GitHub 上开源,OpenAI API 需自行准备,详细使用说明可参考 README 文件。

开源地址:https://github.com/xiaozhamao/sspai_scraper

更多的程序实现细节,请大家移步 GitHub,欢迎提宝贵建议。

强烈提醒:为避免对少数派服务器造成负担,请合理安排爬取频率。也是考虑这个原因,我不打算将其制作成一个上手就能使用的工具,而是保留一定的技术门槛。

为避免资源浪费,我也会将已分析获得的摘要信息开源到项目页面,下载 JSONL 文件即可自行查看,筛选自己感兴趣的文章内容。

使用方法简明版:

# 1. 克隆项目
git clone https://github.com/xiaozhamao/sspai_scraper.git
cd sspai_scraper

# 2. 安装依赖
pip install -r requirements.txt

# 3. 配置API密钥
export OPENAI_API_KEY="your-openai-api-key"

# 4.交互式使用 
python main.py

 

爬取过程
分析结果

看着文档中沉甸甸的内容,好了又可以大饱眼福了,干货还是不少的嘛!

分析

在开发完成后,我收集了 ID 90001 - 95000 这 5000 篇文章的摘要信息,得到了以下感受:

发现优质内容:确实找到了没被编辑推荐但符合我个人口味的文章,虽然写作水平参差不齐,但整体上优于其他平台的大部分文章。我也关注了一些喜欢的博主,以后可以及时看到他们的更新。

大量空白文章:在这 5000 篇文章中竟然有 2436 篇是空的。不过,想到我自己草稿箱里的内容,也不算意外。

改进分析速度:目前用字符串匹配或肉眼查看的方式较慢,后续可以利用大模型来创建一个 Agent,根据我的兴趣关键词自动整理文章列表,比如“汽车”、“摄影”、“旅行”、“效率工具”等。

思考

这么做是否会侵害少数派的利益?

我尝试这样说服自己,大家写文章就是为了让别人看到,我构建这个程序也只是供自己或者少数派的受众们使用,以便更好地阅读作者们的劳动成果。编辑的筛选有自己的阅读品味和曝光考量,这个程序作为一种补充,只要控制好爬取频次,应该是没有问题的。

此外,今年少数派的主题是“共创”,有些“恬不知耻”地说,这是否也是一种形式的共创呢?

AI 的进步确实显著提升了生活体验。

这个想法已经诞生一段时间了,但从梳理实现方法到程序实现,再到 bug 修复及重构成适合开源的版本,仅仅花了不到半天。我不得不承认,以 Claude 为代表的大模型已经可以实现比我水平更高的代码,让基础开发者感到压力的同时,也释放了更多时间用于打磨想法。就我所在的科研机构而言,大家的工作已经完全离不开大模型。无论是阅读论文、撰写材料、实现代码,还是最后的润色,大模型都发挥着越来越重要的作用。的确,对于用人单位来和个人发展说,会使用 AI 将变得越来越重要。

不过,我真挺担心传统白领会不会真的很快被 AI 取代呢?

AI 蓬勃发展,是否会加速信息过载?

从研究生开始,我在 AI 行业已经从业 5 年。AI 从蹒跚学步迅速成长为助力时代发展的巨人。在这一轮生成式人工智能爆发的窗口,我感受到了技术门槛降低带来的时代红利,现在人人都可以成为程序员、画师、动画制作者。未来,AIGC 会成为互联网上的主流信息来源。虽然目前 AI 合成的虚假信息和低质量内容仍然存在,但随着创作者水平的提升和法律法规的完善,在 AI 的辅助下,人人都能看到为自己量身定制的高度浓缩精炼的信息流,又何乐而不为呢?

对少数派的看法

自从少数派会员群从飞书社区迁移到网站后,反对或差评的声音似乎多了不少。尽管我也认为网站内容和会员机制有很多需要提升之处,但我理解这大多是由于人手不足和生存需要的妥协。只要创始人和团队成员能够保持初心,在维持团队正常发展的同时,不断创造优质内容,维护会员这个优质社群,我依然看好少数派的未来。但是之前画的“饼”,也的确需要与会员及时沟通,聊聊进展。

题外

对于下一季会员,我也会继续支持。不是因为会员内容本身,而是因为这个平台让我接触到众多优秀的作者。

And,悄悄说,在少数派的稿费和参加各种活动“白嫖”的礼品,已经相当于我好几年的会费了,想必很多深度用户也有这种感受。

简单几句,祝少数派越来越好,愿大家在这个平台上开心阅读,收获满满!

 

 

6
2