AI+｜实现个人公众号数据的持久化存储

影视飓风关于后台数据分析的视频再一次加强了我对于数据重要性的认知，特别是 Tim 在视频中建议的：手动记录内容相关的数据，而不是依赖平台。

分析数据是互联网时代每一个内容创作者的必修课，虽然我的个人微信公众号6月份才开始启动，但是从现在开始把数据存储和数据分析的工作流建立起来，对于后续的内容运营将会大有裨益。

个人公众号数据结构

既然要存储数据，首先要看我们能拿到什么样的数据。

微信公众号其实对于企业客户开放了 API 接口来获取数据，然而个人公众号只能在微信公众号后台的数据分析菜单手动导出 Excel 格式的数据文件。

微信公众号实际上已经为我们建立了数据分析的框架，可以从以下四个路径导出数据，每个路径导出的数据格式和针对的数据分析维度都有不同：

公众号每日流量数据

从「数据分析 - 内容分析 - 已发表内容 - 全部 - 流量分析 - 数据趋势」可以导出公众号账号整体的流量数据。具体如下：

渠道：包含 “搜一搜”、“公众号主页”、“公众号消息”、“聊天会话”、“推荐”、“其他” 等渠道。
指标：涵盖 “阅读次数”、“阅读人数”、“分享次数”、“阅读原文次数”、“阅读原文人数”、“收藏次数”、“群发篇数” 等指标数据。
时间维度：可以按天或者按小时导出，最长可导出三个月的数据。

文章每日流量数据

从「数据分析 - 内容分析 - 已发表内容 - 全部 - 流量分析 - 流量来源」可以导出公众号每篇文章的流量数据。具体如下：

渠道：包含 “搜一搜”、“公众号主页”、“公众号消息”、“聊天会话”、“推荐”、“其他” 等渠道。
指标：主要是“阅读次数”和“阅读次数占比”两个指标。
时间维度：只能按天导出，最长可导出三个月的数据。

文章发表后7天内数据

从「数据分析 - 内容分析 - 已发表内容 - 已通知内容」可以导出公众号每篇文章发表后7天内的数据。具体如下：

指标：涵盖“总阅读人数”、“总阅读次数”、“总分享人数”、“总分享次数”、“阅读后关注人数”、“送达人数”、“公众号消息阅读次数”、“送达阅读率”、“首次分享次数”、“分享产生阅读次数”、“首次分享率”、“每次分享带来阅读次数”、“阅读完成率”、“内容 url”
时间维度：这里导出的时间维度是固定不变的，只统计文章发表后7天的数据，因此需要等待文章发表7天后再导出。

文章发表后30天内数据

从「数据分析 - 内容分析 - 已发表内容 - 全部 - 流量分析 - 流量来源」或是「数据分析 - 内容分析 - 已发表内容 - 已通知内容 - 详情」可以导出公众号每篇文章发表后30天内的数据。

这里导出的数据分为7个模块，分别是“数据概况”、“阅读转化”、“推荐转化”、“数据趋势明细”、“性别分布”、“年龄分布”、“地域分布”，每个模块有不同的指标，此处不再一一列出。

同样，这里最多统计一篇文章发表后30天内的数据，如果想要完整的数据，应当等到文章发表后第31天导出，再往后导出的数据都是相同的。

用户分析

公众号后台还提供了用户分析相关的数据导出，但是因为我的新号数据量过少，部分功能甚至不展示数据，等后续关注的人多了（相信会有更多人关注我的😊），再统计不迟。

持久化数据存储

上文已经分析了「公众号每日流量数据」「文章每日流量数据」「文章发布后7天内的数据」和「文章发布后30天的数据」这四种不同路径导出的 Excel 文件，分别包含了哪些维度和指标，接下来则需要建立工作流帮助我们高效地完成数据导出和存储，同时也能形成日常习惯，防止三分钟热度。

导出数据的工作流

从上面的分析可以看出：

「公众号每日流量数据」和「文章每日流量数据」，这两部分是按日维度统计的数据，因此可以选择固定周期导出。
比如我是选择每周日导出上周日到本周六的「公众号每日流量数据」和「文章每日流量数据」，选择周日导出单纯是因为有时间在导出后继续分析，后续根据具体的运营状况，再考虑要不要调整周期。
「文章发布后7天内的数据」和「文章发布后30天的数据」，这两部分则是固定周期的数据，因此应当在每篇文章发布后的第8天导出「7天内数据」，第31天导出「30天内数据」。

要注意的一点是，每篇文章的发布时间是不一样的，所以「文章发布后7天内的数据」和「文章发布后30天的数据」导出的日期也是不一样的，很容易忘记。如果想要在文章发布后7天和30天这两个关键节点，及时导出数据，分析数据，可以让 AI 帮我们自动创建提醒事项。

这里我借助了 Cursor 和滴答清单的 MCP 功能：

 "ticktick": {
      "command": "npx",
      "args": ["-y", "@ticktick/mcp-server"],
      "env": {
        "API_TOKEN": "替换为你的 API_KEY",
        "API_DOMAIN": "api.dida365.com"
      }
    }

创建待办事项的时间点可以是在将文章发布到公众号平台的时候，参考下面的 prompt：

文章发布完成之后的 prompt

我已经完成了 @善用 Logseq 复盘每周 DailyLog 笔记.md 文章的发布，请你执行以下步骤：
将文档从 mp_draft 移动 mp_final 文件夹中
为文档添加 publishTime 属性，发布日期为2025-06-10
根据文档的 publishTime 帮我创建两个滴答清单的待办事项：
时间：publishTime + 8 ，事项名称：下载「文件名」的7天数据
时间：publishTime + 31 ，事项名称：下载「文件名」的30天数据

当文章发布后，在 Cursor 中输入上述的 prompt，可以看到 AI 完美地完成了全部指令：

因为我是在创建这个工作流之前发布的文章，所以需要在 prompt 中指定发布日期。也可以让 AI 自动获取当天的日期，节省一步修改 prompt 的步骤。但是要注意 AI 对于今夕是何夕经常会出现幻觉，因此要添加 Time MCP 工具，方便 AI 获取当前的时间。

"time": {
      "command": "uvx",
      "args": [
        "mcp-server-time",
        "--local-timezone=Asia/Shanghai"
      ]
    }

总结一下我导出数据的工作流：

设置每周日的循环待办事项，导出上周日到本周六的「公众号每日流量数据」和「文章每日流量数据」；
在发布文章时，让 AI 帮助创建待办事项，在文章发布后的第8天和第31天分别导出「文章发布后7天内的数据」和「文章发布后30天的数据」。

数据存储的工作流

最简单直接的存储方式自然是建立一个汇总的 Excel 文件，将新导出的 Excel 数据添加到这个汇总表中。不过这种方式一是要手动操作，略显繁琐，二是无法借助 AI 完成后续的数据分析工作（因为 AI 无法直接读取 Excel 中的数据）。

我的想法是将导出的数据保存在 SQLite 数据库中，至于如何实现，可以让 AI 帮我想想办法。

创建数据库结构

要建立数据库，首先要根据导出的 Excel 数据，建立存储数据的表结构。我使用了 Microsoft 官方提供的 markitdown 工具，先将 Excel 转换成 markdown 文档。再通过下面的 prompt，让 AI 理解数据结构，并帮我创建数据库的表结构：

生成数据库结构的 prompt

请你先根据 @公众号文章7日内数据.md @公众号文章30日内数据明细（借助 AI 一键生成高质量可视化内容）.md @公众号文章每日数据.md @公众号账号每日数据.md 这四个文档帮我设计 sqlite 的数据库结构，每个文章对应一张表。
新的数据库文件保存在 data 文件夹中。

可以看到 AI 一共创建了6张表，「公众号分渠道数据」「文章分渠道数据」「文章发布后7天内的数据」各对应一张表，而「文章发布后30天的数据」这个 Excel 文件中因为包含7个模块，因此 AI 分了3张表来存储数据，“数据概况”、“阅读转化”、“推荐转化”被合并在一张表中，“性别分布”、“年龄分布”、“地域分布”被合并在一张表中，“数据趋势明细”则是单独一张表。

创建自动导入数据的脚本

有了合理的数据库结构，接下来则需要将 Excel 数据导入到数据库中。

同样让 AI 帮我们实现这个过程。但是因为是 Excel 文件导入，因此需要添加一些限制条件来简化场景：

每次导入的数据都认为是新数据
使用 Excel 文件名匹配表名
对于「文章发布后30天的数据」要做特殊说明

这几点是我在走了一些弯路之后才明确的规则。在最初的版本，AI 花了大力气在防止数据重复录入上，还整出了一个表名+字段的得分匹配机制，而对于一个 sheet 中包含多个表的「文章发布后30天的数据」文件，完全无法正确解析。最终有效的 prompt 如下：

生成 Python 脚本的 prompt

我会定时更新 data-import 中的 Excel 文件，帮我创建一个 Python 脚本，来读取文件内容，并导入 SQLite 数据库：
每次导入都认为是新数据，不考虑重复导入的场景。每次导入不要清空表数据，而是直接新增
直接使用 Excel 文件名称匹配对应的表名：
公众号账号每日数据 - account_daily_stats
公众号文章每日数据 - article_daily_stats
公众号文章7日内数据 - article_7day_stats
对于公众号文章30日内数据明细需要做一些特殊处理，因为这个 Excel 表实际上对应了多张表的数据：article_detailed_stats，article_trend_details，article_audience_profile。
它的第一行是文件名称，之后你需要匹配“数据概况”“阅读转化”“推荐转化”“数据趋势明细”“性别分布”“年龄分布”“地域分布”来找到对应的行，并获取该行下方对应的数据

最终生成的 Python 脚本成功导入了全部的 Excel 数据：

这样我在每次导出 Excel 数据后，放入 data-import 文件夹中，执行 Python 脚本就能一键将数据导入数据库了🎉。

数据分析

分析数据提升内容运营质量实际上才是我的最终目的，然而就我目前少得可怜的数据量，和贫瘠的运营知识而言，这一步还需要日后持续的学习和探索。

当下我先让 AI 帮我简单创建了一个可视化的前端页面，直接展示数据库中的数据，方便我和微信公众号后台的数据核对。prompt 也非常简单：

创建可视化页面的 prompt

在 data 文件夹下面新建一个文件夹，帮我创建可视化的前端页面，我希望能查询每个表中的数据。
其中 30日内数据明细关联的表，应当按照文章来展示数据

数据积累是一个量变到质变的过程。建立工作流只是第一步，日复一日地累积数据，并在此基础上分析数据，最终得出结论来指导内容运营。

而通过以上的工作流将数据存储在数据库，相当于搭建了坚实的地基，借助 AI 的力量，可以在此基础上快速实现针对不同维度、不同场景的数据分析，并且直接以可视化的形式展示出来。我非常期待后续 AI 能帮助我挖掘出怎样的启示。

以上就是本文的全部内容，希望能对你有所帮助。