背景概述

年终想回顾2021年在苹果App Store上的投入开销,进行一下统计并回顾哪些应用买的值与不值。购买记录分布在mac store和app stroe,干脆就直接从 Apple id所关联的邮箱账单里面快速抽取出来这一年的账单邮件,通过一个网页采集工具简单配置规则,实现邮件里面的收据凭证的快速采集并导出本地Excel。

准备物料

  • 所有Apple发送的收据邮件
  • 后羿采集器客户端

操作过程

0)进入后羿采集器官网下载客户端并安装

image-20220127192809669

过程参考官方文档

1)邮箱归置账单文件夹

  • 新建“苹果2021年账单”文件夹
  • 在邮箱中搜索关键词“Apple 提供的收据”》全选匹配文件邮件移动到“苹果2021年账单”
     

2)选择“流程图模式”

  • 这种模式更加灵活,适合邮箱这种不需要打开新页面的网页数据采集
     

3)设置邮件页面地址

  • 我使用的阿里企业邮箱,需要进行一次预登录才能直接进入到邮箱列表页。
     
提示需要登录
  • 也可以在右上角直接先进入预登录,输入邮箱账号密码完成登录

4)根据点击操作配置对应的流程图

一共四个操作,具体操作可方法可以参考官网视频教程:数据采集教程流程图模式第一个采集案例_后羿采集器 (houyicaiji.com)

  1. 点击1:打开网页
  2. 点击2:“苹果账单文件夹”
  3. 循环列点击:创建邮件列表点击循环
  4. 插入3秒“定时等待”

5)设置提取数据及修改字段名称

  • 在邮件详情页面手动选择需要采集的每个字段
     
提取页面元素

  • 我把购买平台,付费日期,金额,购买app内容,app图标,以及下次续费时间等信息都设置为采集内容。
  • 统一对所有需要采集字段进行名称修改
     
  • 最终采集流程脚本配置效果
     

6)运行采集脚本

7)导出采集数据内容

选择保存文件位置,导出即可。
注意默认的文件名称可能太长导致无法保存,在本地找不到文件或者是有bug,修改文件名后就没这种现象。

心得体会及踩坑

  • 不设置延迟可能会循环进入第二封邮件的时候页面还没跳转过去导致采集到的还是上一封邮件的内容信息出现数据重复的情况。
  • 谷歌邮箱在这个浏览器里面完全就不能登录,icloud邮箱也无法登录会提示浏览器安全性太低服务异常。
  • 如果是使用icloud邮箱或者谷歌邮箱的还是建议在用谷歌内核浏览器的情况下还是使用webscraper插件会更方便友好,直接在当前默认主流的浏览器上直接运行的采集。操作方法可以参考爬取豆瓣的教程:「零代码」写爬虫下载自己全部的豆瓣影评 - 邓锄头の杂货铺 (denghao.org)