我们使用工具目的是为了将自身从枯燥繁复的机械化过程中解放出来,以效率来换取宝贵的时间;而我们编程也是为了这样或那样的目的,通过编程的方式来满足我们的需要或是解决问题,比如让编写好的爬虫程序每天某时刻或每隔一段时间就自动运行,从而达到自动化的目的。
但让程序自动运行这个过程本身也是可以被自动化,即我们需要为其像闹钟一样设置触发时间或拧上发条,到点之后自动运行,而这就需要定时任务(Periodical Task)来帮助我们实现。
定时任务也有其他的称呼,比如调度任务(Scheduling Task)、计划任务(Windows 程序)等说法,但不论怎样称呼它们都与时间相关。
而最著名的定时任务工具就是类 Unix 操作系统(Linux 和 macOS)上的 crontab 命令,我们通过它可以在电脑上创建调度任务并自动运行,比如我现在打算在每个月第一天的下午 14 点 15 分运行我当前用户目录下 scripts
文件夹中的 autobackup.py
代码用以自动备份文件,对应的 crontab 表达式为:
# /etc/crontab
15 14 1 * * python3 /Users/100gle/scripts/autobackup.py
对于不熟悉 crontab 的人而言,上述的 15 14 1 * *
会是一串很陌生的字符,但它们是 crontab 专有的用以表示定时时间的表达式,依次表示「分钟、小时、天数、月份、一周的哪一天」,而 *
表示所有时间(比如每一天、每一周等等)。
对 crontab 表达式感兴趣的读者可以在一个名为 crontab guru 的网站上试着编写,当然 crontab 并不是我们本章内容的主角,因为可以看到它依托于操作系统而不是程序自身,并且随着定时任务的增多而难以管理维护,可我们希望寻求于程序本身自带的定时调度机制,这样不仅能够与程序本身很好地结合,又不会与系统内的其他定时任务混杂在一起。
所以大部分编程语言都会有相应的定时调度或任务调度框架,Python 也不例外,比如:
- 用于简单需求的 schedule;
- 用于相对复杂的场景的 APScheduler;
- 附属于任务队列的 Celery、huey;
- 专门用于自动化任务的工作流平台 Airflow;
- ……
通过上述列举可以看到任务调度的技术方案与选择多种多样,但在接下来我们将会介绍的内容并不在上述列表之中,而是一个全新的且用于定时任务的调度框架——Rocketry。