PyCaret：低代码自动化的机器学习工具

PyCaret简介

随着ChatGPT和AI画图的大火，机器学习作为实现人工智能的底层技术被大众越来越多的认知，基于机器学习的产品也越来越多。传统的机器学习实现方法需要较强的编程能力和数据科学基础，这使得想零基础尝试机器学习变得非常困难。

PyCaret 是 Python 中的开源低代码机器学习库，可自动执行机器学习工作流程。它是一种端到端的机器学习和模型管理工具，可以成倍地加快实验周期并提高您的工作效率。与其他开源机器学习库相比，PyCaret 是一个高度封装的低代码库，可以用几行代码代替数百行代码。这使得机器学习实验呈指数级快速和高效。

PyCaret的设计和简单性受到了公民数据科学家这一新兴角色的启发，这是Gartner首次使用的术语。公民数据科学家是超级用户，他们可以执行简单和适度复杂的分析任务，而这些任务以前需要更多的专业知识。经验丰富的数据科学家通常很难找到，而且雇佣成本也很高，但公民数据科学家可以成为缓解这一差距并解决商业环境中与数据相关的挑战的有效途径。

Pycaret的特色

低代码量

与其他开源机器学习库相比，PyCaret是一个替代的低代码库，可以用很少的单词替换数百行代码。这使得机器学习实验能以指数级的速度和效率进行。PyCaret本质上是一个Python包装器，围绕着几个机器学习库和框架，如scikit learn、XGBoost、LightGBM、CatBoost、spaCy、Optuna、Hyperopt、Ray等等。除模型选择外，调参，数据预处理等等也可以通过同样的方式进行处理。

在常规的机器学习方法中，如果想要比较多个机器学习算法的准确率和耗时等信息，需要挨个进行调用或编写，然后人工进行对比，而在PyCaret中仅需一行代码即可完成。

跨环境使用

PyCaret 是 Python 中的部署就绪库，这意味着在 ML 实验中执行的所有步骤都可以使用可重现并保证生产的管道重现。管道可以保存为可跨环境传输的二进制文件格式。

无缝衔接主流数据平台

PyCaret 及其机器学习功能与支持 Python 的环境无缝集成，例如 Microsoft Power BI、Tableau、Alteryx 和 KNIME 等。这为这些 BI 平台的用户提供了巨大的力量，他们现在可以将 PyCaret 集成到他们现有的工作流中，并轻松添加一层机器学习。

PyCaret适用人群

希望提高生产力的经验丰富的数据科学家。
喜欢低代码机器学习解决方案的公民数据科学家。
想要构建快速原型的数据科学专业人士。
数据科学和机器学习的学生和爱好者。

安装 PyCaret

准备工作

PyCaret在以下64位系统上得到测试和支持，因此，安装前需要先准备好环境支持。

1.系统环境：Windows7+/unbantu 16.04+

2.编程环境：Python3.6-3.8/Python 3.9 for Ubuntu only

最简安装

最简单安装方式是使用Python的pip包管理器安装PyCaret，只需要一行代码：

pip install pycaret

虚拟环境安装

安装PyCaret是在PyCaret中构建第一个机器学习模型的第一步。由于PyCaret会自动安装所有硬依赖项，为了避免与其他软件包发生潜在冲突，强烈建议使用虚拟环境，例如conda环境。使用隔离环境，可以独立于以前安装的任何Python包安装特定版本的pycaret及其依赖项。

# 创建conda环境
conda create --name yourenvname python=3.8

# 激活上一行创建的环境
conda activate yourenvname

# 安装Pycaret
pip install pycaret

# 创建一个笔记本内核并调用虚拟环境
python -m ipykernel install --user --name yourenvname --display-name "display-name"