开源、低代码机器学习库PyCaret 2.0 现已发布

文章来源：infoqMoez Ali

本文最初发表在 Towards Data Science 博客，经原作者 Moez Ali 授权，InfoQ 中文站翻译并分享。

PyCaret 是一个用 Python 编写的开源、低代码的机器学习库，可以将机器学习工作流实现自动化。它是一个端到端的机器学习和模型管理工具，可以加快机器学习实验周期，并提高工作效率。目前，PyCaret 2.0已经发布。

与其他开源机器学习库相比，PyCaret 是一个替代的低代码库，仅用很少的单词就可以替换数百行代码。这使得实验的速度和效率呈指数级增长。

为什么要用 PyCaret？

PyCaret 2.0的主要功能包括：数据准备、模型训练、超参数调整、分析&可解释性、模型选择、实验日志等。

安装 PyCaret 2.0

安装 PyCaret 非常简单，只需几分钟即可。我们强烈建议使用虚拟环境，以避免与其他库的潜在冲突。请参阅下面的示例代码来创建一个 conda 环境并在该 conda 环境中安装 PyCaret：

# create a conda environment
conda create --name yourenvname python=3.6
# activate environment
conda activate yourenvname
# install pycaret
pip install pycaret==2.0
# create notebook kernel linked with the conda environment python -m ipykernel install --user --name yourenvname --display-name "display-name"

如果你使用的是 Azure Notebook 或 Google Colab，请运行以下代码来安装 PyCaret：

!pip install pycaret==2.0

使用 pip 安装 PyCaret 时，所有硬依赖项都会自动安装。

依赖项的完整列表地址：

https://github.com/pycaret/pycaret/blob/master/requirements.txt

PyCaret 2.0 入门

在 PyCaret 中，任何机器学习实验的第一步都是通过导入相关模块来建立环境，并通过传递数据框和目标变量的名称来初始化设置（setup）函数。请见以下示例代码：

# Import module
from pycaret.classification import *

# Initialize setup (when using Notebook environment)
clf1 = setup(data, target = 'target-variable')

# Initialize setup (outside of Notebook environment)
clf1 = setup(data, target = 'target-variable', html = False)

# Initialize setup (When using remote execution such as Kaggle / GitHub actions / CI-CD pipelines)
clf1 = setup(data, target = 'target-variable', html = False, silent = True)

样例输出：

所有预处理转换都在 setup 函数中应用。PyCaret 提供了 20 多种不同的预处理转换，这些转换可以在 setup 函数中定义。要了解 PyCaret 的预处理功能的更多信息，请单击此处。

模型比较

这是我们在任何监督式学习任务中推荐的第一步。这个函数使用默认的超参数来训练模型库中的所有模型，并使用交叉验证来评估性能指标。它返回经过训练的模型对象类。所使用的评估指标为：

用于分类：正确率、AUC、召回率、精度、F1、Kappa、MCC
用于回归：MAE、MSE、RMSE、R2、RMSLE、MAPE

以下是使用 compare_models 函数的几种方法：

# import classification module
from pycaret.classification import *

# init setup
clf1 = setup(data, target = 'name-of-target')

# return best model
best = compare_models()

# return best model based on Recall
best = compare_models(sort = 'Recall') #default is 'Accuracy'

# compare specific models
best_specific = compare_models(whitelist = ['dt','rf','xgboost'])

# blacklist certain models
best_specific = compare_models(blacklist = ['catboost','svm'])

# return top 3 models based on Accuracy
top3 = compare_models(n_select = 3)

样例输出：

模型创建

模型创建（create_model）函数使用默认超参数训练模型，并使用交叉验证评估性能指标。这个函数是 PyCaret 中几乎所有其他函数的基础。它返回经过训练的模型对象类。以下是使用这个函数的几种方法：

# import classification module
from pycaret.classification import *

# init setup
clf1 = setup(data, target = 'name-of-target')

# train logistic regression model
lr = create_model('lr') #lr is the id of the model

# check the model library to see all models
models()

# train rf model using 5 fold CV
rf = create_model('rf', fold = 5)

# train svm model without CV
svm = create_model('svm', cross_validation = False)

# train xgboost model with max_depth = 10
xgboost = create_model('xgboost', max_depth = 10)

# train xgboost model on gpu
xgboost_gpu = create_model('xgboost', tree_method = 'gpu_hist', gpu_id = 0) #0 is gpu-id

# train multiple lightgbm models with n learning_rate
lgbms = [create_model('lightgbm', learning_rate = i) for i in np.arange(0.1,1,0.1)]

# train custom model
from gplearn.genetic import SymbolicClassifier
symclf = SymbolicClassifier(generation = 50)
sc = create_model(symclf)

样例输出：

模型调优

模型调优（tune_model）函数调优作为评估其传递的模型的超参数。它使用随机网格搜索和预定义的可调优网格是完全可定制的。以下是使用这个函数的几种方法：

# import classification module
from pycaret.classification import *

# init setup
clf1 = setup(data, target = 'name-of-target')

# train a decision tree model
dt = create_model('dt')

# tune hyperparameters of decision tree
tuned_dt = tune_model(dt)

# tune hyperparameters with increased n_iter
tuned_dt = tune_model(dt, n_iter = 50)

# tune hyperparameters to optimize AUC
tuned_dt = tune_model(dt, optimize = 'AUC') #default is 'Accuracy'

# tune hyperparameters with custom_grid
params = {"max_depth": np.random.randint(1, (len(data.columns)*.85),20),
          "max_features": np.random.randint(1, len(data.columns),20),
          "min_samples_leaf": [2,3,4,5,6],
          "criterion": ["gini", "entropy"]
          }

tuned_dt_custom = tune_model(dt, custom_grid = params)

# tune multiple models dynamically
top3 = compare_models(n_select = 3)
tuned_top3 = [tune_model(i) for i in top3]

模型集成

对于集成基础学习者来说，几乎没有可用的函数。ensemble_model、blend_models 和 stack_models 是其中的三个。以下是使用这些函数的几种方法：

# import classification module
from pycaret.classification import *

# init setup
clf1 = setup(data, target = 'name-of-target')

# train a decision tree model
dt = create_model('dt')

# train a bagging classifier on dt
bagged_dt = ensemble_model(dt, method = 'Bagging')

# train a adaboost classifier on dt with 100 estimators
boosted_dt = ensemble_model(dt, method = 'Boosting', n_estimators = 100)

# train a votingclassifier on all models in library
blender = blend_models()

# train a voting classifier on specific models
dt = create_model('dt')
rf = create_model('rf')
adaboost = create_model('ada')
blender_specific = blend_models(estimator_list = [dt,rf,adaboost], method = 'soft')

# train a voting classifier dynamically
blender_top5 = blend_models(compare_models(n_select = 5))

# train a stacking classifier
stacker = stack_models(estimator_list = [dt,rf], meta_model = adaboost)

# stack multiple models dynamically
top7 = compare_models(n_select = 7)
stacker = stack_models(estimator_list = top7[1:], meta_model = top7[0])

要了解 PyCaret 中模型集成的更多信息，请单击此处。

模型预测

顾名思义，这个 predict_model 函数用于推理 / 预测。以下是使用这个函数的方法：

# train a catboost model
catboost = create_model('catboost')

# predict on holdout set (when no data is passed)
pred_holdout = predict_model(catboost)

# predict on new dataset
new_data = pd.read_csv('new-data.csv')
pred_new = predict_model(catboost, data = new_data)

模型绘制

利用模型绘制（plot_model）函数对训练好的机器学习模型进行性能评估。下面是一个示例代码：

# import classification module
from pycaret.classification import *

# init setup
clf1 = setup(data, target = 'name-of-target')

# train adaboost model
adaboost = create_model('ada')

# AUC plot
plot_model(adaboost, plot = 'auc')

# Decision Boundary
plot_model(adaboost, plot = 'boundary')

# Precision Recall Curve
plot_model(adaboost, plot = 'pr')

# Validation Curve
plot_model(adaboost, plot = 'vc')

plot_model 函数的样例输出

要了解 PyCaret 中不同可视化的更多信息，请单击此处。

或者，你可以使用 evaluate_model 函数通过 Notebook 中的用户界面查看绘图。

PyCaret 中的 evaluate_model 函数

有用的函数

PyCaret 2.0 包含了一些新的实用函数，这些函数字使用 PyCaret 管理机器学习实验时非常方便。其中一些如下示例代码所示：

# select and finalize the best model in the active run
best_model = automl() #returns the best model based on CV score

# select and finalize the best model based on 'F1' on hold_out set
best_model_holdout = automl(optimize = 'F1', use_holdout = True)

# save model
save_model(model, 'c:/path-to-directory/model-name')

# load model
model = load_model('c:/path-to-directory/model-name')

# retrieve score grid as pandas df
dt = create_model('dt')
dt_results = pull() #this will store dt score grid as pandas df

# get global environment variable
X_train = get_config('X_train') #returns X_train dataset after preprocessing
seed = get_config('seed') returns seed from global environment

# set global environment variable
set_seed(seed, 999) #seed set to 999 in global environment of active run

# get experiment logs as csv file
logs = get_logs() #for active run by default

# get system logs for audit
system_logs = get_system_logs() #read logs.log file from active directory

要查看 PyCaret 2.0 中实现的所有新函数，请参阅发行说明。

实验日志

PyCaret 2.0 嵌入了 MLflow 跟踪组件，作为运行机器学习代码时的后端 API 和 UI，用于记录参数、代码版本、指标和输出文件，并用于以后可视化结果。下面是如何在 PyCaret 中记录实验的方法。

# import classification module
from pycaret.classification import *

# init setup
clf1 = setup(data, target = 'name-of-target', log_experiment = True, experiment_name = 'exp-name-here')

# compare models
best = compare_models()

# start mlflow server on localhost:5000 (when using notebook)
!mlflow ui

输出（在 localhost:5000）:

将它们放在一起——创建你自己的 AutoML 软件

使用所有的函数，让我们创建一个简单的命令行软件，它可以使用默认参数来训练多个模型，调优最佳候选模型的超参数，尝试不同的集成技术，并返回 / 保存最佳模型。以下是命令行脚本：

# import libraries
import pandas as pd
import sys

# define command line parameters
data = sys.argv[1]
target = sys.argv[2]

# load data (replace this part with your own script)
from pycaret.datasets import get_data
input_data = get_data(data)

# init setup
from pycaret.classification import *
clf1 = setup(data = input_data, target = target, log_experiment = True)

# compare baseline models and select top5
top5 = compare_models(n_select = 5)

# tune top5 models
tuned_top5 = [tune_model(i) for i in top5]

# ensemble top5 tuned models
bagged_tuned_top5 = [ensemble_model(i, method = 'Bagging') for i in tuned_top5]

# blend top5 models
blender = blend_models(estimator_list = top5)

# stack top5 models
stacker = stack_models(estimator_list = top5[1:], meta_model = top5[0])

# select best model based on recall
best_model = automl(optimize = 'Recall')

# save model
save_model(best_model, 'c:/path-to-directory/final-model')

这个脚本将动态选择并保存最佳模型。只需几行代码，就可以开发出自己的 AutoML 软件，这个软件带有一个完善的日志记录系统，甚至还有一个漂亮的排行榜的 UI。使用 Python 中的轻量级工作流自动化库可以实现的功能是没有限制的。

作者简介：

Moez Ali，数据科学家，PyCaret 的创始人和作者。

原文链接：

https://towardsdatascience.com/announcing-pycaret-2-0-39c11014540e

发表于: 2020-08-072020-08-07 11:40:36
本文为 InfoQ 中文站特供稿件
首发地址：https://www.infoq.cn/article/vRsq7bi8p1a4OxT56yXV
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

开源、低代码机器学习库PyCaret 2.0 现已发布

为什么要用 PyCaret？

安装 PyCaret 2.0

PyCaret 2.0 入门

模型比较

模型创建

模型调优

模型集成

模型预测

模型绘制

有用的函数

实验日志

将它们放在一起——创建你自己的 AutoML 软件

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐