百闻不如一练：随机森林等可视化调试模型超参数

AIU人工智能学院

3146

收藏 2020-06-11

CDA人工智能学院：数据科学、人工智能从业者的在线学院。

数据科学（Python/R/Julia）数据分析、机器学习、深度学习

以下使用scikit-learn中数据集进行分享。

如果精选随机森林作为最终的模型，那么发现它的最佳参数可能有1000种多种组合的可能，你可以使用使用穷尽的网格搜索（Exhaustive Grid Seaarch）方法，但时间成本将会非常高（运行很久...），或者使用随机搜索（随机搜索）方法，仅分析超参数集合中的子集合。

该示例以手写数据集为例，使用支持向量机的方法对数据进行建模，然后调用scikit-learn中validation_surve方法将模型交叉验证的结果进行可视化。需要注意的是，在使用validation_curve方法时，只能验证一个超参数与模型训练集和验证集的关系（即二维的可视化），而不能实现多参数与重叠间关系的可视化。以下搜索的参数是gamma，需要给定参数范围，用param_range进行传递，评分策略用评分参数进行传递。其代码示例如下所示：

复制代码

代码中：

复制代码

以下是支持向量机的验证曲线，调节的超参数gamma共有5个值，每一个点的分数是五折交叉验证（cv = 5）的均值。

当想看模型多个超参数与模型评分之间的关系时，使用scikit-learn中验证曲线就难以实现，因此可以考虑重定向三维坐标图。

主要用plotly的库放置3D Scatter（3d 散点图）。下面的示例使用scikit-learn中的莺尾花的数据集（iris）。以下示例随机森林模型（RandomForestRegressor），利用scikit-learn中的GridSearchCV方法调试最佳超参（调整超参数），分别设置超参数“ n_estimators”，“ max_features”，“ min_samples_split”的参数范围，详见代码如下：

复制代码

其运行结果如果，是一个三维散点图（3D Scatter）。