pyspark-决策树~
from pyspark.ml.feature import VectorAssembler
生成的spark_dataframe需要先进行vectorassembler进行转换,才能调用spark的
机器学习算法~
.randomSplit
切分数据集,只能将数据切分为训练机和测试集,xy不分
from pyspark.ml.classification import DecisionTreeClassifier
导入分类决策树算法
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
模型评估的库~但是召回率计算规则不明,需要自己计算~