决策树分类训练

使用说明

决策树(decision tree)是一种用来分类和回归的无参监督学习方法。其目的是创建一种模型从数据特征中学习简单的决策规则来预测一个目标变量的值。决策树包含一个根节点,若干个内部节点,以及若干个叶子节点。其中根节点包含全部样本,每个内部节点代表了一个属性测试,每个子节点对应于一个决策结果。该模型的优点是数据形式容易理解,可以处理不相关特征数据,计算复杂度不高,是树模型的基础形式。决策树模型在机器学习应用中非常广泛,例如可以根据一系列特征判断该地区是否适合作为某珍稀动物的栖息地。 决策树分类与其他分类器一样,可以使用该模型来预测样本类别,既能用于二分类,也能用于多分类。

该方法进行决策树分类方法的数据训练过程,可以根据数据特征得到模型,进而用于预测。返回决策树分类模型汇总:

  • dTRModelCharacteristics:决策树分类模型的属性。
  • Variable:决策树分类模型的字段名称数组,指训练模型中自变量的字段。
  • variableImportances:字段重要性,指各自变量特征对因变量的影响程度。
  • f1Score:加权后的f1-measure。
  • accuracy:加权后的准确率。
  • weightedPrecision:加权后的精确率。
  • weightedRecall:加权后的召回率。
  • dTClassificationDiagnostics:分类结果诊断。包括对各分类类别的f1Score、精确率(precision)、召回率(recall)、真正确率(truePositiveRate)、假正确率(falsePositiveRate)。

参数说明

参数名 默认值 参数释义 参数类型
建模字段
建模字段名称。用于训练模型的字段,即因变量。该字段对应将用于在未知位置进行预测的变量的已知(训练)值。该方法中建模字段为分类整数。 String
解释字段
解释字段名称集合。该集合输入训练数据集的一个或多个字段名称作为模型的解释变量。 String
距离解释变量数据集
(可选)
距离解释变量数据集集合,数组中的对象使用 ExplanatoryDistanceRDD 进行构建。距离解释变量数据集包括 距离解释变量数据集、搜索距离。计算给定的训练解释变量数据集与输入的训练数据集的最近距离,自动创建一列解释变量(解释变量名称为输入的 distanceFieldName )。如果输入训练距离解释变量数据集,则在利用模型进行预测时,必须输入预测距离解释变量数据集,且与训练模型时创建的解释变量名称对应,预测距离解释变量数据集使用同一个搜索距离。 ExplanatoryDistanceRDD
树的最大深度
(可选)
5 树的最大深度-取值范围大于0。 Integer
叶子节点分裂阈值
(可选)
1 叶子节点分裂阈值 Integer
模型保存目录
(可选)
决策树分类模型指定的保存目录。 String
训练数据集
访问数据的连接信息,需要包含数据类型,连接参数,数据集名字等信息。使用’—key=value’的方式设置,多个值使用’ ‘空格分隔。如连接HBase数据为 —providerType=hbase —hbase.zookeepers=192.168.12.34:2181 —hbase.catalog=demo —dataset=dltb; 连接dsf数据为—providerType=dsf —path=hdfs://ip:9000/dsfdata ; 本地数据为—providerType=dsf —path=/home/dsfdata String
数据查询条件
(可选)
数据查询条件,支持属性条件和空间查询, 如 SmID<100 and BBOX(the_geom, 120,30,121,31) String