/

/

/

/

/

支持向量机分类训练

使用说明

支持向量机（SVM：Support Vector Machine）是机器学习中常见的一种监督学习分类算法，是一种二分类模型，它的目的是寻找一个超平面来对样本进行分割，把样本中的正例和反例用超平面分开，分割的原则是间隔最大化。支持向量机方法较好地解决了小样本、非线性、高维数、局部极小点等分类中的实际问题。在图像处理、数据挖掘等领域被广泛应用。
该方法进行支持向量机分类的数据训练过程，可以根据数据特征得到模型，进而用于预测。

返回支持向量机分类模型汇总：

Variable：模型的字段名称数组，指训练模型中自变量的字段。
coefficient：回归系数。
numClasses：分类数目。
areaUnderROC：ROC曲线下方的面积，即AUC，是用来度量分类模型好坏的一个标准，值介于0.5-1.0，较大的AUC代表模型效果更好。
areaUnderPR：PR曲线下方的面积。同ROC曲线一样，PR曲线也是可以衡量模型好坏的指标之一。
accuracy：准确率。

参数说明

参数名	默认值	参数释义	参数类型
建模字段		建模字段名称。用于训练模型的字段，即因变量。该字段对应将用于在未知位置进行预测的变量的已知（训练）值。该方法中建模字段为分类整数。	String
解释字段		解释字段名称集合。该集合输入训练数据集的一个或多个字段名称作为模型的解释变量。	String
距离解释变量数据集（可选）		距离解释变量数据集集合,数组中的对象使用 ExplanatoryDistanceRDD 进行构建。距离解释变量数据集包括距离解释变量数据集、搜索距离。计算给定的训练解释变量数据集与输入的训练数据集的最近距离，自动创建一列解释变量(解释变量名称为输入的 distanceFieldName )。如果输入训练距离解释变量数据集，则在利用模型进行预测时，必须输入预测距离解释变量数据集，且与训练模型时创建的解释变量名称对应，预测距离解释变量数据集使用同一个搜索距离。	ExplanatoryDistanceRDD
最大迭代次数（可选）	100	最大迭代次数，必须大于0。	Integer
正则项参数（可选）	0.0	正则项参数，控制损失函数与惩罚项的比例，防止训练过程过拟合。取值大于0。	Double
模型保存目录（可选）		支持向量机分类模型指定的保存目录。	String
训练数据集		访问数据的连接信息,需要包含数据类型，连接参数，数据集名字等信息。使用’—key=value’的方式设置，多个值使用’ ‘空格分隔。如连接HBase数据为 —providerType=hbase —hbase.zookeepers=192.168.12.34:2181 —hbase.catalog=demo —dataset=dltb; 连接dsf数据为—providerType=dsf —path=hdfs://ip:9000/dsfdata ; 本地数据为—providerType=dsf —path=/home/dsfdata	String
数据查询条件（可选）		数据查询条件，支持属性条件和空间查询, 如 SmID<100 and BBOX(the_geom, 120,30,121,31)	String