支持向量机是机器学习中常见的一种监督学习分类算法,是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,把样本中的正例和反例用超平面分开,分割的原则是间隔最大化。支持向量机方法较好地解决了小样本、非线性、高维数、局部极小点等分类中的实际问题。在图像处理、数据挖掘等领域被广泛应用。
该方法进行支持向量机分类的数据训练过程,可以根据数据特征得到模型,进而用于预测。
创建支持向量机分类训练任务时,需要设置以下参数:
-
训练数据集:必填参数,需要进行训练的数据集访问连接信息,需要包含数据类型,连接参数,数据集名字等信息。可以连接HBase数据,dsf数据,本地数据。
-
数据查询条件:可选参数,可以根据此查询条件筛选出指定数据进行相应分析,支持属性条件和空间查询, 如 SmID<100 and BBOX(the_geom, 120,30,121,31)。
-
解释字段:必填参数,解释变量的字段名称,输入训练数据集的一个或多个解释字段名称作为模型的自变量,可帮助预测出结果。
-
建模字段:必填参数,用于训练模型的字段,即因变量。该字段对应将用于在未知位置进行预测的变量的已知(训练)值。
-
最大迭代次数:可选参数,取值范围>0,默认值为100。
-
正则化参数:可选参数,取值范围≥0,默认值为0.0。主要用于防止过拟合现象。
-
距离解释变量数据集:可选参数,支持点、线、面数据集,计算给定数据集的要素与训练数据集中要素的最近距离,可自动创建一列解释变量。
-
模型保存目录:可选参数,将训练结果较好的模型保存至该地址下。为空表示不保存模型。
执行完该训练任务,输出以下结果参数:
-
Variable:模型的字段名称数组,指训练模型中自变量的字段。
-
coefficient:回归系数。
-
numClasses:分类数目。
-
areaUnderROC:ROC曲线下方的面积,即AUC,是用来度量分类模型好坏的一个标准,值介于0.5-1.0,较大的AUC代表模型效果更好。
-
areaUnderPR:PR曲线下方的面积。同ROC曲线一样,PR曲线也是可以衡量模型好坏的指标之一。
-
accuracy:准确率。