逻辑回归训练

使用说明

逻辑回归(Logistic regression)是应用非常广泛的一种分类机器学习算法,用于估计事件发生的可能性。逻辑回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于二分类问题,即输出只有两种,分别代表两个类别,比方说我们想预测某个病人会不会痊愈,顾客会不会购买产品等。
该方法进行逻辑回归的数据训练过程,可以根据数据特征得到模型,进而用于预测。

返回逻辑回归模型汇总:

  • IRCharacteristics:逻辑回归模型的属性。
  • Variable:逻辑回归模型的字段名称数组,指训练模型中自变量的字段。
  • mse:均方误差,预测值与真实值误差平方的均值。
  • rmse:均方根误差,预测值与真实值误差平方根的均值。
  • mae:平均绝对误差,预测值与真实值误差绝对值的均值。
  • r2:决定系数。根据r2的取值,可以判断模型的好坏,取值范围[0,1],一般来说,r2越大表示模型拟合效果越好。r2反映的是大概有多准,因为随着样本数量的增加,r2必然增加,无法真正定量说明准确程度,只能大概定量。
  • explainedVariance:解释方差。
  • numIterations:实际迭代次数。

参数说明

参数名 默认值 参数释义 参数类型
建模字段
建模字段名称。用于训练模型的字段,即因变量。该字段对应将用于在未知位置进行预测的变量的已知(训练)值。该方法中建模字段为分类整数。 String
解释字段
解释字段名称集合。该集合输入训练数据集的一个或多个字段名称作为模型的解释变量。 String
距离解释变量数据集
(可选)
距离解释变量数据集集合,数组中的对象使用 ExplanatoryDistanceRDD 进行构建。距离解释变量数据集包括 距离解释变量数据集、搜索距离。计算给定的训练解释变量数据集与输入的训练数据集的最近距离,自动创建一列解释变量(解释变量名称为输入的 distanceFieldName )。如果输入训练距离解释变量数据集,则在利用模型进行预测时,必须输入预测距离解释变量数据集,且与训练模型时创建的解释变量名称对应,预测距离解释变量数据集使用同一个搜索距离。 ExplanatoryDistanceRDD
最大迭代次数
(可选)
100 最大迭代次数,必须大于0。 Integer
正则项参数
(可选)
0.0 正则项参数,控制损失函数与惩罚项的比例,防止训练过程过拟合。取值大于0。 Double
正则化选择方式
(可选)
0.0 选择以哪种方式进行正则化,0.0为L2正则化,1.0为L1正则化,取值范围为[0.0,1.0]。正则化的主要作用是缓解模型过拟合问题。 Double
模型保存目录
(可选)
逻辑回归模型指定的保存目录。 String
训练数据集
访问数据的连接信息,需要包含数据类型,连接参数,数据集名字等信息。使用’—key=value’的方式设置,多个值使用’ ‘空格分隔。如连接HBase数据为 —providerType=hbase —hbase.zookeepers=192.168.12.34:2181 —hbase.catalog=demo —dataset=dltb; 连接dsf数据为—providerType=dsf —path=hdfs://ip:9000/dsfdata ; 本地数据为—providerType=dsf —path=/home/dsfdata String
数据查询条件
(可选)
数据查询条件,支持属性条件和空间查询, 如 SmID<100 and BBOX(the_geom, 120,30,121,31) String