广义线性回归训练

使用说明

该方法进行广义线性回归的数据训练过程,可以根据数据特征得到相应模型,进而用于预测。

返回广义线性回归模型汇总:

  • Variable:广义线性回归模型的字段名称数组,指训练模型中自变量的字段。
  • coefficient:回归系数。
  • coefficientStandardErrors:回归系数与截距的标准误。
  • tStatistic:回归系数与截距的T统计量。
  • probability:回归系数与截距的概率。
  • aic:模型的AIC准则(最小信息化准则)。可用于检验模型性能并比较回归模型。考虑到模型的复杂性,具有较低AIC值的模型将更好地拟合数据。AIC不是拟合度的绝对度量,但对于比较适用于同一因变量且具有不同解释变量的模型非常有用。
  • dispersion:广义线性回归模型的离散。
  • degreesOfFreedom:自由度。
  • residualDegreeOfFreedomNull:零模型的残差自由度。
  • residualDegreeOfFreedom:残差自由度。

参数说明

参数名 默认值 参数释义 参数类型
建模字段
建模字段名称。用于训练模型的字段,即因变量。该字段对应将用于在未知位置进行预测的变量的已知(训练)值。该方法中建模字段为连续数值类型。 String
解释字段
解释字段名称集合。该集合输入训练数据集的一个或多个字段名称作为模型的解释变量。 String
距离解释变量数据集
(可选)
广义线性回归的距离解释变量数据集集合 ExplanatoryDistanceRDD
模型类型
Gaussian 广义线性回归的模型,支持 高斯模型“Gaussian”, 逻辑模型“Logistic”, 泊松模型“Poisson”。 JavaGLRFamily
模型保存目录
广义线性回归的模型指定的保存目录 String
训练数据集
训练数据集。访问数据的连接信息,需要包含数据类型,连接参数,数据集名字等信息。使用’—key=value’的方式设置,多个值使用’ ‘空格分隔。如连接HBase数据为 —providerType=hbase —hbase.zookeepers=192.168.12.34:2181 —hbase.catalog=demo —dataset=dltb; 连接dsf数据为—providerType=dsf —path=hdfs://ip:9000/dsfdata ; 本地数据为—providerType=dsf —path=/home/dsfdata String
数据查询条件
(可选)
数据查询条件,支持属性条件和空间查询, 如 SmID<100 and BBOX(the_geom, 120,30,121,31) String