执行广义线性回归可生成预测,或对因变量与一组解释变量的关系进行建模,识别和衡量关系可使得更好地了解某地正在发生的事情、预测某地可能发生某事或者调查事情发生在事发地的原因。该回归模型将因变量的分布推广到指数分布族(高斯分布,伯努利分布、泊松分布),可以处理因变量为常见的一些离散型和连续型随机变量的回归分析问题,特别是属性数据、离散数据。在解决变量是非连续型、非数值型变量时具有优越性。

进行广义线性回归方法的数据训练过程,可以根据数据特征得到相应模型,进而用于预测。

创建广义线性回归训练任务时,需要设置以下参数:

  • 训练数据集:必填参数,需要进行训练的数据集访问连接信息,需要包含数据类型,连接参数,数据集名字等信息。可以连接HBase数据,dsf数据,本地数据。

  • 数据查询条件:可选参数,可以根据此查询条件筛选出指定数据进行相应分析,支持属性条件和空间查询, 如 SmID<100 and BBOX(the_geom, 120,30,121,31)。

  • 解释字段:必填参数,解释变量的字段列表,即自变量,输入训练数据集的一个或多个字段名称作为模型的解释变量,可帮助预测出值或类别。

  • 建模字段:必填参数,即因变量,要训练模型的值。该字段对应将用于在未知位置进行预测的变量的已知(训练)值。

  • 模型类型:必填参数,回归类型分别为高斯模型“Gaussian”, 逻辑模型“Logistic”, 泊松模型“Poisson”。应基于因变量的测量和汇总方式及其包含的值范围,来选择模型类型。

  • 距离解释变量数据集:可选参数,支持点、线、面数据集,计算给定数据集的要素与训练数据集中要素的最近距离,可自动创建一列解释变量。

  • 模型保存目录:可选参数,将训练结果较好的模型保存至该地址下。为空表示不保存模型。

执行完该训练任务,输出以下结果参数:

  • Variable:广义线性回归模型的字段名称数组,指训练模型中自变量的字段。

  • coefficient:回归系数。

  • coefficientStandardErrors:回归系数与截距的标准误。

  • tStatistic:回归系数与截距的T统计量。

  • probability:回归系数与截距的概率。

  • aic:模型的AIC准则(最小信息化准则)。可用于检验模型性能并比较回归模型。考虑到模型的复杂性,具有较低AIC值的模型将更好地拟合数据。AIC不是拟合度的绝对度量,但对于比较适用于同一因变量且具有不同解释变量的模型非常有用。

  • dispersion:广义线性回归模型的离散。

  • degreesOfFreedom:自由度。


  • residualDegreeOfFreedomNull:零模型的残差自由度。

  • residualDegreeOfFreedom:残差自由度。