使用说明
该方法进行广义线性回归的数据训练过程,可以根据数据特征得到相应模型,进而用于预测。
返回广义线性回归模型汇总:
- Variable:广义线性回归模型的字段名称数组,指训练模型中自变量的字段。
- coefficient:回归系数。
- coefficientStandardErrors:回归系数与截距的标准误。
- tStatistic:回归系数与截距的T统计量。
- probability:回归系数与截距的概率。
- aic:模型的AIC准则(最小信息化准则)。可用于检验模型性能并比较回归模型。考虑到模型的复杂性,具有较低AIC值的模型将更好地拟合数据。AIC不是拟合度的绝对度量,但对于比较适用于同一因变量且具有不同解释变量的模型非常有用。
- dispersion:广义线性回归模型的离散。
- degreesOfFreedom:自由度。
- residualDegreeOfFreedomNull:零模型的残差自由度。
- residualDegreeOfFreedom:残差自由度。
参数说明
参数名 | 默认值 | 参数释义 | 参数类型 |
---|---|---|---|
建模字段 |
建模字段名称。用于训练模型的字段,即因变量。该字段对应将用于在未知位置进行预测的变量的已知(训练)值。该方法中建模字段为连续数值类型。 | String | |
解释字段 |
解释字段名称集合。该集合输入训练数据集的一个或多个字段名称作为模型的解释变量。 | String | |
距离解释变量数据集 (可选) |
广义线性回归的距离解释变量数据集集合 | ExplanatoryDistanceRDD | |
模型类型 |
Gaussian | 广义线性回归的模型,支持 高斯模型“Gaussian”, 逻辑模型“Logistic”, 泊松模型“Poisson”。 | JavaGLRFamily |
模型保存目录 |
广义线性回归的模型指定的保存目录 | String | |
训练数据集 |
训练数据集。访问数据的连接信息,需要包含数据类型,连接参数,数据集名字等信息。使用’—key=value’的方式设置,多个值使用’ ‘空格分隔。如连接HBase数据为 —providerType=hbase —hbase.zookeepers=192.168.12.34:2181 —hbase.catalog=demo —dataset=dltb; 连接dsf数据为—providerType=dsf —path=hdfs://ip:9000/dsfdata ; 本地数据为—providerType=dsf —path=/home/dsfdata | String | |
数据查询条件 (可选) |
数据查询条件,支持属性条件和空间查询, 如 SmID<100 and BBOX(the_geom, 120,30,121,31) | String |