使用说明
执行广义线性回归可生成预测,或对因变量与一组解释变量的关系进行建模,识别和衡量关系可使得更好地了解某地正在发生的事情、预测某地可能发生某事或者调查事情发生在事发地的原因。该回归模型将因变量的分布推广到指数分布族(高斯分布,伯努利分布、泊松分布),可以处理因变量为常见的一些离散型和连续型随机变量的回归分析问题,特别是属性数据、离散数据。在解决变量是非连续型、非数值型变量时具有优越性。
该方法可以进行广义线性回归的训练和预测过程。
参数说明
参数名 | 默认值 | 参数释义 | 参数类型 |
---|---|---|---|
训练数据集 | 训练数据集。用于训练模型的字段,即因变量。该字段对应将用于在未知位置进行预测的变量的已知(训练)值。该方法中建模字段为连续数值类型。 | FeatureRDD | |
建模字段名称 | 建模字段名称 | String | |
解释字段名称集合 |
解释字段名称集合。该集合输入训练数据集的一个或多个字段名称作为模型的解释变量。 | String | |
广义线性回归的距离解释变量数据集集合 (可选) |
广义线性回归的距离解释变量数据集集合,数组中的对象使用 RegressExplanatoryDistanceRDD 进行构建。距离解释变量数据集包括 训练距离解释变量数据集、预测距离解释变量数据集、搜索距离。计算给定的训练(或预测)解释变量数据集与输入的训练(或预测)数据集的最近距离,自动创建一列解释变量。如果输入训练距离解释变量数据集,则必须输入对应的预测距离解释变量数据集,且预测距离解释变量数据集使用同一个搜索距离。 | RegressExplanatoryDistanceRDD | |
预测数据集 |
Caption_PredictRdd。 | FeatureRDD | |
预测数据的映射字段 (可选) |
预测数据的映射字段。表示模型的解释字段名称和预测数据集字段名称的对应关系,每一个解释字段都应该在预测数据集中有对应的字段。如果没有设置对应关系,则预测数据集中必须存在 explanatory(解释变量数组)中所有的字段。 | JavaExplanatoryFieldMatching | |
广义线性回归的模型 |
Gaussian | 广义线性回归的模型,支持 高斯模型“Gaussian”, 逻辑模型“Logistic”, 泊松模型“Poisson”。 | JavaGLRFamily |