根据基于森林的回归训练得到的模型或已有模型进行数据的预测,例如预测城市不同区域的房价等。
创建基于森林的回归预测任务时,需要设置以下参数:
-
预测数据集:必填参数,需要进行预测的数据集访问连接信息,需要包含数据类型,连接参数,数据集名字等信息。可以连接HBase数据,dsf数据,本地数据。
-
数据查询条件:可选参数,可以根据此查询条件筛选出指定数据进行相应分析,支持属性条件和空间查询, 如 SmID<100 and BBOX(the_geom, 120,30,121,31)。
-
模型保存目录:必填参数,训练过程中生成模型的保存地址。
-
预测数据的映射字段:可选参数,预测数据的字段需要和训练数据的字段一一对应,才能使用训练得出的森林模型得到预测结果。默认为空,此时预测数据集中必须存在explanatory(解释变量数组)中所有的字段。
-
预测数据的距离解释变量映射:可选参数,如果训练模型阶段输入了距离解释变量数据集,则这里必须输入预测距离解释变量数据集,且需要字段对应。
-
结果数据集:必填参数,保存预测结果的访问数据的连接信息,需要包含数据类型,连接参数,数据集名字等信息。