朴素贝叶斯法(naiveBayes)是基于贝叶斯定理和特征条件独立假设的分类方法。相对于其他更复杂的分类算法,朴素贝叶斯分类算法有着较好的学习效率和分类效果。朴素贝叶斯算法在文字识别、图像识别方向有着较为重要的作用,可以将未知的文字或图像,根据其已有的分类规则来进行分类。现实生活中有着广泛应用,如文本分类、垃圾邮件过滤等。

该方法进行朴素贝叶斯分类的数据训练过程,可以根据数据特征得到模型,进而用于预测。

创建朴素贝叶斯分类训练任务时,需要设置以下参数:

  • 训练数据集:必填参数,需要进行训练的数据集访问连接信息,需要包含数据类型,连接参数,数据集名字等信息。可以连接HBase数据,dsf数据,本地数据。

  • 数据查询条件:可选参数,可以根据此查询条件筛选出指定数据进行相应分析,支持属性条件和空间查询, 如 SmID<100 and BBOX(the_geom, 120,30,121,31)。

  • 解释字段:必填参数,解释变量的字段名称,输入训练数据集的一个或多个解释字段名称作为模型的自变量,可帮助预测出结果。

  • 建模字段:必填参数,用于训练模型的字段,即因变量。该字段对应将用于在未知位置进行预测的变量的已知(训练)值。

  • 平滑参数:可选参数,取值范围>0,默认值为1.0。

  • 朴素贝叶斯分类模型:可选参数,包括多项式模型(Multinomial)和伯努利模型(Bernoulli),默认为Multinomial。

  • 距离解释变量数据集:可选参数,支持点、线、面数据集,计算给定数据集的要素与训练数据集中要素的最近距离,可自动创建一列解释变量。

  • 模型保存目录:可选参数,将训练结果较好的模型保存至该地址下。为空表示不保存模型。

执行完该训练任务,输出以下结果参数:

  • numClasses:分类数目。

  • f1Score:加权后的f1-measure。

  • accuracy:加权后的准确率。

  • weightedPrecision:加权后的精确率。

  • weightedRecall:加权后的召回率。