使用说明
朴素贝叶斯法(naive Bayes)是基于贝叶斯定理和特征条件独立假设的分类方法,对于给定的训练数据集,首先基于特征条件独立假设,学习输入到输出的联合分布概率;然后基于此模型,对给定的输入x,再利用贝叶斯定理求出其后验概率最大的输出y。相对于其他更复杂的分类算法,朴素贝叶斯分类算法有着更好的学习效率和分类效果。朴素贝叶斯算法在文字识别、图像识别方向有着较为重要的作用,可以将未知的文字或图像,根据其已有的分类规则来进行分类。现实生活中有着广泛应用,如文本分类,垃圾邮件过滤,信用评估,钓鱼网站检测等等。
该方法进行朴素贝叶斯分类的数据训练过程,可以根据数据特征得到模型,进而用于预测。
返回朴素贝叶斯分类模型汇总:
- numClasses:分类数目。
- f1Score:加权后的f1-measure。
- accuracy:加权后的准确率。
- weightedPrecision:加权后的精确率。
- weightedRecall:加权后的召回率。
参数说明
参数名 | 默认值 | 参数释义 | 参数类型 |
---|---|---|---|
建模字段 |
建模字段名称。用于训练模型的字段,即因变量。该字段对应将用于在未知位置进行预测的变量的已知(训练)值。该方法中建模字段为分类整数。 | String | |
解释字段 |
解释字段名称集合。该集合输入训练数据集的一个或多个字段名称作为模型的解释变量。 | String | |
距离解释变量数据集 (可选) |
距离解释变量数据集集合,数组中的对象使用 ExplanatoryDistanceRDD 进行构建。距离解释变量数据集包括 距离解释变量数据集、搜索距离。计算给定的训练解释变量数据集与输入的训练数据集的最近距离,自动创建一列解释变量(解释变量名称为输入的 distanceFieldName )。如果输入训练距离解释变量数据集,则在利用模型进行预测时,必须输入预测距离解释变量数据集,且与训练模型时创建的解释变量名称对应,预测距离解释变量数据集使用同一个搜索距离。 | ExplanatoryDistanceRDD | |
平滑参数 (可选) |
1.0 | 平滑参数,取值范围大于0。 | Double |
朴素贝叶斯分类模型 (可选) |
Multinomial | 朴素贝叶斯分类模型。包括多项式模型和伯努利模型。 | String |
模型保存目录 (可选) |
朴素贝叶斯分类模型指定的保存目录。 | String | |
训练数据集 |
访问数据的连接信息,需要包含数据类型,连接参数,数据集名字等信息。使用’—key=value’的方式设置,多个值使用’ ‘空格分隔。如连接HBase数据为 —providerType=hbase —hbase.zookeepers=192.168.12.34:2181 —hbase.catalog=demo —dataset=dltb; 连接dsf数据为—providerType=dsf —path=hdfs://ip:9000/dsfdata ; 本地数据为—providerType=dsf —path=/home/dsfdata | String | |
数据查询条件 (可选) |
数据查询条件,支持属性条件和空间查询, 如 SmID<100 and BBOX(the_geom, 120,30,121,31) | String |