使用说明
空间密度聚类是指对点集合进行空间位置的聚集分析,使用密度聚类算法DBSCAN。该算法可以根据给定的搜索半径和该范围内需包含的最少点数将空间点数据中密度较大且空间相近的区域相连,将具有足够高密度的区域划分为簇,并可以在带有噪声的空间数据中发现任意形状的聚集。结果返回要素数据集(FeatureRDD)。
参数说明
参数名 | 默认值 | 参数释义 | 参数类型 |
---|---|---|---|
分析数据集 |
访问数据的连接信息,需要包含数据类型,连接参数,数据集名字等信息。使用’—key=value’的方式设置,多个值使用’ ‘空格分隔。如连接HBase数据为 —providerType=hbase —hbase.zookeepers=192.168.12.34:2181 —hbase.catalog=demo —dataset=dltb; 连接dsf数据为—providerType=dsf —path=hdfs://ip:9000/dsfdata ; 本地数据为—providerType=dsf —path=/home/dsfdata | String | |
聚类半径 | 带单位的聚类半径,在DBSCAN算法中被称作E领域。输入格式如 1 Kilometer,支持单位有Meter, Centimeter, Millimeter, Decimeter, Kilometer, Yard, Inch, Foot, Mile, Degree, Second, Minute, Radian, 缺省单位为Meter。 | JavaDistance | |
聚类数目阈值 | 2 | 聚类数目阈值,判断是否是核心的依据。注意该值是包括本身在内的个数。在DBSCAN算法中大于该值的称为核心对象。该值必须大于或等于2 | Integer |
保存聚类类别的字段名 |
用于保存聚类类别的字段名 | String | |
需要保留到结果数据集中的字段 (可选) |
需要保留到结果数据集中的字段名称 | String | |
结果数据集 |
访问数据的连接信息,需要包含数据类型,连接参数,数据集名字等信息。使用’—key=value’的方式设置,多个值使用’ ‘空格分隔。如连接HBase数据为 —providerType=hbase —hbase.zookeepers=192.168.12.34:2181 —hbase.catalog=demo —dataset=dltb; 连接dsf数据为—providerType=dsf —path=hdfs://ip:9000/dsfdata ; 本地数据为—providerType=dsf —path=/home/dsfdata | String | |
数据查询条件 (可选) |
数据查询条件,支持属性条件和空间查询, 如 SmID<100 and BBOX(the_geom, 120,30,121,31) | String |