/

/

/

/

/

创建四叉树索引DSF

使用说明

创建带有地理分区索引的DSF要素数据集，分为格网索引和四叉树索引两种方式（详见【创建格网索引DSF】）。该方法为创建四叉树索引，就是递归地对地理空间进行四分，直到自行设定的终止条件（四叉树达到指定深度），最终形成一棵有层次的四叉树。

如果数据分布不均匀，呈现明显的聚集特点，则推荐使用四叉树索引，这样，可以有效地将数据比较均匀的重新分布在各个分区。

参数说明

参数名	默认值	参数释义	参数类型
输入的要素数据集		输入的要素数据集，必须是点、线、面等具有空间对象的地理分区要素数据集	FeatureRDD
四叉树索引叶子结点的数目	0	四叉树索引叶子结点的数目，基本上对应结果数据集中每个分区对象数目最大值，但如果数据在空间上分布不均，可能回导致结果数据集中分区的对象数目大于此值。地理分区要素数据集中每个分区对象数目最大值处理原则一般是，将数据集以 DSF 方式存储，每个 DSF 文件大小不超过 hadoop 块文件大小（默认情形下，hadoop 块大小是 256M）。例如点类型的要素数据集为50w对象，国土地类图斑数据为5w对象等。	Integer
四叉树层级（可选）	13	四叉树层级，取值范围为1到16，层级越大四叉树越深，分区越均匀，但计算量越大，推荐12,13层级，默认值为13。	Integer
对输入数据集进行抽稀的比值（可选）	0.1	在建立索引中，对输入数据集进行抽稀的比值，默认情形下是0.1，即取 0.1 倍对象数目用于构建索引。使用抽稀比值一般是在数据比较大且使用 Driver 端构建索引时，通过抽稀数据可以有效提高建立索引的速度	Double
是否在 Driver 端构建四叉树索引	true	是否在 Driver 端构建四叉树索引，默认为 true，在数据量不大，Driver 端内存足够时，通过配合 sample 参数在 Driver 端构建索引，可以有效保证构建索引的性能。idDriver 为 false 时，将会使用分布式方式构建索引	Boolean
建立格网索引的容限值（可选）	1.0E-10	建立格网索引的容限值，容限值单位为要素数据集中数据的单位，默认值为1.0e-10	Double
需要构建索引的数据地理范围（可选）		需要构建索引的数据地理范围，默认情形下将会对整个要素数据集构建格网索引，用户可以通过此参数指定需要构建索引数据范围，但是，落在索引范围外的数据不会被包含在结果的地理分区要素数据集中，在 WPS 客户端中如果输入文本串为范围，格式为 xmin,ymin,xmax,ymax	Envelope