使用说明
创建带有地理分区索引的DSF要素数据集,分为格网索引和四叉树索引两种方式(详见【创建格网索引DSF】)。该方法为创建四叉树索引,就是递归地对地理空间进行四分,直到自行设定的终止条件(四叉树达到指定深度),最终形成一棵有层次的四叉树。
如果数据分布不均匀,呈现明显的聚集特点,则推荐使用四叉树索引,这样,可以有效地将数据比较均匀的重新分布在各个分区。
参数说明
参数名 | 默认值 | 参数释义 | 参数类型 |
---|---|---|---|
输入的要素数据集 | 输入的要素数据集,必须是点、线、面等具有空间对象的地理分区要素数据集 | FeatureRDD | |
四叉树索引叶子结点的数目 | 0 | 四叉树索引叶子结点的数目,基本上对应结果数据集中每个分区对象数目最大值,但如果数据在空间上分布不均,可能回导致结果数据集中分区的对象数目大于此值。地理分区要素数据集中每个分区对象数目最大值处理原则一般是,将数据集以 DSF 方式存储,每个 DSF 文件大小不超过 hadoop 块文件大小(默认情形下,hadoop 块大小是 256M)。例如点类型的要素数据集为50w对象,国土地类图斑数据为5w对象等。 | Integer |
四叉树层级 (可选) |
13 | 四叉树层级,取值范围为1到16,层级越大四叉树越深,分区越均匀,但计算量越大,推荐12,13层级,默认值为13。 | Integer |
对输入数据集进行抽稀的比值 (可选) |
0.1 | 在建立索引中,对输入数据集进行抽稀的比值,默认情形下是0.1,即取 0.1 倍对象数目用于构建索引。使用抽稀比值一般是在数据比较大且使用 Driver 端构建索引时,通过抽稀数据可以有效提高建立索引的速度 | Double |
是否在 Driver 端构建四叉树索引 | true | 是否在 Driver 端构建四叉树索引,默认为 true,在数据量不大,Driver 端内存足够时,通过配合 sample 参数在 Driver 端构建索引,可以有效保证构建索引的性能。idDriver 为 false 时,将会使用分布式方式构建索引 | Boolean |
建立格网索引的容限值 (可选) |
1.0E-10 | 建立格网索引的容限值,容限值单位为要素数据集中数据的单位,默认值为1.0e-10 | Double |
需要构建索引的数据地理范围 (可选) |
需要构建索引的数据地理范围,默认情形下将会对整个要素数据集构建格网索引,用户可以通过此参数指定需要构建索引数据范围,但是,落在索引范围外的数据不会被包含在结果的地理分区要素数据集中,在 WPS 客户端中如果输入文本串为范围,格式为 xmin,ymin,xmax,ymax | Envelope |