大数据工具分区参数说明

在使用处理自动化工具中的大数据工具时，采用分布式读写数据时，您可能需要在工具-“高级设置”中设置分区参数，包括分区字段、分区数、ID字段、分区条件数组等，下面将对这些参数进行说明。

当不在工具-“高级设置”中设置这些分区参数时，默认使用数据集的主键字段，作为分区字段，分区数量等于CPU的核数。

参数说明

参数名	参数说明
分区字段	指定一个字段作为分区字段，该字段必须是数值型（整型、浮点型）。
分区数	指定分区数，分区数和集群的计算资源相关。可参考：（1）根据集群的CPU核数，通常分区数为核数的2倍；（2）每个分区内的数据量控制在20000至50000之间。
ID字段	指定源数据集中的一个字段，作为FeatureRDD的唯一标识字段，该字段值必须唯一。
分区条件数组	您可以设置分区条件，自定义分区。详见下方“分区条件数组输入说明”。

分区条件数组输入说明

分区条件数组需保证所有字段值均包含在分区范围内，避免丢失数据，且以数据量均匀分布的原则设置分区范围。
多个分区范围以逗号, 连接，一个分区的上界和下界，使用 and 连接。
当您设置了“分区字段”，可在“分区条件数组”自定义区间范围，例如“分区字段”设置为1-100顺序递增的ID字段，可在“分区条件数组”将ID字段划分为[ 1, 30) , [ 30, 60 ], [ 60, 100 ] 三个分区。
当您没有设置“分区字段”，可在“分区条件数组”直接输入分区条件，这里可使用任意字段作为分区条件，但必须满足：
1. 字段类型、字段值可以很容易的定义范围和进行比较，比如数值型、日期型字段适合作为分区条件中的字段。
2. 分区字段值不一定要求唯一，但字段值尽可能的分布均匀，保证每个分区负载均衡；
3. 分区字段的选择应该符合业务逻辑和查询模式。例如，如果经常根据某个字段进行查询或过滤操作，那么将该字段设置为分区字段可以提高查询效率。

举例说明：如下图所示，主键为varchar类型的uuid，通过分析选择date类型字段create_at作为分区字段。分区一范围：（ '2024-10-29 09:10:25.000', '2024-10-29 09:10:28.000' ] , 分区二范围：[ '2024-10-29 09:10:28.000', '2024-10-29 09:10:47.447' ]，两个分区范围包含了所有数据记录。

分区条件数组可输入为：created_at >= '2024/10/29 09:20:25.000' and created_at < '2024/10/29 09:20:28.000', created_at >= '2024/10/29 09:20:28.000' and created_at <= '2024/10/29 09:20:47.447', 或者输入为：created_at < '2024/10/29 09:20:28.000', created_at >= '2024/10/29 09:20:28.000'。