大数据工具分区参数说明

在使用处理自动化工具中的大数据工具时,采用分布式读写数据时,您可能需要在工具-“高级设置”中设置分区参数,包括分区字段、分区数、ID字段、分区条件数组等,下面将对这些参数进行说明。

当不在工具-“高级设置”中设置这些分区参数时,默认使用数据集的主键字段,作为分区字段,分区数量等于CPU的核数。

参数说明

参数名 参数说明
分区字段 指定一个字段作为分区字段,该字段必须是数值型(整型、浮点型)。
分区数 指定分区数,分区数和集群的计算资源相关。可参考:(1)根据集群的CPU核数,通常分区数为核数的2倍;(2)每个分区内的数据量控制在20000至50000之间。
ID字段 指定源数据集中的一个字段,作为FeatureRDD的唯一标识字段,该字段值必须唯一。
分区条件数组 您可以设置分区条件,自定义分区。详见下方“分区条件数组输入说明”。

分区条件数组输入说明

  • 分区条件数组需保证所有字段值均包含在分区范围内,避免丢失数据,且以数据量均匀分布的原则设置分区范围。
  • 多个分区范围以逗号, 连接,一个分区的上界和下界,使用 and 连接。
  • 当您设置了“分区字段”,可在“分区条件数组”自定义区间范围,例如“分区字段”设置为1-100顺序递增的ID字段,可在“分区条件数组”将ID字段划分为[ 1, 30) , [ 30, 60 ], [ 60, 100 ] 三个分区。
  • 当您没有设置“分区字段”,可在“分区条件数组”直接输入分区条件,这里可使用任意字段作为分区条件,但必须满足:
    1. 字段类型、字段值可以很容易的定义范围和进行比较,比如数值型、日期型字段适合作为分区条件中的字段。
    2. 分区字段值不一定要求唯一,但字段值尽可能的分布均匀,保证每个分区负载均衡;
    3. 分区字段的选择应该符合业务逻辑和查询模式。例如,如果经常根据某个字段进行查询或过滤操作,那么将该字段设置为分区字段可以提高查询效率。

举例说明:如下图所示,主键为varchar类型的uuid,通过分析选择date类型字段create_at作为分区字段。分区一范围:( '2024-10-29 09:10:25.000', '2024-10-29 09:10:28.000' ] , 分区二范围:[ '2024-10-29 09:10:28.000', '2024-10-29 09:10:47.447' ],两个分区范围包含了所有数据记录。

分区条件数组可输入为:created_at >= '2024/10/29 09:20:25.000' and created_at < '2024/10/29 09:20:28.000', created_at >= '2024/10/29 09:20:28.000' and created_at <= '2024/10/29 09:20:47.447', 或者输入为:created_at < '2024/10/29 09:20:28.000', created_at >= '2024/10/29 09:20:28.000'。