将SQL查询结果保存到文件

使用说明

将DataFrame(数据表)存储形式的查询结果以指定的格式(Json、CSV或者Parquet)输出到文件中。

DataFrame(数据表)是Spark SQL引入的结构化数据存储方式,使我们能使用SQL语句进行分布式数据的读取和计算,DataFrame的底层仍然是RDD。

查询结果为DataFrame(数据表)存储形式的查询工具有:

  • 数据表SQL查询
  • 要素数据集SQL查询
  • 数据库ECQL过滤读取

参数说明

参数名 默认值 参数释义 参数类型
查询数据表 指定待输出的查询结果的数据表(DataFrame)。 Dataset
文件保存位置 指定结果文件的保存路径。 String
文件内容格式 文件内容格式,目前仅支持csv、json、parquet格式。 String
输出行数
(可选)
0 将查询数据表中指定行数的记录进行输出,默认为不限制(0)。 Integer
是否覆盖
(可选)
true 如果指定的位置有同名文件,是否覆盖。默认为true,表示覆盖;否则为追加模式,即在该文件尾部追加本次输出内容。 Boolean
输出的参数设置
(可选)
其他输出设置,例如:若保存文件格式为csv,当需要输出表头,那么该参数设置为:header=true。多个参数用分号;分隔,如sep=,;header=true表示输出表头,使用逗号作为分隔符 String

输出结果

将SQL查询结果保持到文件工具的输出结果为结果文件的全路径字符串。