使用说明
将DataFrame(数据表)存储形式的查询结果以指定的格式(Json、CSV或者Parquet)输出到文件中。
DataFrame(数据表)是Spark SQL引入的结构化数据存储方式,使我们能使用SQL语句进行分布式数据的读取和计算,DataFrame的底层仍然是RDD。
查询结果为DataFrame(数据表)存储形式的查询工具有:
- 数据表SQL查询
- 要素数据集SQL查询
- 数据库ECQL过滤读取
参数说明
参数名 | 默认值 | 参数释义 | 参数类型 |
---|---|---|---|
查询数据表 | 指定待输出的查询结果的数据表(DataFrame)。 | Dataset | |
文件保存位置 | 指定结果文件的保存路径。 | String | |
文件内容格式 | 文件内容格式,目前仅支持csv、json、parquet格式。 | String | |
输出行数 (可选) |
0 | 将查询数据表中指定行数的记录进行输出,默认为不限制(0)。 | Integer |
是否覆盖 (可选) |
true | 如果指定的位置有同名文件,是否覆盖。默认为true,表示覆盖;否则为追加模式,即在该文件尾部追加本次输出内容。 | Boolean |
输出的参数设置 (可选) |
其他输出设置,例如:若保存文件格式为csv,当需要输出表头,那么该参数设置为:header=true。多个参数用分号;分隔,如sep=,;header=true表示输出表头,使用逗号作为分隔符 | String |
输出结果
将SQL查询结果保持到文件工具的输出结果为结果文件的全路径字符串。