Spark 集群优化配置

iServer 的分布式分析服务是基于 Spark 计算平台，提供 GIS 分布式分析处理的能力。不同的硬件环境、Spark 集群环境，以及不同大小的分析数据，都会影响分布式分析的性能表现。要达到最优的性能，就需要依据不同的使用场景进行优化配置。下面提供一些常用的优化配置方法，您可以根据具体环境来配置Spark，具体如下：

Spark 运行时，将启动 executor 执行任务，您可以依据您的机器实际情况，在 Spark 配置文件中调整分配给 executor 的内存（iServer Spark默认为4G），从而优化数据处理效率。具体方法为：

进入 Spark 安装包的 conf 目录，例如【iServer 安装目录】support\spark\conf，将 spark-defaults.conf.template 文件重命名为 spark-defaults.conf

用文档编辑器打开 spark-defaults.conf，添加：spark.executor.memory 8g

当分析的结果数据比较大时，spark 集群主节点从各个子节点收集结果数据，再存储到本地文件或 iServer DataStore 中，都会消耗系统硬件资源。为了提升分析效率，可采取以下优化配置方法：

修改 spark driver 内存
进入 Spark 安装包的 conf 目录，例如【iServer 安装目录】support\spark\conf，将 spark-defaults.conf.template 文件重命名为 spark-defaults.conf
用文档编辑器打开 spark-defaults.conf，添加：spark.driver.memory 5g
如果使用的是 iServer 内置的 spark ，则可以设置 Spark 主节点不参与分析任务
依次点击 spark 主节点所在的 iServer“集群”“加入集群”，取消掉“是否分布式分析节点”的集群报告器。

Spark中的调度模式主要有两种：FIFO（先进先出）和FAIR（公平调度）。其中，iServer Spark运行时，采用的是FAIR，即（公平调度）模式，并且支持并发处理多个分析作业。您可以依据您的实际情况选择设置。Spark默认模式为FIFO（先进先出）模式，如果您想要采用FAIR（公平调度）模式，可在Spark 配置文件中进行修改。具体办法为：

进入 Spark 安装包的 conf 目录，例如【iServer 安装目录】support\spark\conf，将 spark-defaults.conf.template 文件重命名为 spark-defaults.conf

用文档编辑器打开 spark-defaults.conf，添加：spark.scheduler.mode FIFO