数据集缓存

使用说明

时空大数据的分析与挖掘往往包含较为复杂的数据处理和科学计算过程,在同一个处理自动化模型中,可能出现多个处理流程都需要经过某个分析算子的运算过程,当同一个模型中一个算子重复使用时,会多次执行这个算子及其前置算子的计算过程,降低了模型的执行效率。

我们可以将需要重复使用的算子结果进行缓存,通过对缓存数据的重复利用减少前置节点的计算过程。

数据集缓存 可以对输出为FeatureRDD的算子结果进行缓存,同类型算子还有【DSF数据集缓存】 和【栅格数据集缓存】。

参数说明

参数名 默认值 参数释义 参数类型
源数据 源数据 FeatureRDD
缓存等级 缓存等级。MEMORYONLY性能最高,内存消耗也最高,针对于内存足够或者数据集内容较小的情况;MEMORYONLYSER性能比较高,对象会序列化节省空间,内存消耗也较高;MEMORYANDDISKSER会将内存放不下部分写入到磁盘,对象会序列化节省空间,性能较低;MEMORYANDDISK会将内存放不下部分写入到磁盘,性能最低,适合数据量较大且对性能指标不太敏感的场景。 JavaRDDCacheLevel