使用说明
对点线面数据集进行热点分析。待分析的数据集必须具备ID。返回的结果类型为要素数据集(FeatureRDD)。
热点分析是给定一组加权要素,使用局部 General G 指数统计识别具有统计显著性的热点和冷点。热点分析会查看邻近要素环境中的每一个要素,因此,仅仅一个孤立的高值不会构成热点,单个要素以及它的邻居都是高值才算是热点。
分析原理
在衡量高低值聚类的时候,通常需要用 General G 指数。在热点分析工具中,z 得分和 p 值都是统计显著性的度量,用于逐要素地判断是否拒绝零假设。置信区间(Gi_Bin字段) +3 到 -3 中的要素反映置信度为 99% 的统计显著性,置信区间 +2 到 -2 中的要素反映置信度为 95% 的统计显著性,置信区间 +1 到 -1 中的要素反映置信度为 90% 的统计显著性;而置信区间 0 中要素的聚类则没有统计学意义。
如果要素的 z 得分高且 p 值小,则表示有一个高值的空间聚类。如果 z 得分低并为负数且 p 值小,则表示有一个低值的空间聚类。z 得分越高(或越低),聚类程度就越大。如果 z 得分接近于零,则表示不存在明显的空间聚类。
应用案例
应用领域包括:犯罪分析、流行病学、投票模式分析、经济地理学、零售分析、交通事故分析以及人口统计学。其中的一些应用示例包括:
- 疾病集中爆发在什么位置?
- 何处的厨房火灾在所有住宅火灾中所占的比例超出了正常范围?
- 紧急疏散区应位于何处?
- 密集区出现于何处/何时?
- 我们应在哪些位置和什么时间段分配更多的资源?
返回结果
热点分析的结果数据集中包括z得分(GI_ZSCORE)、P值(GI_PVALUE)和置信区间(GI_CONFINVL)。z得分和P值都是统计显著性的度量,用于逐要素的判断是否拒绝零假设。置信区间字段会识别具有统计显著性的热点和冷点。置信区间为+3和-3的要素反映置信度为99%的统计显著性,置信区间为+2和-2的要素反映置信度为95%的统计显著性,置信区间为+1和-1的要素反映置信度为90%的统计显著性,而置信区间为0的要素的聚类则没有统计意义。如下表所示:
z得分(标准差) | P值(概率) | 置信度 | GI_CONFINVL值 |
< -1.65 或 > 1.65 | < 0.10 | 90% | -1 , 1 |
< -1.96 或 > 1.96 | < 0.05 | 95% | -2 , 2 |
< -2.58 或 > 2.58 | < 0.01 | 99% | -3 , 3 |
参数说明
参数名 | 默认值 | 参数释义 | 参数类型 |
---|---|---|---|
输入的要素数据集 | 输入的要素数据集 | FeatureRDD | |
评估字段 | 评估字段 | String | |
空间关系概念化模型 | 空间关系概念化模型,支持反距离,反距离平方,固定距离,K近邻,无差别区域 | JavaConceptualizationModel | |
中断距离容限 (可选) |
0.0 Meter | 中断距离容限,输入格式如“10 Meter”,当概念化模式为“K近邻” 时无效。 | JavaDistance |
反距离幂指数 (可选) |
1.0 | 反距离幂指数,只有当概念化模式为 “反距离”、“反距离平方” 和 “无差别区域” 时有效。 | Double |
邻近相邻对象数目 (可选) |
0 | k邻近相邻对象数目,当概念化模式为 “K近邻” 才有效 | Integer |
自身权重字段 (可选) |
自身权重字段 | String | |
是否进行 FDR(错误发现率)校正 (可选) |
false | 是否进行 FDR(错误发现率)校正,在为 false 时,统计显著性以P值和Z字段为基础,否则,确定置信度的关键P值会降低以兼顾多重测试和空间依赖性 | Boolean |