热点分析

使用说明

对点线面数据集进行热点分析。待分析的数据集必须具备ID。返回的结果类型为要素数据集(FeatureRDD)。

热点分析是给定一组加权要素,使用局部 General G 指数统计识别具有统计显著性的热点和冷点。热点分析会查看邻近要素环境中的每一个要素,因此,仅仅一个孤立的高值不会构成热点,单个要素以及它的邻居都是高值才算是热点。

分析原理

在衡量高低值聚类的时候,通常需要用 General G 指数。在热点分析工具中,z 得分和 p 值都是统计显著性的度量,用于逐要素地判断是否拒绝零假设。置信区间(Gi_Bin字段) +3 到 -3 中的要素反映置信度为 99% 的统计显著性,置信区间 +2 到 -2 中的要素反映置信度为 95% 的统计显著性,置信区间 +1 到 -1 中的要素反映置信度为 90% 的统计显著性;而置信区间 0 中要素的聚类则没有统计学意义。

如果要素的 z 得分高且 p 值小,则表示有一个高值的空间聚类。如果 z 得分低并为负数且 p 值小,则表示有一个低值的空间聚类。z 得分越高(或越低),聚类程度就越大。如果 z 得分接近于零,则表示不存在明显的空间聚类。

应用案例

应用领域包括:犯罪分析、流行病学、投票模式分析、经济地理学、零售分析、交通事故分析以及人口统计学。其中的一些应用示例包括:

  • 疾病集中爆发在什么位置?
  • 何处的厨房火灾在所有住宅火灾中所占的比例超出了正常范围?
  • 紧急疏散区应位于何处?
  • 密集区出现于何处/何时?
  • 我们应在哪些位置和什么时间段分配更多的资源?

返回结果

热点分析的结果数据集中包括z得分(GIZSCORE)、P值(GIPVALUE)和置信区间(GI_CONFINVL)。z得分和P值都是统计显著性的度量,用于逐要素的判断是否拒绝零假设。置信区间字段会识别具有统计显著性的热点和冷点。置信区间为+3和-3的要素反映置信度为99%的统计显著性,置信区间为+2和-2的要素反映置信度为95%的统计显著性,置信区间为+1和-1的要素反映置信度为90%的统计显著性,而置信区间为0的要素的聚类则没有统计意义。如下表所示:

z得分(标准差) P值(概率) 置信度 GI_CONFINVL值
< -1.65 或 > 1.65 < 0.10 90% -1 , 1
< -1.96 或 > 1.96 < 0.05 95% -2 , 2
< -2.58 或 > 2.58 < 0.01 99% -3 , 3

参数说明

参数名 默认值 参数释义 参数类型
输入的要素数据集 输入的要素数据集 FeatureRDD
评估字段 评估字段 String
空间关系概念化模型 空间关系概念化模型,支持反距离“InverseDistance”,反距离平方“InverseDistanceSquared”,固定距离“FixedDistanceBand”,K近邻“KNearestNeighbors”,无差别区域“ZoneOfIndifference” JavaConceptualizationModel
中断距离容限
(可选)
0.0 Meter 中断距离容限,输入格式如“10 Meter”,当概念化模式为 KNearestNeighbors 时无效。 JavaDistance
反距离幂指数
(可选)
1.0 反距离幂指数,只有当概念化模式为 InverseDistance、InverseDistanceSquared 和 ZoneOfIndifference 时有效。 Double
邻近相邻对象数目
(可选)
0 k邻近相邻对象数目,当概念化模式为 KNearestNeighbors 才有效 Integer
自身权重字段
(可选)
自身权重字段 String
是否进行 FDR(错误发现率)校正
(可选)
false 是否进行 FDR(错误发现率)校正,在 isFDRAdj 为 false 时,统计显著性以P值和Z字段为基础,否则,确定置信度的关键P值会降低以兼顾多重测试和空间依赖性 Boolean