空间抽样与统计推断

收集数据是数据分析的起点,既可以穷尽枚举,也可以抽样调查获得样本(sample),用样本推断总体属性。地学实践中,抽样的目的是通过样本对总体进行估算(如区域口数、人口密度、气候变化、污染量、疾病流行率等),包括对区域总量或均值进行估计,对区域未抽样点估值(空间插值),用样本回归关系估计总体回归关系。空间抽样的核心任务是确定样本量、抽样位置、样本估值及其相对于总体的误差。空间抽样广泛应用于社会经济、资源环境、土地利用和公共健康等领域调查。

然而,抽样过程中地理信息的空间相关性和空间异质性很少被考虑,各种应用多基于经验进行抽样。《地理信息 空间抽样与统计推断》国家标准(GB/Z 33451-2016)(Geographic information-Spatial sampling and statistical inference,简称为SSSI国标)是以中国科学院地理科学与资源研究所王劲峰研究员提出的“三位一体空间统计框架(Spatial Statistic Trinity ,SST)和以空间分异性统计理论(Statistics for Spatial Stratified Heterogeneity,SSH)等为核心的系列理论模型为依据,由其为第一起草人的国家标准化指导性技术文件。该指导性技术文件充分考虑了调查对象在大尺度上的空间异质性和小区域内的空间相关性,以及样本的空间分布特征,为根据不同调查对象的特点选择合适的空间抽样方法和统计模型,提供指导性标准。(更多关于SSSI的内容可访问www.sssampling.cn)

为了完善产品对于空间统计领域的功能支持,我们将SSSI国标中的指导性技术方法引入SuperMap GIS 中,提供了多种针对不同空间分布特征数据的空间抽样与统计推断方法,其中包括空间随机抽样、空间系统抽样、空间分层抽样、B-SHADE方法、SPA方法和Sandwich(三明治)方法等。传统抽样方法也可用于空间分布对象的抽取和推断,但效率较低,即与空间抽样方法相比,传统抽样方法需要用更大的样本量或得到精度较低的估值,甚至有偏。

空间抽样与统计推断的基本过程一般分为三个阶段:第一阶段为进行空间抽样,任务是计算样本量和生成样本点;第二阶段为现场调查获取样本值;第三阶段为统计推断。需要抽样调查时,应从第一阶段起步,顺序进行。若已有样本数据,则直接进入第三阶段。第一阶段的抽样方法需要依据总体的特征进行选取,统计推断模型的选取需要依据总体和调查所得样本进行。

下面是空间抽样与统计推断模块的具体方法:

  • 单点地域估计:使用SPA模型进行单点观测值的区域推断。
  • BShade抽样:使用Bshade模型进行有偏样本的空间抽样。
  • BShade预测:使用Bshade模型进行有偏样本的统计推断。
  • 随机抽样:在地理空间上等概率地抽取若干个样本,考虑空间自相关性、空间异质性等空间属性的各种抽样方法和抽样方案,包括简单随机抽样、系统随机抽样、空间简单随机抽样、分层随机抽样、空间分层随机抽样、三明治随机抽样六种方式。
  • 统计推断:分析样本数据的空间分布规律和空间趋势,判断是否存在空间自相关(可用空间统计),然后可以基于样本数据对总体数据的总量或均值等进行估计,如区域人口数、人口密度、气候变化、污染量、疾病流行率等。提供与“随机抽样”下对应的六种模型的统计推断方法。

抽样方法选择:

根据模型方法的适用条件选取相应的模型,根据调查目标和可获取的先验知识,选择适当的抽样方法和统计推断模型。不同抽样方法适用情况可参考抽样模型介绍

相关主题

单点地域估计

BShade抽样

BShade预测

随机抽样

统计推断