随机抽样

使用说明

在地理空间上等概率地抽取若干个样本,考虑空间自相关性、空间异质性等空间属性的各种抽样方法和抽样方案,包括简单随机抽样、系统随机抽样、空间简单随机抽样、分层随机抽样、空间分层随机抽样、三明治随机抽样六种方式。

功能入口

  • 空间统计分析 选项卡-> 空间抽样与统计推断 ->随机抽样。(iDesktopX)
  • 工具箱 -> 空间统计分析 -> 空间抽样与统计推断 -> 随机抽样 。(iDesktopX)

参数说明

  • 源数据 :设置待进行随机抽样的数据集及所在数据源。
  • 抽样范围/分层数据 :设置抽样范围或分层数据集及所在数据源。分层数据指的是基于知识经验、历史数据和辅助数据对研究区域按照层内方差最小、层间方差最大(空间分异性显著)的目标对研究区进行分层得到的。划分层既可以是地理空间也可以在属性空间,即分类,同一层不要求连片。
  • 报告单元数据 :设置三明治随机抽样的报告单元数据集及所在数据源。报告单元是在“三明治”模型中,顶层的各单元,可以是行政单元、自然单元、格网单元、或用户感兴趣的其他任意空间单元。最后结果是对每个报告单元的估计值。 (只在选择 三明治随机抽样 方法时需要设置)
  • 参数设置 :根据不同随机抽样类型进行设置。

    • 随机抽样类型:包括简单随机抽样、系统随机抽样、空间简单随机抽样、分层随机抽样、空间分层随机抽样、三明治随机抽样六种方式,根据数据特征选择合适的抽样模型进行空间抽样。
    • 是否使用比例值 :取值类型有两种刻度值和比例值
    • 不勾选 :表示使用刻度值。刻度值有量纲,例如:温度(摄氏度)、降水量(毫米)、产量(吨)、重金属含量(克每立方厘米)、人口密度(人数每平方公里)。
    • 勾选 :表示使用比例值。比例值无量纲,例如:种植成数(%)、发病率(%)、男女性别比(%)等。
    • 抽样分辨率:对于矢量底图,在抽样过程中,需要对底图格网化得到抽样空间(格网化后的每个格网为一个可能被抽到的样本单元)。抽样分辨率就是每个最小格网的宽度。
    • 抽样放大比例:实际的采样样本量是根据用户输入参数计算得到的理论值乘以样本扩大比例得到的样本个数扩大的百分比。有些样本不可获得或者可能样本数据丢失,因此根据用户选择的扩张比例,将计算出来的样本量按照一定比例增加,作为用户最后得到的样本。默认为0.1。
    • 空间相关系数 :可以通过空间自相关功能计算出莫兰指数。(只在选择 空间简单随机抽样 方法时需要设置)
    • 抽样计算函数 :计算抽样样本量的函数。根据选择抽样模型和选择的输入值类型的不同,计算样本量用到的所有函数也各异。
    • 简单随机、系统、空间随机抽样模型,计算样本量用到的函数如下图所示:
    • 分层抽样、空间分层抽样、“三明治”抽样模型在计算样本量用到的所有函数如下图所示:|
    • 相关参数解释如下:
    • 总体方差 :抽样空间中真实的方差(每个可能样本得到的测量值计算得到的方差),一般来源于上一次调查或者相关的历史资料,无法精确获得。
    • 用户期望方差 :用户希望在本次抽样调查中得到的估值方差。
    • 总费用 :抽样总的费用预算(只有参考价值,没有参与计算,对基本费用和单个样本费用没有约束作用)。
    • 初始费用 :指定的初始费用。
    • 各层方差字段 :指定的各层方差字段名称。
    • 各层耗费字段 :指定的各层耗费字段名称。
    • 绝对误差 :估计值减真实值。在抽样理论中,指总体估计值的方差。
    • 相对误差 :抽样均值减去实际目标对象值除以目标对象值。
    • 置信区间参数 :根据均值正态分布假设,用户希望在多大程度上相信得到的结果可信。用户得到结果的可信程度通过(1-alpha/2)%来表示。
    • 初始迭代样本量:在计算抽样样本量的时候,需要利用到t分布,t分布值计算需要2个参数:一个是样本量,一个是alpha。而在计算中t分布会用很多次,样本量通过迭代计算,最后收敛而得到,初始迭代样本量就是第一次用于计算t值的样本大小,系统默认为1。(最好不要修改)
    • 预抽样均值 :用户在正式抽样之前,进行一定范围的调查,得到样本的均值。
    • 预抽样方差 :预抽样时,得到样本方差。
    • 预抽样样本量 :预抽样时,得到采样用到的样本个数。
    • 变异系数 :标准差与均值的比值称为变异系数,记为C.V。变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。
    • 抽样放大比例 :实际的采样样本量是根据用户输入参数计算得到的理论值乘以样本扩大比例得到的样本个数扩大的百分比。有些样本不可获得或者可能样本数据丢失,因此根据用户选择的扩张比例,将计算出来的样本量按照一定比例增加,作为用户最后得到的样本。
    • 总体比例值 :用来表示调查目标的值的百分比。
    • 是否耗费未知 :设置是否耗费未知。
    • 各层方差字段 :指定的各层方差字段名称。
  • 结果数据 :设置结果数据集及所在数据源。

应用案例

为了解1998年山西省和顺县总的人口数,需要从326个行政村中,以10个镇为层分层抽取行政村进行抽样调查,要求估算总人口的标准差不超过12626,即软件中设置的估算总人口均值方差不超过1500,各镇所含行政村的数量已知,由以往调查数据可估算得到各分层村人口数量的标准差。

  • 案例数据 :单击此处可下载分层随机抽样及预测推断的案例数据,下载后解压即可。

    • hs_samplingframe :行政村点数据集;
    • hs_town :镇行政区划数据,作为分层数据,属性表中的CODE为镇的编号,NAME为镇名,NUM为该镇的行政村数量,STDEV为以往调查的该镇人口的标准差;

TownData

  • 参数设置 :下载上述案例数据后,在桌面打开 RandomSamplingData.udbx,参数设置如下图所示,设置源数据、分层数据、抽样类型、计算函数、总体方差等参数后,单击 执行 按钮,即可进行分层随机抽样。

RandomSamplingSetting

  • 结果说明 :根据上述的参数抽样出55个行政村为样本点,其中,LayeredID为分层图层的ID,LayeredPopulationSize为样本点所在层所有的村庄总个数。样本点数据的空间和属性信息如下:

RandomSamplingResult

  • 结果处理:得到样本点数据后,需用户自己输入样本行政村的人口数。操作步骤为:

    1. 新建字段:选中result_RandomSampling数据集,单击鼠标右键选择“ 属性 ”,在 属性表 面板中新建Value字段(16位整型)。
    2. 输入属性:依次输入每个样本点的人口总数,处理后数据信息如下:

RandomSamplingResult1