关于地统计的一些知识点

发布时间:2025-12-09 17:09:46 浏览次数:3

地统计

  • 一、地统计
  • 二、区域化变量
  • 三、地统计与经典统计学的对比
  • 四、采样方法
  • 五、随机变量
  • 六、异常值
  • 七、散点图
  • 八、相关系数
  • 九、空间局限性
  • 十、不同程度的连续性
  • 十一、不同程度的各向异性
  • 十二、假设
  • 十三、协方差函数和变异函数的使用条件
  • 十四、估计误差
  • 十五、克里金估值过程
  • 十六、变异函数理论模型的分类
  • 十七、变异函数的套合结构
  • 十八、各向异性
  • 十九、步长
  • 二十、克里金法
  • 二十一、克里金分类:
  • 二十二、平稳/非平稳对比
  • 二十三、计算克里金权重系数的约束条件

一、地统计

地统计学是以区域化变量理论为基础,以变异函数为主要工具,研究在空间分布上既有随机性又有结构性,或空间相关和依赖性的自然现象的科学

二、区域化变量

定义:以空间点x的三个直角坐标𝑥௨, 𝑥௩, 𝑥௪为自变量的随机函数,称为区域化变量,或区域化随机变量。
当一个变量呈现一定的空间分布时,称之为区域化。
区域化变量是用以描述某种现象的空间分布特征的变量,用区域化变量描述的现象称为区域化现象。
区域化变量与一般随机变量的不同之处:一般的随机变量取值符合一定的概率分布,而区域化变量根据区域内位置的不同而取不同的值区域化变量的取值与位置有关;在任何一个固定的位置,区域化变量是一般的随机变量。
两个显著特征:
1.随机性
区域化变量是一个随机变量,它具有局部的、随机的和异常的特征
2.结构性
区域化变量具有一定的结构特点:即变量在空间任意两点x及x+h(h为向量)处的值Z(x)和Z(x+h)具有某种程度的相关性,这种相关程度依赖于两点间的向量h及变量特征,这称为空间自相关。

三、地统计与经典统计学的对比

在统计学中,通常假定样本是完全随机也就是说样本在空间上是完全独立
的,根据样本数据资料可以计算随机变量的均值、方差等统计量。由于假定样本是完全独立的,统计量的计算过程中,样本的空间位置就不需要考虑。
地统计学是统计学的发展,它所研究的变量为区域化变量,在空间上不一定是完全随机的或完全独立的,即有随机性又有结构性,对于样本数据资料,除了需要计算变量的均值和方差等统计量,还需要计算变量的空间变异结构。由于样本在空间上可能是相互联系的,因此应该分析样本的空间位置是否含有必要的信息,即需要揭示变量的空间连续性

四、采样方法

  • 采样/抽样/取样:是从总体中选择样本以估计总体特征的过程
  • 为了保证采样的可靠性,对于比较简单的研究对象,可以视不同条
    件按照三种方式进行采样:
    (1).(简单)随机采样
    总体中每个个体被采集的机会完全相同。
    优点:◼每个个体被抽中的概率相等,个体之间完全独立,彼此间无一定的关联性和排斥性。
    缺点:◼容易得到在空间内非均匀分布的样本,在样本量较小的情况下尤为显著;
    ◼仅适用于个体之间不存在空间自相关关系(空间自相关即相邻样点在性质上有相似性,且越相邻越相似)的总体。
    (2).系统采样
    按照某种事先确定好的有规律的间隔从已排序总体中抽取个体。
    优点:◼所得样本在采样空间或时间中分布均匀
    ◼对具有空间自相关性的总体,系统采样比随机采样更为有利。 缺点:◼对于空间采样,系统采样要求准确地在网格中心位置采样有时是不可行的。
    (3).系统-随机采样
    综合系统采样和随机采样两者特点。首先,像系统采样那样将排序后的总体划分为若干间隔,使间隔数等于样本量;然后,在每个间隔中用随机方式抽取一个个体。
    ◼兼有系统和随机采样两者的优点:既保证了样本的随机性,又不受制于准确地在网 格中心采样、具有一定的灵活性。
  • 五、随机变量

    随机变量的数字特征
     分布特征:总体中个体的分布形式;代表随机变量全貌的综合特征;
    1. 频数,频率,累积频率
    2.偏度系数

    3.峰态系数:尖峰态和低峰态

    3.大小特征:在数轴上的位置,即取值大小,代表数据的集中趋势;
    均值,中位值,众数
    4.离散特征:总体中个体的分散程度,代表数据的离中趋势。
    离差 ;(离差)平方和;方差;标准差
    消除求平方对量值上的影响,与原始数据具有可比性
    5.变异系数;

    六、异常值

    异常值(outlier)又称为离群值,指样本中出现概率很小的值
    统计 vs. 非统计
    统计异常值:纯属偶然,属于研究的总体
    非统计异常值:源于采样失误等人为错误, 不属于研究的总体
    局部 vs. 全局
    全局异常值:相对于数据集中的所有值而言具有非常高值或非常低值
    局部异常值(空间异常值):相对于周围数据来说异常高值或异常低值

    全局异常值的判断(假设检验): 假设数据服从近似正态分布(不是完全的正态分布,完全的正态分布是没有异常值的)假设检验是单个异常值检验的推荐方法
    对于非统计异常值,可以直接剔除
    对于统计异常值,不能轻易剔除
    对于空间异常值,可以使用稳健(Robust)地统计方法剔除

    七、散点图

    散点图是显示双变量资料的一种最常用的方法,散点图是一种x-y图,即x坐 标轴对应一个变量的数据值,y坐标轴对应同一位置上另一个变量的数据值。

    八、相关系数

    相关系数取值介于-1到1之间
    相关系数= -1,完全负相关
    相关系数= 0,完全不相关
    相关系数= 1,完全正相关

    常用的相关系数
    皮尔森相关系数的适用条件:两个变量均服从正态分布且两变量为线性关系
    斯皮尔曼相关系数的适用更广:排序数据;数据不服从正态分布;两变量为非线性关系

    决定系数 𝑅平方等于相关系数 𝑟的平方
    相关系数反映了两个变量的相关性
    决定系数反应了回归方程的拟合优劣,表明了回归方程对因变量的预测效果
    两个变量的相关性越高,利用其中一个已知变量来预测另一个变量的效果就越好

    九、空间局限性

    空间局限性,即区域化变量的结构性表现在一定空间范围内;区域化变量的空间自相关性只存在一定的空间范围内,超过该范围就不在存在空间自相关。

    十、不同程度的连续性

    不同的区域化变量具有不同程度的连续性。

    十一、不同程度的各向异性

    各向异性即各个方向表现出的自相关性有所区别
    各向异性显示一个方向的自相关性有别于另一个方向。不同程度的各向异性也就是需要考虑方向对空间自相关的影响
    需要区分两种类型的方向:全局趋势和各向异性

    十二、假设

    平稳假设
    定义:设某一区域化变量Z(x)的任意n维分布函数不因空间点x发生位移h而改变,则称区域化变量Z(x)为平稳的。

    二阶平稳假设
    二阶平稳假定区域化变量Z(x)满足以下两个条件:
    Z(x)的均值不随位置x变化
    协方差函数𝐶𝑜𝑣【𝑍(𝑥),𝑍(𝑥+ℎ)】只取决于分割它们的向量h

    内蕴假设
    如果将对区域化变量Z(x)的要求进一步放宽,在以下条件下,Z(x)满足内蕴假设(也称为固有假设):
    Z(x)的增量[Z(x)-Z(x+h)]的均值为零
    Z(x)的增量[Z(x)-Z(x+h)]的方差函数𝑉𝑎𝑟【𝑍(𝑥)-𝑍(𝑥+ℎ)】只取决于分割它们的向量h
    严格性从大到小为:平稳假设、二阶平稳假设和内蕴假设

    十三、协方差函数和变异函数的使用条件

    如果区域化变量𝑍(𝑥)满足二阶平稳假设,能计算协方差函数𝐶(ℎ)和变异函数𝛾(ℎ);
    如果区域化变量𝑍(𝑥)满足内蕴假设,只能计算变异函数𝛾(ℎ);𝛾(ℎ)在𝑍(𝑥)没有有限方差的情况下仍可以存在。
    因此,变异函数𝛾(ℎ)的使用比协方差函数𝐶(ℎ)更加广泛

    如果𝑍(𝑥)满足二阶平稳假设,其协方差函数𝑪(𝒉)和变异函数𝛾(ℎ)存在且平稳。
    如果𝑍(𝑥)满足内蕴假设,变异函数𝛾(ℎ)存在且平稳。
    𝛾(ℎ)在𝑍(𝑥)没有有限方差的情况下仍可以存在,其使用比𝐶(ℎ)更加广泛,𝛾(ℎ)是地统计中描述区域化变量空间变异性的主要工具。
    如果𝑍(𝑥)满足相应的假设条件,可利用𝑍(𝑥)的样本可计算实验协方差函数𝐶∗(ℎ)和实验变异函数𝛾∗(ℎ)。
    在计算实验变异函数𝛾∗(ℎ)时,要特别注意由于𝑍(𝑥)满足内蕴假设(对任意h,有𝐸[𝑍𝑥]=𝐸[𝑍𝑥+ℎ]=𝑚),其计算公式得以简化,从而有别于方差的计算公式。

    十四、估计误差

    估值的不确定性
    估计量是人们对未知变量值的可能取值范围所做的合理而有用的猜测,因此,不论选用何种估值方法,都存在着误差,所以有必要研究引起误差的可能因素和误差范围。
    若区域化变量𝑍 𝑥 满足二阶平稳假设,在某一点处的实际值为𝑍 𝑥 ,其估计
    量为𝑍∗( 𝑥)
    则,估计误差为 𝑅(𝑥)= 𝑍(𝑥)− 𝑍∗(𝑥)
    估计方差即估计误差的方差,为 𝜎𝐸2 = 𝑉𝑎𝑟[ 𝑍(𝑥)−𝑍∗ (𝑥) ]= 𝑉𝑎𝑟 [𝑅(x)]

    线性无偏估计

    判断估计量好坏的两个最重要的标准:
    1.无偏性
    所有待估点的估计误差平均值为零,此时称估计是无偏的,可表示为:
    𝐸[𝑅(𝑥)]= 𝐸[𝑍∗(𝑥)−𝑍(𝑥)]= 0
    2.最优性
    最优性是指,在估计时,除希望估计的平均值与实际值的平均值相同外,还希望大多数误差的绝对值要小一些,并在某一确定值周围波动,即估计误差𝑅 𝑥 的分布具有较小的离散型。

    十五、克里金估值过程

    十六、变异函数理论模型的分类

    有基台值模型包括:
    球状模型指数模型高斯模型纯块金效应模型
    无基台值模型包括:
    线性无基台值模型幂函数模型对数模型
    孔穴效应模型包括:
    有基台值孔穴效应模型无基台值孔穴效应模型

     模型参数估计包括对变程、基台值、和块金值的估计;主要方法是自动拟合;需要对参数值进行优化。

    球状模型

    指数模型

    高斯模型

    纯块金效应模型


    交叉验证判断理论模型
    平均误差尽可能接近0
    均方根误差尽可能小
    标准平均值误差尽可能接近0
    标准均方根误差尽可能接近于1
    平均标准误差尽可能小
    看预测图中的蓝色灰色线谁更接近

    十七、变异函数的套合结构

    1.结构分析
    定义
     计算出实验变异函数散点图后就可以采用合适的理论模型对其进行拟合。然而,现实中区域化变量的变化性很复杂,难以用一个理论模型来拟合它:
     在不同方向上有不同的变化性(各向异性)
     在同一个方向上包含者不同尺度的多层次变化性(多尺度性)
     若要全面掌握区域化变量的变异性,就需要进行结构分析。
     结构分析就是通过构造一个变异函数理论模型对于全部的有效结构信息作定量化概括,以表征区域化变量的主要特征
    2.单一方向上的套合
    单一方向上的套合结构将单一方向上不同尺度的变异性结合起来。
    适用条件:描述区域化变量同一方向(或各向同性的)但具有不同尺度的多
    层次变化性。

    十八、各向异性

    各向异性有两种类型:
    1.几何各向异性:变程随方向变化,而基台值保持一个常量。
    2.区域各向异性:也称为带状各向异性,基台值随方向变化,而变程保持一个常量也可以不同

    十九、步长

    步长大小的选择对于变异函数建模有着重要的影响
    如果步长过大,可能掩盖区域化变量的局部微观结构。
    如果步长过小,可能会有许多空组或组内的样点对很少,从而使实验变异函数值的可靠性变差。
    在每一组内的样点对一般应大于30。
    网格采样:格网间距通常可准确地表示步长大小。
    非规则或随机采样:(ArcGIS中)
    1.经验法则:步长数× 步长大小≈ 所有样点之间最大距离的一半
    2.平均最近邻工具
    3.利用优化按钮

    变异函数表面是一个颜色编码的实验变异
    函数值的栅格图:
     栅格的大小等于步长大小;
     一个栅格表示分隔距离和方位角相同的组;
     栅格的值等于该组的实验变异函数值;
     表面图的中心表示表面中心点(控制点);
     向量从表面图的中心径向延伸表示样点对方向;
     向量长度表示样点对的分隔距离。

    二十、克里金法

    1.克里金法又称为空间局部估计或空间局部插值法,其实质是利用区域化变量的原始数据和变异函数的结构特点,对未采样点的区域化变量的取值进行线性无偏最优估计
    2.克里金法是一种空间估计(空间插值方法):输入离散点,输出连续表面
    3.克里金法是一种局部性插值方法:也就是用未知点邻域范围内的点、而非全部已知点来估计未知点的值。
    4.克里金法也称为空间非确定性插值:除了使用距离来进行加权以外,还会考虑数据的空间自相关表达出来的总体分布特征(通过变异函数和结构分析来表示)

    1.克里金估计量为线性无偏最优估计
    线 性:对于任意待估点,克里金估计量表示为估计邻域内的n个样品值的线
    性加权组合
    无偏性:平均估计误差接近零
    最优性:估计方差最小
    2.克里金估计方差:与其他的估计方法相比,使估计方差最小是克里金方法的显著优点

    二十一、克里金分类:


    简单/普通克里金与泛克里金使用范围对比
    泛克里金法适用于具有局部趋势的情况;
    简单/普通克里金法不能移除局部趋势,不适用于存在局部趋势的情况;
    如果不存在明显的局部趋势,简单/普通克里金与泛克里金的结果非常相似

    二十二、平稳/非平稳对比

    1.平稳和非平稳不是研究现象本身所固有的不可改变的属性,平稳与否取决于观测尺度的大小、采样点的密集程度。同一个现象,在不同尺度观测,平稳与非平稳的结论会不同
    2. 平稳和非平稳不是研究现象本身所固有的不可改变的属性,平稳与否取决于观测尺度的大小、采样点的密集程度。采样数据的密度也会影响平稳与否

    二十三、计算克里金权重系数的约束条件

    无偏性:平均估计误差接近零
    最优性:估计方差最小

    需要做网站?需要网络推广?欢迎咨询客户经理 13272073477