莫兰指数

统计学中，莫兰指数（Moran's I）是Patrick Alfred Pierce Moran提出的一种空间自相关度量。^[1]^[2]空间自相关即空间中邻近的位置之间存在相关性。空间自相关比一维自相关更复杂，因为空间相关性是多维的（即空间的二维或三维）和多方向的。

全局莫兰指数

全局莫兰指数（ $I$ ）是对空间数据的整体聚集的度量，其定义如下：

I={\frac {N\sum _{i=1}^{N}\sum _{j=1}^{N}w_{ij}(x_{i}-{\bar {x}})(x_{j}-{\bar {x}})}{W\sum _{i=1}^{N}(x_{i}-{\bar {x}})^{2}}}

其中：

$N$ 是空间单元的个数；
$i$ 和 $j$ 是两个空间单元的索引编号；
$x$ 是相关变量； ${\bar {x}}$ 是 $x$ 的平均值；
$w_{ij}$ 是空间单元 $i$ 和 $j$ 之间关系的空间权重，主对角线上取值为0（即 $w_{ii}=0$ ）；
$W$ 是所有 $w_{ij}$ 的总和。

定义空间权重矩阵

$I$ 的值可能很大程度上依赖空间权重矩阵 ${w ij}$ 中的假设。之所以需要该矩阵，是因为在处理空间自相关和建立空间相互作用模型时，需要约束予以考虑的邻居的数量。这与托布勒的地理学第一定律有关，该定律指出，所有事物都是相关的，但更接近的事物更相关——换句话说，该定律表明空间中存在距离衰减，尽管所有观测值都对其他观测值有影响，但在某个距离阈值后，其影响已经微弱得可以忽略不计。

其思路是构建一个矩阵，以准确地反映对讨论的特定空间现象的假设。一种常见的做法是，如果两个空间单元是邻居，则权重为1，否则为0（但“邻居”的定义可能会有所不同）。另一种常见的方法可能是给 $k$ 个最近的邻居赋予1的权重，其他为0。还有一种方法是使用距离衰减函数来分配权重。有时，共边的长度用于为邻居分配不同的权重。空间权重矩阵的选择应以研究的相关现象的理论为指导。 $I$ 的值对权重非常敏感，并且会影响对现象的结论，尤其是在使用距离时。

期望值

在不存在空间自相关的虚无假说下，莫兰指数的期望值为：

E(I)={\frac {-1}{N-1}}

对应该期望值的零分布是 $x$ 输入遵循随机均匀地选取的排列 $\pi$ 。

在大样本量下（即 $N$ 趋于无穷大时），期望值接近于零。

其方差等于

\operatorname {Var} (I)={\frac {NS_{4}-S_{3}S_{5}}{(N-1)(N-2)(N-3)W^{2}}}-(E(I))^{2}

其中

S_{1}={\frac {1}{2}}\sum _{i}\sum _{j}(w_{ij}+w_{ji})^{2}

S_{2}=\sum _{i}\left(\sum _{j}w_{ij}+\sum _{j}w_{ji}\right)^{2}

S_{3}={\frac {N^{-1}\sum _{i}(x_{i}-{\bar {x}})^{4}}{(N^{-1}\sum _{i}(x_{i}-{\bar {x}})^{2})^{2}}}

S_{4}=(N^{2}-3N+3)S_{1}-NS_{2}+3W^{2}

S_{5}=(N^{2}-N)S_{1}-2NS_{2}+6W^{2}

^[3]

$I$ 的值通常在−1到+1之间。显着低于 $-1/(N -1)$ 的值表示空间负相关（分散），显着高于 $-1/(N -1)$ 的值表示空间正相关（集聚）。对于统计假说检定，莫兰指数的值可以转换为Z-分数。

莫兰指数与吉尔里C数（英语：Geary's C）成负相关，但并不完全等同。莫兰指数是全局空间自相关的度量，而吉尔里C数对局部空间自相关更敏感。

局部莫兰指数

全局空间自相关分析只能得到一个概括整个研究区域的一个统计量。换句话说，全局分析假设空间是相对均质的。若该假设不成立，那么只有一个统计数据是意义不大，因为统计数据在空间上应该是不同的。

而且，即使不存在全局自相关或聚类，我们仍然可能通过局部空间自相关分析，在局部层面上找到聚类。“空间关联的局部指标”（local indicators of spatial association，LISA）利用莫兰指数是叉积总和这一事实，通过计算每个空间单元的局部莫兰指数并评估每个 $I i$ 的统计显著性来评估这些个体单元的聚类。局部莫兰指数最早由卢卡·安瑟林（英语：Luc Anselin）于1995年提出。^[4]由全局莫兰指数的等式可导出：

I_{i}={\frac {x_{i}-{\bar {x}}}{m_{2}}}\sum _{j=1}^{N}w_{ij}(x_{j}-{\bar {x}})

其中：

m_{2}={\frac {\sum _{i=1}^{N}(x_{i}-{\bar {x}})^{2}}{N}}

因此，

I=\sum _{i=1}^{N}{\frac {I_{i}}{N}}

$I$ 为衡量全局空间自相关性的全局莫兰指数， $I i$ 为局部莫兰指数， $N$ 为地图中分析单元的总数。

空间关联的局部指标可以用GeoDa软件来计算，其中就包含了局部莫兰指数的计算功能。^[5]

应用

莫兰指数广泛应用于地理学和地理信息科学领域。例子有：

健康变量的地理差异分析^[6]；
表征公共水中锂浓度对心理健康的影响^[7]；
方言学中，用来衡量区域语言变异的显著性^[8]；
地貌学研究中，用来定义有意义的地形分割的目标函数^[9]。

参见

参考文献

^ Moran, P. A. P. Notes on Continuous Stochastic Phenomena. Biometrika. 1950, 37 (1): 17–23. JSTOR 2332142. PMID 15420245. doi:10.2307/2332142.
^ Li, Hongfei; Calder, Catherine A.; Cressie, Noel. Beyond Moran's I: Testing for Spatial Dependence Based on the Spatial Autoregressive Model. Geographical Analysis. 2007, 39 (4): 357–375. doi:10.1111/j.1538-4632.2007.00708.x.
^ Cliff and Ord (1981), Spatial Processes, London
^ Anselin, Luc. Local Indicators of Spatial Association—LISA. Geographical Analysis. 1995, 27 (2): 93–115 [2022-06-28]. doi:10.1111/j.1538-4632.1995.tb00338.x. （原始内容存档于2022-07-12）.
^ Anselin, Luc. Exploring Spatial Data with GeoDa^TM: A Workbook (PDF). Spatial Analysis Laboratory: 138. 2005 [2022-06-28]. （原始内容 (PDF)存档于2021-06-14）.
^ Getis, Arthur. The Analysis of Spatial Association by Use of Distance Statistics. Geographical Analysis. 3 Sep 2010, 24 (3): 189–206. doi:10.1111/j.1538-4632.1992.tb00261.x .
^ Helbich, M; Leitner, M; Kapusta, ND. Geospatial examination of lithium in drinking water and suicide mortality. Int J Health Geogr. 2012, 11 (1): 19. PMC 3441892 . PMID 22695110. doi:10.1186/1476-072X-11-19.
^ Grieve, Jack. A regional analysis of contraction rate in written Standard American English. International Journal of Corpus Linguistics. 2011, 16 (4): 514–546. doi:10.1075/ijcl.16.4.04gri.
^ Alvioli, M.; Marchesini, I.; Reichenbach, P.; Rossi, M.; Ardizzone, F.; Fiorucci, F.; Guzzetti, F. Automatic delineation of geomorphological slope units with r.slopeunits v1.0 and their optimization for landslide susceptibility modeling. Geoscientific Model Development. 2016, 9: 3975–3991. doi:10.5194/gmd-9-3975-2016 .

[1] Moran, P. A. P. Notes on Continuous Stochastic Phenomena. Biometrika. 1950, 37 (1): 17–23. JSTOR 2332142. PMID 15420245. doi:10.2307/2332142.

[2] Li, Hongfei; Calder, Catherine A.; Cressie, Noel. Beyond Moran's I: Testing for Spatial Dependence Based on the Spatial Autoregressive Model. Geographical Analysis. 2007, 39 (4): 357–375. doi:10.1111/j.1538-4632.2007.00708.x.

[3] Cliff and Ord (1981), Spatial Processes, London

[4] Anselin, Luc. Local Indicators of Spatial Association—LISA. Geographical Analysis. 1995, 27 (2): 93–115 [2022-06-28]. doi:10.1111/j.1538-4632.1995.tb00338.x. （原始内容存档于2022-07-12）.

[5] Anselin, Luc. Exploring Spatial Data with GeoDa^TM: A Workbook (PDF). Spatial Analysis Laboratory: 138. 2005 [2022-06-28]. （原始内容 (PDF)存档于2021-06-14）.

[6] Getis, Arthur. The Analysis of Spatial Association by Use of Distance Statistics. Geographical Analysis. 3 Sep 2010, 24 (3): 189–206. doi:10.1111/j.1538-4632.1992.tb00261.x .

[7] Helbich, M; Leitner, M; Kapusta, ND. Geospatial examination of lithium in drinking water and suicide mortality. Int J Health Geogr. 2012, 11 (1): 19. PMC 3441892 . PMID 22695110. doi:10.1186/1476-072X-11-19.

[8] Grieve, Jack. A regional analysis of contraction rate in written Standard American English. International Journal of Corpus Linguistics. 2011, 16 (4): 514–546. doi:10.1075/ijcl.16.4.04gri.

[9] Alvioli, M.; Marchesini, I.; Reichenbach, P.; Rossi, M.; Ardizzone, F.; Fiorucci, F.; Guzzetti, F. Automatic delineation of geomorphological slope units with r.slopeunits v1.0 and their optimization for landslide susceptibility modeling. Geoscientific Model Development. 2016, 9: 3975–3991. doi:10.5194/gmd-9-3975-2016 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]