白話空間統計十四 高 低值的聚類(上)

2021-07-04 20:36:43 字數 3100 閱讀 7244

今天我們來講空間自相關的乙個高階衡量方法:高

/低值的聚類。

以前都說了,空間資料的關係無非就三種可能——離散、隨機、聚集,如下:

那麼我們拿到資料之後,首先確定離散還是聚集,因為隨機就沒啥價值。只有確定了之後,才能絕對我們怎麼去對付他,是清蒸還是紅燒,或者是涼拌,都要看原料的。

至於如何確認,我們以前也講了莫蘭指數這個東東,當然,伴隨著的肯定還有p值和

z得分神馬的,有興趣的同學,請檢視以前文章。

那麼拿到資料,確定由聚集的可能之後,又會發生什麼事情呢?

我們繼續看下面的例子:

繼續來拋硬幣:

一次性丟擲

16枚編好號的硬幣,結果如上圖。我把結果用紅圈給圈出來了,大家就很容易的看見發生了聚集,而且這次試驗的結果主要是反面發生了聚集。

所以,在我們發現了資料有聚類的可能性之後,我們還可以進一步的分析,到底是哪一類資料發生了聚集,這種能夠判定是哪一類值產生了聚類的,就叫做「高

/低值聚類」分析。

下面進入歷史科普實踐,這種用於判定高

/值聚類的方法,最早是由美國喬治敦大學麥克多諾商學院

(mcdonough school of business)

的j. keith ord和聖地牙哥州立大學地理系的arthurgetis兩人提出,所以,這個演算法通常由被稱為:getis-ord general g分析。就是下面的兩位帥哥(我一直對研究演算法的人滿懷敬意):

與硬幣只有兩面不同,資料是可以劃分為高值和低值的,如下圖:

在前面衡量空間自相關的時候,用的引數是moran'i(莫蘭指數),那麼在衡量搞低值聚類的時候,用的也是乙個指數,這個指數叫做 general g 指數。

general g

指數與莫蘭指數一樣,皆是一種推論統計,即你把資料拿到之後的下乙個步驟。比如你相親時候,第一次把妹紙相片要到的時候,首先要做的自然就是看看是不是符合自己的審美觀了,然後就是找找是否有

ps的痕跡

,通過小細節來想象乙個下這個妹紙有哪些愛好性格啊之類

;這種利用有限的資料來對整體情況的特徵進行估計的過程,就是推論統計。

通過分析之後得到的結果,都會在零假設(以瞎猜為背景)的情況下進行解釋。也就是說,你的計算出來的值,只是與瞎猜的結果相比較得出來的結論,並不代表真實的結果。

general g

統計方法,認為零假設(瞎猜)是不存在聚類的。當你進行

general g

方法進行計算的時候,會得出一堆的值,如下:

z的分和

pgeneral g

指數和期望

general

指數是什麼東西。

首先,還是要看看資料是否有意義,因為

p值代表了你這份資料是不是隨機的,如下圖所示:

p值就決定了你這份資料是否具有分析價值,如果我們能夠進入下一步,那麼

z值就變得重要起來。與空間相關性裡面的

z值不同,在

general g

統計的計算中,

z值的正負符號是有意義的,如下:

看到這裡就會有人跳出來了,你的觀察

general g

指數和期望

general g

指數**去了?既然

z值都已經把你要高

/低值聚類都標示出來了,這個兩個指數還有啥用?

別急,繼續往下看。

我們開始說了,

general g

方法,是用來探索高

\值聚類的方法,那麼這兩種指數也是用來衡量到底是發生了高值聚類還是低值聚類的。

單獨乙個指數是沒有什麼意義的,既然他給了兩個指數,是表示,讓你來進行比較的。在演算法上,只要

z得分是正數,那麼一般來說觀察指數就要大於期望指數,而如果

z得分是負數,那麼期望指數就要大於觀察指數,如下:

那麼把兩個圖組合起來,就得到了如下結果:

z得分為正——觀察

general g

指數大於期望

generalg

指數——資料在高值區域聚類。 z

得分為負——期望

general g

指數大於觀察

generalg

指數——資料在低值區域聚類。

但是,正如每個人小時候都被其他的熊長輩挑撥離間過——「你是喜歡粑粑還是麻麻?」往往把小孩弄得不知所措,而父母也會教小孩如何對付這些熊長輩「說『都喜歡』」,然後皆大歡喜一樣。乙份資料如果同時在高值和低值區域都表現出了聚類,怎麼辦?

那麼很容易出現的就是觀察

generalg

指數和期望

general g

指數相等的情況,那麼這種情況用官方的話說,就是「高值和低值同時聚類時,它們傾向於彼此相互抵消。」如下圖:

遇上這種高低值全部都聚類情況,基本上就可以直接放棄使用這個工具了,改用空間自相關工具即可(

globe moran' i)。

所以,很明顯的看出,這個工具主要是去尋找高值或者低值有其中一方發生聚類的時候,才能發揮出他的價值。

(待續未完)

白話空間統計二十四 地理加權回歸(一)

二十四在人的生活中有舉足輕重的地位,一年有二十四個節氣,一天有二十四個小時。中國的正史稱之為 二十四史 有人說加清史就二十五了 但是正史這個詞,出自清乾隆欽定二十四史,所以一直 正史 這個詞,專指二十四史 白話空間統計寫到現在,歷時18個月,終於寫到這個一元復始的二十四章了。地理加權的回歸分析是空間...

白話空間統計二十四 地理加權回歸(四)

本來這一章準備直接寫 照抄 arcgis的幫助文件,寫地理加權回歸工具的使用 然後就直接結束地理加權回歸的,但是近來收到不少同學的郵件,很多都是掉在了當年蝦神挖出的大坑裡面,比如寫了方法,沒有列出公式,又比如寫了公式木有推導過程 作為高數戰五渣的蝦神,推導這種事,他認識我,我不認識他 所以這次寫gw...

白話空間統計之四 P值和Z值(上) 零如果

本來今天想要講講軟體操作的,後來發現好像還有好幾個重要的指標沒有說,乾脆等所有說完在講操作吧。否則操作出來的結果會發現大量的 不明覺厲 首先是空間統計裡面非常神奇的兩個值 p值和 z值。要說這兩個值之前。還是要複習一下統計學的概念。畢竟空間統計的理論基礎還是建立在經典統計學上面的。首先,統計學裡面。...