讀書筆記 統計學 從資料到結論 第十章

2021-07-08 16:48:29 字數 657 閱讀 8323

第十章 主成分分析和因子分析

當變數很多,且有些變數是相關的時候,為了找出少數能夠代表它們的變數,就要用到主成分分析和因子分析,所以,主成分分析和因子分析都是用來降維的。

假定原先資料是二維觀測值,在乙個二維座標系中,這些資料點形成乙個有橢圓形輪廓的點陣,這個橢圓有兩條軸,一條長軸和一條短軸,互相垂直,長軸承擔了資料比較多的變化,代表了資料報含的大部分資訊,一半來說將這個長軸代表的變數作為降維後的變數就可以完成降維的任務了。長軸和短軸這兩條軸代表的變數就叫主成分,這兩條軸叫主軸,主軸的長度叫特徵值。

如果兩條軸分別和座標系平行,那這兩條軸就是兩個主成分,但是很多情況下,這兩條軸不和座標軸平行,就需要做一些變換,建立兩個新的變數分別和兩條座標軸平行,新的變數是原先的變數的線性組合,這時,這兩個新的變數就是主成分。

主成分分析是,先找出所有主成分,主成分數量和原資料的變數個數是一樣的,然後取最長的幾個主成分,至於取幾個,一般取所選主軸總長度佔所有主軸長度之和的大約85%。

主成分由原變數線性組合而成,每乙個原變數前的係數稱為主成分載荷,表示的是主成分和原先變數的線性相關係數。

因子分析更精密,結果更有說服性,可以說主成分分析是因子分析的特例。

因子分析事先確定要找幾個成分,也稱因子,也就是說,主成分分析有幾個變數就有幾個主成分,因子分析是先確定有幾個成分,數量不一定要等於原變數個數。

讀書筆記 統計學 從資料到結論 第八章

第八章 列聯表 檢驗和對數線性模型 列聯表是觀測資料按兩個或更多屬性分類時所列出的頻數表,如圖是乙個三維的列聯表,每乙個數字代表相應的水平組合出現的頻數。研究列聯表的乙個主要目的就是看這些變數是否相關,零假設是 變數1和變數2不相關 對於兩個定類變數而言,這裡的檢驗統計量通常是計算觀測頻數與期望頻數...

統計學(二) 讀書筆記

第三章 定量資料的描述分析 對於數值型資料,1 首先通過直方圖觀察資料分布,是單峰,雙峰還是均勻分布,左偏還是右偏,還是對稱的,2 然後分析中心趨勢 中位數和均值 和離散趨勢 四分位差,標準差,極差 通常,有偏分布,分析中位數和四分位差,對稱分布,分析均值和標準差,注意,對於單峰分布,其四分位數差通...

《Head First 統計學》讀書筆記

本文目的 最近花了2周時間看完了 head first 統計學 又名 深入淺出統計學 看完後,感覺統計學的知識又撿起來了。在高中和大學的時候,學習統計學的目的很狹隘 為了應付考試。這次看 head first 統計學 的動機卻截然不同,由於前一陣子看了 集體智慧型程式設計 和 資料探勘導論 發現裡面...