1.8 統計學
統計學研究資料收集、資料分析、資料解釋或說明,以及資料表示。作為資料探勘的基礎,它們的關係將在下面章節中說明。
1.8.1 統計學與資料探勘
第一次使用資料探勘這個術語的人是統計學家。最初,資料探勘是乙個貶義詞,指的是企圖提取得不到資料支援的資訊。在一定程度上,資料探勘構建統計模型,這是乙個基礎分布,用於視覺化資料。
資料探勘與統計學有著內在的聯絡,資料探勘的數學基礎之一就是統計學,而且很多統計模型都應用於資料探勘中。
統計模型可以用來總結資料集合,也可以用於驗證資料探勘結果。
1.8.2 統計學與機器學習
隨著統計學和機器學習的發展,這兩個學科成為乙個統一體。統計檢驗被用來驗證機器學習模型和評估機器學習演算法,機器學習技術與標準統計技術可以有機結合。
1.8.3 統計學與r語言
r是一種統計程式語言,它提供大量基於統計知識的統計函式。許多r語言新增包的貢獻者來自統計學領域,並在他們的研究中使用r語言。
1.8.4 資料探勘中統計學的侷限性
在資料探勘技術的演變過程中,由於資料探勘中統計的侷限性,人們在試圖提取並不真正存在於資料中的資訊時可能會犯錯誤。
bonferroni原則(bonferroni』s principle)是乙個統計定理,也被稱為bonferroni校正(bonferroni correction)。你可以假設你找到的大部分結果都是事實上不存在的,即演算法返回的結果大大超過了所假設的範圍。
統計學和資料探勘的關係
資料探勘和統計學是交集的關係,它們之間有很強的關係,但不是乙個涵蓋另乙個。統計學是從小樣本資料分析,推測總體的特徵。而資料探勘是從盡可能大的資料集上直接尋找特徵。應用方法上,資料探勘多用於主動式的發現,而統計學多用於被動式的驗證。從大量的商業專案實踐中,我們體會到資料探勘探索與統計學分析很多時候結果...
統計學 中心極限定理(R語言)
中心極限定理用通俗的話來講就是,假設有乙個服從 2 的總體,這個總體的分布可以是任意分布,不用是正態分佈,既可以是離散的,也可以是連續的。我們從該分布裡隨機取n個樣本x1,x2,xn,然後求這些樣本的均值x mean,這個過程我們重複m次,我們就會得到x mean 1,x mean 2,x mean...
R語言 基礎統計學之樣本量計算
r語言 基礎統計學之樣本量計算 以下介紹基礎統計學關於樣本量計算的問題,主要解決實際問題中在已知一些統計特徵下,計算所必要的樣本量,共有三種方式 總體方差已知時,總體方差未知時 估計比例為p時的三種情況下的樣本量。若已知總體x的均值為 方差為 2 sigma 2 2,可以依據基本公式 n z1 2 ...