《R語言資料探勘》 1 8 統計學

2021-09-23 16:08:51 字數 710 閱讀 1501

1.8 統計學

統計學研究資料收集、資料分析、資料解釋或說明,以及資料表示。作為資料探勘的基礎,它們的關係將在下面章節中說明。

1.8.1 統計學與資料探勘

第一次使用資料探勘這個術語的人是統計學家。最初,資料探勘是乙個貶義詞,指的是企圖提取得不到資料支援的資訊。在一定程度上,資料探勘構建統計模型,這是乙個基礎分布,用於視覺化資料。

資料探勘與統計學有著內在的聯絡,資料探勘的數學基礎之一就是統計學,而且很多統計模型都應用於資料探勘中。

統計模型可以用來總結資料集合,也可以用於驗證資料探勘結果。

1.8.2 統計學與機器學習

隨著統計學和機器學習的發展,這兩個學科成為乙個統一體。統計檢驗被用來驗證機器學習模型和評估機器學習演算法,機器學習技術與標準統計技術可以有機結合。

1.8.3 統計學與r語言

r是一種統計程式語言,它提供大量基於統計知識的統計函式。許多r語言新增包的貢獻者來自統計學領域,並在他們的研究中使用r語言。

1.8.4 資料探勘中統計學的侷限性

在資料探勘技術的演變過程中,由於資料探勘中統計的侷限性,人們在試圖提取並不真正存在於資料中的資訊時可能會犯錯誤。

bonferroni原則(bonferroni』s principle)是乙個統計定理,也被稱為bonferroni校正(bonferroni correction)。你可以假設你找到的大部分結果都是事實上不存在的,即演算法返回的結果大大超過了所假設的範圍。

統計學和資料探勘的關係

資料探勘和統計學是交集的關係,它們之間有很強的關係,但不是乙個涵蓋另乙個。統計學是從小樣本資料分析,推測總體的特徵。而資料探勘是從盡可能大的資料集上直接尋找特徵。應用方法上,資料探勘多用於主動式的發現,而統計學多用於被動式的驗證。從大量的商業專案實踐中,我們體會到資料探勘探索與統計學分析很多時候結果...

統計學 中心極限定理(R語言)

中心極限定理用通俗的話來講就是,假設有乙個服從 2 的總體,這個總體的分布可以是任意分布,不用是正態分佈,既可以是離散的,也可以是連續的。我們從該分布裡隨機取n個樣本x1,x2,xn,然後求這些樣本的均值x mean,這個過程我們重複m次,我們就會得到x mean 1,x mean 2,x mean...

R語言 基礎統計學之樣本量計算

r語言 基礎統計學之樣本量計算 以下介紹基礎統計學關於樣本量計算的問題,主要解決實際問題中在已知一些統計特徵下,計算所必要的樣本量,共有三種方式 總體方差已知時,總體方差未知時 估計比例為p時的三種情況下的樣本量。若已知總體x的均值為 方差為 2 sigma 2 2,可以依據基本公式 n z1 2 ...