機器學習中資料集大多呈正態分佈? 看西瓜書的疑問

2021-09-13 11:27:16 字數 254 閱讀 5312

在西瓜書中,尤其是第二章 模型評估與選擇中,資料集常被認為是服從正態分佈,而書中未給出正態分佈的嚴格證明或簡要說明。這種情況下,為什麼資料集被認為是正態分佈是合理的?

從第乙個角度理解,在大多數自然事件中,當資料量大到一定程度時,資料往往都近似服從於正態分佈。並且,正態分佈擁有許多優越的性質。

從第二個角度理解,我們不強行在一開始接受正態分佈的設定。在實際運用中,我們更關注資料集的期望和方差這些特徵量。當我們求出了期望與方差,可以利用中心極限定理轉換為正態分佈。

機器學習課程 正態分佈

正態分佈 normal distribution 也稱 常態分布 又名 高斯分布 gaussian distribution 公式 若隨機變數 x服從乙個 數學期望 為 方差 為 2的正態分佈,記為n 2 其 概率密度函式 為正態分佈的 期望值 決定了其位置,其 標準差 決定了分布的幅度。當 0,1...

檢驗資料集是否服從正態分佈

1.p p圖 以樣本的累積頻率作為橫座標,以正太分布計算的響應累積概率作為縱座標,把樣本值表現為執教座標系中的散點。若資料集服從正太分布,則樣本點應圍繞第一象限的對角線分布。1.2 qq圖 以樣本的分位數作為橫座標,以按照正太分布計算的相應分位點作為縱座標,把樣本表現為直角座標系的散點。若服從正太分...

機器學習資料集

ucl機器學習知識庫 包括近300個不同大小和型別的資料集,可用於分類 回歸 聚類和推薦系統任務。資料集列表位於 amazon aws公開資料集 包含的通常是大型資料集,可通過amazon s3訪問。這些資料集包括人類基因組專案 common crawl網頁語料庫 維基百科資料和google boo...