機器學習基本數學概念

1、均值

樣本均值描述的是集合的中間點、平均值、均值的資訊是有限的，有時候甚至是完全沒有參考意義的。

2、標準差

標準差描述的是樣本集合中的各個樣本點到均值的距離的平均值。以集合[2,8,12,18]和集合[7,9,11,13]為例，兩者的均值都是10，但顯然後都較為集中，故其標準差小一些。所以標準差描述的是集合中樣品分布的聚合程度。

3、方差

方差是標準差的平方。

4、期望

在概率論和統計學中，數學期望(mean)（或均值，亦簡稱期望）是試驗中每次可能結果的概率乘以其結果的總和。它反映隨機變數平均取值的大小。

期望是對一組概率事件在實驗前根據概率分布**出的樣本的平均值，是乙個概率論的概念，而均值是該概率事件發生後根據實際結果統計的樣本的平均值，是乙個統計概念。

一句話概況：期望就是平均數隨樣本趨於無窮的極限，可用來估計模型的均值。

5、協方差

協方差用於衡量兩個變數的總體誤差。如果兩個變數的變化趨勢一致，也就是說如果其中乙個大於自身的期望值時另外乙個也大於自身的期望值，那麼兩個變數之間的協方差就是正值；如果兩個變數的變化趨勢相反，即其中乙個變數大於自身的期望值時另外乙個卻小於自身的期望，那麼兩個變數之間的協方差就是負值。

6、歐式距離

歐氏距離也稱歐幾里得度量、歐幾里得距離，是乙個通常採用的距離定義，它是在m維空間中兩個點之間的真實距離。在二維空間中的歐氏距離就是兩點之間的直線段距離。在多維向量中歐式距離的計算定義為兩個他們向量對應元素差的平方和再開方。

歐氏距離在解決多元資料的分析問題時，存在一定的問題，歐氏距離將樣本的不同屬性無差別對待，實際問題中往往樣本中每個屬性的權重因子是不一樣的，比如衡量一所房子的好壞，對於有子女需要上學的人，會認為學位更為重要，所佔權重應該大一些，而有些家庭人口比較多的人考慮到人均面積，會認為戶型、房間數量所佔權重應該大一些等等，所以在這種情況歐氏距離各個元素一刀切的對待方式來評價乙個現實問題往往是不可取的。

7、馬氏（mahalanobis）距離

馬氏距離是由印度統計學家馬哈拉諾比斯（p.c.mahalanobis）提出的，表示資料所在的空間的協方差的度量，或者認為是把資料所在空間進行歸一化處理之後再進行的度量。它是一種有效的計算兩個未知樣本集的相似度的方法。

馬氏距離還可以排除變數之間的相關性的干擾。它的缺點是誇大了變化微小的變數的作用。馬氏距離是多維空間中兩點相似性的變數，往往作為聚類或者分類演算法的基礎。

強烈推薦這篇博文講述馬氏距離

機器學習基本數學概念

基本數學概念集合

機器學習中的基本數學知識

機器學習的數學概念

機器學習 基本數學概念

基本數學概念 集合

機器學習中的基本數學知識

機器學習的數學概念

相關推薦

機器學習基本數學概念

基本數學概念集合