初學機器學習筆記

機器學習(machine learning, ml)是一門多領域交叉學科，涉及概率論、統計學、

逼近論、

凸分析、

演算法複雜度

理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的效能。

機器學習是人工智慧研究發展到一定階段的必然產物。二十世紀五十年代到七十年代初，人工智慧研究處於「推理期」，那時人們以為只要能賦予機器邏輯推理能力，機器就能具有智慧型。但是後來人們逐漸認識到僅具有邏輯推理能力是遠遠實現不了人工智慧的，故從二十世紀七十年代中期開始，人工智慧研究進入了「知識期」。一開始採用的方式是由人來把知識總結出來再教給計算機。但是這種方式很明顯存在很多問題的，比如（1）單純的賦予，使得這種人工智慧應用很窄（2）對於有些問題，發現它的規則是很難的或者其解空間根本舉例不完。所以後來有些學者想到，如果機器自己能夠學習該多好！

人工智慧進入機器學習（從樣例中學習）後，也是經過很多發展的，一開始一大主流是符號主義學習，決策樹就是其中的乙個代表。而到了二十世紀九十年代中期，一種看似更本質化、研究資料規律的統計學習則是佔了主流的地位。不過目前的主流則是深度學習和統計學習。

1、特徵選擇

在現實機器學習任務中，獲得資料之後通常先進行特徵選擇，因為對於乙個學習任務來說，給定屬性集，其中有些屬性很關鍵、很有用，另一些屬性則可能沒什麼用，對學習任務有用的屬性稱為「相關特徵」、沒什麼用的稱為」無關特徵「。

為什麼要進行特徵選擇？

（1）處理現實任務中經常會遇到的維數災難。

（2）去除不相關往往會降低學習任務難度。

幾種特徵選擇的方法：

（1）、過濾式選擇（2）、包裹式選擇（3）、嵌入式選擇與l1正則化（4）、稀疏學習

2、降維

」維數災難「是所有機器學習方法共同面臨的嚴重障礙。因為每一任務與它有關的屬性往往都是幾十個，幾百個甚至成千上萬。而緩解維數災難的乙個重要途徑是降維，常用的降維德方法有：

（1）、主成分分析

（2）、度量學習（流行學習）------對距離度量進行學習。

3、機器學習演算法

根據訓練資料是否擁有標記資訊，學習任務可大致劃分為兩大類：」監督學習「和」無監督學習「。

決策樹、線性模型、貝葉斯、支援向量機都是屬於監督學習的。

聚類等屬於無監督學習。

4、模型評估

在模型評估中，一些效能度量，如錯誤率，風險率都是不同學習方法選擇與原理推導的方向標。

初學機器學習筆記

初學機器學習

機器學習初學者筆記（一）

機器學習初學者筆記（二）

初學機器學習筆記

初學機器學習

機器學習初學者筆記（一）

機器學習初學者筆記（二）

相關推薦