機器學習入門（一）

分類和回歸：均為**過程，其中分類是對離散值的**，回歸是對連續值的**。

監督學習和無監督學習：就看輸入資料是否有標籤（label）。輸入資料有標籤，則為有監督學習，沒標籤則為無監督學習（聚類）。監督學習就是給輸入的無標籤資料新增標籤的過程。

資料集的劃分方法：

1.留出法，即把資料集分為兩部分，一般來說是8：2，8的那部分當訓練集，2的那部分當測試集。

2.交叉驗證法，即把資料集劃分為10部分，每次拿9部分作為訓練集，剩下一部分作為測試集，重複10次以保證每個部分都被當成過測試集。

3.自助法，即每次在資料集中抽取乙個元素，完成拷貝，並且放回資料集，這樣當次數足夠多時，可由基本極限知道，大約有0.368的資料始終不被採集到。因此，可以把採集到的部分作為訓練集，沒採集到的作為測試集。

效能度量方式：

（回歸）均方誤差：即把**的和真實的的值做差的平方和。

roc和auc

偏差和方差

線性模型

線性模型是最基本的模型，但是也可以有很多變化，例如可以兩邊取對數等。另外廣義的線性模型還包括對數機率函式（用於分類任務）

線性判別法：lda的思想相當簡單，就是同類的盡量靠近，不同的盡量遠離。

需要了解的方法：最小二乘法

多分類學習：將多分類拆解為二分類。

年後又開始新一輪的學習了。今天我來複習跟鞏固機器學習的基礎概念。我們將機器學習系統按他們的特點分類是否在人類監督下訓練。例如有監督學習，無監督學習，半監督學習，強化學習。是否簡單地將新的資料點和已知的資料點進行匹配，還是像科學家一樣，對訓練資料進行模式檢測然後建立乙個模型。例如基於例項的學習...

上大學的時候人工智慧火了一段時間雖然現在還是虛假的繁榮現象但是不得不說人工只能肯定是未來的發展方向，所以我們就有必要了解其基本的理論原理，當然了我寫出來的東西肯定不會和數學特別相關，因為我概率論差啊，那段時間沉迷遊戲，然後60多分飄過，所以各位肯定是比我牛逼的。我參考的書籍是機器學習及實踐範...

機器學習常常劃分為三個方面分類問題因為有了標籤值，根據演算法，將樣本歸於哪一類。邏輯回歸，決策樹，隨機森林，svm 回歸問題是乙個連續值，根據樣本上的一些特徵，連續值結果。聚類問題因為沒有標籤以及明顯的劃分標準，根據樣本的相似性或者關聯關係，把類似的歸於一類常用的一些術語對於結構化資料，...