機器學習導論二

監督學習：訓練資料集每個樣本均有個已知的輸出項。

分類演算法：

決策樹演算法

knn貝葉斯演算法

svm演算法

lr演算法

回歸：線性回歸、lasso回歸、ridge回歸

無監督學習(非監督學習)

降維（pca、lda）：

半監督學習（了解）：一部分有類別標籤，一部分沒有類別標籤。

強化學習：(了解)

遷移學習：(了解)

深度(特徵)+強化(連續決策)+遷移(模型適應性問題)

32*32矩陣—轉化為1*1024列的矩陣----通過svm演算法-----識別結果

標籤標籤是我們要**的事物，即簡單線性回歸中的 y 變數。標籤可以是小麥未來的**、中顯示的動物品種、音訊剪輯的含義或任何事物。

特徵特徵是輸入變數，即簡單線性回歸中的 x 變數。簡單的機器學習專案可能會使用單個特徵，而比較複雜的機器學習專案可能會使用數百萬個特徵，按如下方式指定：

策略：損失函式

模型學習模型=模型+演算法+策略

模型：

當拿到資料之後從下面兩個角度思考問題：

從業務的角度思考

特徵工程

資料+選擇的演算法==>模型

通過測試集測試模型，給定最終模型

如果有新資料，通過模型給出**結果

2.過擬合

防火防盜防過擬合

奧卡姆剃刀原則：如果具有相同泛化誤差的模型，選擇較為簡單的模型(防止過擬合)

k則交叉驗證：

留一驗證：

課程中重點以python為主展開

策略結構風險正則化項交叉驗證混淆矩陣 roc曲線回歸問題與分類問題本質上都是要建立對映關係 0 1損失平方損失絕對損失對數損失模型f x 關於訓練資料集的平均損失記為經驗損失 remp 期望風險remp是模型關於聯合分布的期望損失，經驗風險remp是模型關於訓練集的平均損失。根據大數...

改變了思維方式資料重要性資料資源資料資產增值方資料分析統計學抽樣資料科學大資料計算智慧型複雜演算法決策方面基於目標決策基於資料決策業務方面基於業務的資料化基於資料的業務化產業競合以戰略為中心以資料為中心資料量大 tb pb zb hdfs分布式檔案系統資...

監督學習監督 supervised 是指訓練資料集中的每個樣本均有乙個已知的輸出項類標label 輸出變數為連續變數的問題稱為回歸問題，回歸演算法有簡單線性回歸，多元線性回歸，lasson回歸，ridge回歸，elastictnet 輸出變數為有限個離散變數的問題稱為分類問題，分類演算法有...