ML 初識機器學習

2021-10-06 15:48:25 字數 1472 閱讀 5524

arthur samual(1959):在沒有明確設定的情況下,使計算機具有學習能力的研究領域。

機器學習是研究使計算機完成複雜任務並且無須對其進行明確程式設計的科學學科,機器學習中的演算法將學習如何解決給定的任務,這些演算法包括來自統計學、概率論和資訊理論的方法和技術。

機器學習專案由多個步驟組成,通常可以分為以下幾個步驟。

(1)收集資料。首先需要從各種**收集資料,可以是日誌檔案、資料庫記錄、感測器訊號等。

(2)清理和準備資料。資料並不總是適用於機器學習的結構化形式(文字、影象、聲音、二進位制資料等),因此需要設計一種方法將這些資料轉換成數學特徵。還需要處理缺失資料,代表著同一含義卻有不同形式的的資料(如一家公司的全稱和縮寫)等等。也需要適當進行縮放,以便所有維度都處在可比較的範圍。

(3)分析資料和提取功能。通過分析資料來得出資料相關性並將其視覺化。對資料進行降維,選擇合適的機器學習演算法並把資料集劃分為訓練集、測試集和校驗集。

(4)訓練模型

(5)評估模型。將模型用於驗證資料集,並根據某些條件評估其效能。

(6)使用模型。

使用了樣本標籤的學習過程

沒有使用樣本標籤的學習過程

監督學習和無監督學習的結合方法。樣本中存在有標籤資料和無標籤資料,半監督學習使用有標籤的資料對無標籤的資料「打標籤」。

強化學習過程通過不斷跟環境進行互動來達到更好的效果。對每次訓練的結果進行評估,效果好的情形下對其進行「獎勵」,否則進行「懲罰」。

在最優化的問題當中,我們想得到全域性的最優點,所以我們在設計目標函式時,會盡可能把它們轉換成凹凸函式,這個過程稱為「凸優化」。凸優化的定義為: 約束條件為凸集,目標函式是凸函式。非凸優化問題轉化為凸優化問題的方法是: 修改目標函式,將其轉化為凸函式,此外拋棄一些約束條件,使可行域為凸集,這個可行域包含了原有的集合。

神經網路中使用的代價函式稱為損失函式,損失函式衡量了評分函式的**與真實樣本標籤的吻合度,loss的值都會設定為和吻合程度負相關。

「梯度下降」顧名思義,就是針對目標函式的loss函式,在訓練的過程中每次更新權重,以求得更小的loss函式值。

訓練過程使用了所有的訓練資料。這種方法在資料量比較大的情況下,會導致權重更新比較慢。

每次更新權重時只考慮乙個樣本點,這種方法在權重更新時雖然比較快,但是只能到達極小值點,並且對雜訊樣本點敏感。

隨機使用一部分資料進行權重的更新,解決了「批量梯度下降」權重更新慢,和「隨機梯度下降」雜訊敏感的問題。

機器學習ML策略

機器學習ml策略 1 為什麼是ml策略 例如 識別cat分類器的識別率是90 怎麼進一步提高識別率呢?想法 1 收集更多資料 2 收集更多的多樣性訓練樣本 3 使用梯度下降訓練更長時間 4 嘗試adam代替梯度下降 5 嘗試更大的網路 6 嘗試更小的網路 7 嘗試dropout 8 嘗試l2正則化 ...

ML 機器學習基礎

目錄 偏差與方差 導致偏差和方差的原因 深度學習中的偏差與方差 生成模型與判別模型 兩者之間的聯絡 優缺點常見模型 先驗概率與後驗概率 在監督學習中,模型的泛化誤差可分解為偏差 方差與雜訊之和 偏差用於描述模型的擬合能力 方差用於描述模型的穩定性 方差通常是由於模型的複雜度相對於訓練集過高導致的 監...

機器學習 ML分類

為了更好的學習機器學習知識,進行機器學習的分類 按照機器學習任務分類可以分為 分類問題是我們最常用的任務,如,新聞分類,分類,檔案分類可以按照各個領域進行分類,如教育,體育,科技,經濟等等 聚類問題,簡單的說是群,俗話是物以類聚,目的是將樣品劃分為緊密關係的子類或者是簇 最常用的是用k means聚...