分布式機器學習筆記1

2021-10-18 14:48:10 字數 1796 閱讀 6778

@分布式機器學習筆記

本人是電子資訊領域相關專業女研究生一枚,研究方向下一代移動通訊網路。本科時期玩心未泯……未深入接觸科研。現階段摸索進入科研狀態,有一定知識基礎,自學機器學習、分布式機器學習相關方法知識~ 比較看重知識的體系性與連貫度,以及自己的思維流等,將較為重要的概念內容記錄於此!

分布式機器學習的必要性:在大資料支撐下,龐大計算機集群,訓練大規模機器學習模型

機器學習基本概念

1)經驗風險、期望風險、結構風險概念區分

參考: 機器學習優化問題-經驗風險、期望風險、結構風險.

2)分類 :學習目標、訓練資料特徵、模型複雜度、模型功能

機器學習基本流程

訓練資料集

分類模型(特徵抽取、引數設計)

誤差函式(依賴於解決的問題)→損失函式(數學性質更好,與誤差函式具有一定的數學關係)

優化演算法

常用損失函式

hinge損失函式

指數損失函式

交叉熵損失函式:假設**模型決定了標籤的概率分布

損失函式對於0-1誤差具有統計一致性,即樣本趨於無窮多時,按照最小化損失函式找到的最優模型也是在0-1誤差意義下的最優模型

常用機器學習模型

1)線性模型、logistic回歸(適合與交叉熵函式進行訓練)

非線性空間複雜組合關係如何由線性組合關係得到?

① 非線性預變換

② 核方法:將原特徵空間對映到高維非線性空間,再在高維空間中構建線性模型

參考: 對核函式(kernel)最通俗易懂的理解.

2)核方法與支援向量機

① 支援向量機:尋找超平面使正例和負例之間的間隔最大

可解決線性可分問題,或通過引入核函式解決線性不可分問題

支援向量機概述見: 支援向量機.

對偶問題的推導見: 拉格朗日乘子與對偶問題.

② 核方法的核心:核函式(非線性對映函式)將原始輸入空間變換成高維空間

*以svm為例,通過φ對映到高維空間的對偶問題與對映函式本身形式無關,而與其內積φ·φ有關→定義核函式為對映到高維空間後的內積

核函式使用條件:對稱函式對應的核矩陣滿足半正定的條件

核函式的解釋及選擇參考:支援向量機的核函式及其選擇.

3)決策樹與boosting

①決策樹

可實現非線性對映,決策樹的複雜程度對應擬合程度

劃分選擇 剪枝處理

②boosting

整合學習思想

4)神經網路

①全連線神經網路

表達能力強大——逼近定理

深度神經網路:模型更新代價大,通常使用小批量隨機梯度下降法

通常找到區域性最優解:模擬退火/多次隨機初始化,網路足夠神時區域性最優性能逼近全域性最優

過擬合:多種方法dropout等……

梯度消失:線性直連等……

②卷積神經網路

適用於處理影象資料

卷積(特徵提取)、池化(特徵壓縮)

③迴圈神經網路

記憶單元的迴圈迭代,對時間序列進行有效建模

lstm,gsu

常用的優化方法 凸優化→非凸優化問題機器學習理論

機器學習泛化誤差及分解

優化誤差(優化演算法迭代t輪後輸出的模型與精確最小化經驗風險的模型的差別)

估計誤差(最小化經驗風險與最小化期望風險)

近似誤差(函式集合中最優期望風險與全域性最優期望風險)

誤差上界

總結

分布式機器學習主要筆記

mahout是hadoop的乙個機器學習庫,主要的程式設計模型是mapreduce 每個企業的資料都是多樣的和特別針對他們需求的。然而,在對那些資料的分析種類上卻沒多少多樣性。mahout專案是實施普通分析計算的乙個hadoop庫。用例包括使用者協同過濾 使用者建議 聚類和分類。mllib 執行在s...

分布式機器學習筆記3

分布式機器學習筆記 基本概述 1 機器學習的優化框架 正則化經驗風險最小化 模型在訓練資料上的平均損失函式值盡可能小 同時對模型複雜度進行懲罰 優化演算法的收斂速率 有效的優化演算法 隨著迭代的進行使輸出模型越來越接近於最優模型 收斂性 e t 趨近於0 收斂速率 一般使用log e t 的衰減速率...

分布式機器學習第3章 分布式機器學習框架

q 需要使用到分布式機器學習有哪三種情形?q 對於計算量太大時的分布式機器學習解決辦法 q 對於訓練資料太多時的分布式機器學習解決辦法 q 對於模型規模太大時的分布式機器學習解決辦法 q 目前分布式機器學習領域的主要矛盾是?q 分布式機器學習的主要組成模組有哪四個?q 分布式機器學習的資料劃分中,對...