分布式機器學習筆記1

@分布式機器學習筆記

本人是電子資訊領域相關專業女研究生一枚，研究方向下一代移動通訊網路。本科時期玩心未泯……未深入接觸科研。現階段摸索進入科研狀態，有一定知識基礎，自學機器學習、分布式機器學習相關方法知識~ 比較看重知識的體系性與連貫度，以及自己的思維流等，將較為重要的概念內容記錄於此！

分布式機器學習的必要性：在大資料支撐下，龐大計算機集群，訓練大規模機器學習模型

機器學習基本概念

1）經驗風險、期望風險、結構風險概念區分

參考：機器學習優化問題-經驗風險、期望風險、結構風險.

2）分類：學習目標、訓練資料特徵、模型複雜度、模型功能

機器學習基本流程

訓練資料集

分類模型（特徵抽取、引數設計）

誤差函式（依賴於解決的問題）→損失函式（數學性質更好，與誤差函式具有一定的數學關係）

優化演算法

常用損失函式

hinge損失函式

指數損失函式

交叉熵損失函式：假設**模型決定了標籤的概率分布

損失函式對於0-1誤差具有統計一致性，即樣本趨於無窮多時，按照最小化損失函式找到的最優模型也是在0-1誤差意義下的最優模型

常用機器學習模型

1）線性模型、logistic回歸（適合與交叉熵函式進行訓練）

非線性空間複雜組合關係如何由線性組合關係得到？

① 非線性預變換

② 核方法：將原特徵空間對映到高維非線性空間，再在高維空間中構建線性模型

參考：對核函式(kernel)最通俗易懂的理解.

2）核方法與支援向量機

① 支援向量機：尋找超平面使正例和負例之間的間隔最大

可解決線性可分問題，或通過引入核函式解決線性不可分問題

支援向量機概述見：支援向量機.

對偶問題的推導見：拉格朗日乘子與對偶問題.

② 核方法的核心：核函式（非線性對映函式）將原始輸入空間變換成高維空間

*以svm為例，通過φ對映到高維空間的對偶問題與對映函式本身形式無關，而與其內積φ·φ有關→定義核函式為對映到高維空間後的內積

核函式使用條件：對稱函式對應的核矩陣滿足半正定的條件

核函式的解釋及選擇參考：支援向量機的核函式及其選擇.

3）決策樹與boosting

①決策樹

可實現非線性對映，決策樹的複雜程度對應擬合程度

劃分選擇剪枝處理

②boosting

整合學習思想

4）神經網路

①全連線神經網路

表達能力強大——逼近定理

深度神經網路：模型更新代價大，通常使用小批量隨機梯度下降法

通常找到區域性最優解：模擬退火/多次隨機初始化，網路足夠神時區域性最優性能逼近全域性最優

過擬合：多種方法dropout等……

梯度消失：線性直連等……

②卷積神經網路

適用於處理影象資料

卷積（特徵提取）、池化（特徵壓縮）

③迴圈神經網路

記憶單元的迴圈迭代，對時間序列進行有效建模

lstm，gsu

常用的優化方法凸優化→非凸優化問題機器學習理論

機器學習泛化誤差及分解

優化誤差（優化演算法迭代t輪後輸出的模型與精確最小化經驗風險的模型的差別）

估計誤差（最小化經驗風險與最小化期望風險）

近似誤差（函式集合中最優期望風險與全域性最優期望風險）

誤差上界

總結

分布式機器學習主要筆記

mahout是hadoop的乙個機器學習庫，主要的程式設計模型是mapreduce 每個企業的資料都是多樣的和特別針對他們需求的。然而,在對那些資料的分析種類上卻沒多少多樣性。mahout專案是實施普通分析計算的乙個hadoop庫。用例包括使用者協同過濾使用者建議聚類和分類。mllib 執行在s...

分布式機器學習筆記3

分布式機器學習筆記基本概述 1 機器學習的優化框架正則化經驗風險最小化模型在訓練資料上的平均損失函式值盡可能小同時對模型複雜度進行懲罰優化演算法的收斂速率有效的優化演算法隨著迭代的進行使輸出模型越來越接近於最優模型收斂性 e t 趨近於0 收斂速率一般使用log e t 的衰減速率...

分布式機器學習第3章分布式機器學習框架

q 需要使用到分布式機器學習有哪三種情形？q 對於計算量太大時的分布式機器學習解決辦法 q 對於訓練資料太多時的分布式機器學習解決辦法 q 對於模型規模太大時的分布式機器學習解決辦法 q 目前分布式機器學習領域的主要矛盾是？q 分布式機器學習的主要組成模組有哪四個？q 分布式機器學習的資料劃分中，對...

分布式機器學習筆記1

分布式機器學習主要筆記

分布式機器學習筆記3

分布式機器學習第3章 分布式機器學習框架

相關推薦

分布式機器學習第3章分布式機器學習框架