資料開發 機器學習

2022-07-07 00:18:12 字數 1164 閱讀 2268

什麼是機器學習?

機器學習要解決哪些問題?

從複雜和海量的資料中獲得洞見

機器學習的步驟有哪些?

機器學習的基本概念,原理以及基本方法以及基礎能力

基本概念

屬性 值 特徵

訓練集和測試集 驗證集

特徵提取 特徵變換

模型-- 模型是觀察的簡化

監督和非監督學習:監督學習 半監督學習 無監督學習 強化學習

監督學習

線性回歸 邏輯回歸

k近鄰 支援向量機 決策樹 隨機森林 神經網路

半監督學習

深度信念網路 dbn --受限玻爾茲曼機rbn

無監督學習

聚類演算法 k-means em 分層聚類演算法

降維演算法 pca kernel_pca

視覺化 t-sne

關聯規則 apriori eclat

異常檢測

強化學習

策略 執行 獲得獎勵或懲罰 公升級策略

離線學習:學習過程在批量資料時,應用時,學習停止-- 需要不斷訓練新版本

全量學習和增量學習

基於例項: 基於學習示例,通過相似度等泛化到新的示例

基於模型: 構建模型,利用模型進行**

模型引數和學習演算法的超引數
學習資料-選擇模型-訓練模型-應用模型-評估模型

評估模型- 測試與驗證 訓練誤差和泛化誤差 以及驗證假設

資料: 訓練樣本不足  訓練樣本不具有代表性  無關特徵    質量差的資料

模型: 過擬合 欠擬合

過擬合: 模型在訓練資料上表現良好,泛化效果比較不是很好

評判: 效能指標: 均方根誤差 平均絕對誤差

參考方法「

提供更好的特徵,

選擇更多引數/更強大的模型

減少模型中的約束

pipeline 資料流水線
機器學習實戰 hands-on mechine learning with

機器學習資料

出處 本列表選編了一些機器學習領域牛b的框架 庫以及軟體 按程式語言排序 計算機視覺 通用機器學習通用機器學習自然語言處理 通用機器學習 資料分析 資料視覺化自然語言處理 通用機器學習 資料分析 資料視覺化自然語言處理 資料分析 資料視覺化 通用機器學習通用機器學習 自然語言處理 資料分析 資料視覺...

機器學習資料

北理工機器學習課程project題目彙總 特徵選擇方法 機器學習中防止過擬合的處理方法 機器學習中的相似性度量 向量空間中的相似度度量方法 在分類中如何處理訓練集中不平衡問題 梯度下降 隨機梯度下降和批量梯度下降 無約束優化方法讀書筆記 入門篇 libsvm minist hog 手寫體識別 最大似...

機器學習資料

學習machine learning也有很長一段時間了,前段時間在 中應用了gtb gradient tree boosting 演算法。在我的資料集上gtb的performance比random forest要稍微強一點,整個experiment做完之後,有許多東西都來不及及時整理,很多都遺忘了。...