初識機器學習 理論篇

2022-05-11 12:34:41 字數 1310 閱讀 7750

1.什麼是機器學習?

概念:利用計算機從歷史資料中找到規律,並把這些規律用到未來不確定場景的決策。

場景:(人來幹)資料分析+(計算機來幹)機器學習

2.資料(歷史資料)

3.規律

從資料中找出規律

概率論和數理統計

(先抽樣->描述統計->假設檢驗)

用模型刻畫(擬合)規律(維度較少時還能用,多維的不可用)

4.機器學習發展的原動力

經濟驅動『資料變現、用資料代替expert

5.業務系統發展的歷史

基於專家經驗(頭腦風暴。。然後交給程式設計師寫iferlse)

基於統計-分緯度統計(依靠業務報表,資料倉儲,olap統計)

6.機器學習的典型應用

(1)關聯規則:「啤酒+尿片」

(2)使用者細分精準營銷:聚類(動感地帶、神州行、全球通)

(3)垃圾郵件:樸素貝葉斯

(4)信用卡欺詐:決策樹(銀行是否可以貸款給你,即風險識別)

(5)網際網路廣告:ctr預估【現行邏輯回歸】

(6)推薦系統:協同過濾

(7)自然語言處理:情感分析+實體識別+識別(深度學習)

............更多應用,包括語音識別、自動駕駛、智慧型機械人等等

7.機器學習和資料分析的區別

(一)資料特點不同:行為資料 vs 交易資料

海量資料 vs 少量資料

全量分析 vs 取樣分析

(二)解決業務問題不同:**未來 vs 歷史發生

(三)技術手段不同:     clap vs 資料探勘

資料驅動 vs 使用者驅動

自動進行知識發現 vs 互動式分析

(四)參與者不同:計算機 vs 資料分析師

8.機器學習演算法分類

第一種分類方法:有監督學習

無監督學習

半監督學習

第二類分類演算法:分類和回歸

聚類標註

第三種分類方法(重要):生成模型(模稜兩可)【訓練模型思想上有本質區別】

判別模型(給定判斷)

9.機器學習中常用的演算法:

10.機器學習解決問題的框架:

確定目標:業務需求->資料->特徵工程

定義模型:定義損失函式->優化演算法

模型評估:交叉驗證->效果評估

軟工學習 理論篇

在學軟工之前先明確 何為軟體工程,它能做什麼,怎麼做才能為我們所用。先對軟體有乙個初步認識 軟體 程式 資料 文件。軟體是相對於硬體來說的,對比可以總結出軟體的特點 邏輯性 複雜性 高費用。軟體著實給人們帶來了很大的便利,但是它的發展不可能一帆風順的,中間肯定會遇到一系列的問題,產生軟體危機。應時代...

機器學習理論 GMM模型

李航.統計學習方法中高斯混合模型僅介紹一元高斯分布的情況,周志華.機器學習則採用多元高斯分布的寫法,但求解過程不夠突出em演算法的思想。此外,李航.統計學習方法中的一些寫法會產生誤解。因此下面過程主要根據李航.統計學習方法中的推導方法,但會有部分修正。gmm演算法主要利用em演算法來估計高斯混合模型...

機器學習 理論知識

一 混淆矩陣 confusion matrix 混淆矩陣也稱誤差矩陣,是表示精度評價的一種標準格式,用n行n列的矩陣形式來表示。具體評價指標有總體精度 製圖精度 使用者精度等,這些精度指標從不同的側面反映了影象分類的精度。在人工智慧中,混淆矩陣 confusion matrix 是視覺化工具,特別用...