加州理工機器學習與資料探勘(一)

2021-07-26 06:20:07 字數 1578 閱讀 5034

第一講:

乙個例子:**乙個**者將如何評價乙個電影

一家出租電影的公司將對這個問題感興趣。如果一家公司想提公升內部系統效能?的百分之10,

他在你登陸的時候會推薦一些他們認為你們可能會喜歡的電影

因為他覺得你會對這些電影評價很高

所以他們建立乙個系統,並希望能夠改善他。

10百分之的改善有多大幫助呢?一百萬,很多的意思。

簡單說就是這個工作有意義。

比如財務**時候的應用。

這些人在幹嘛?提供資料,人們進行資料分析,用不同演算法,直到有人獲得了獎勵。

回顧第乙個問題,可以看出機器學習的內涵。機器學習是乙個應用工具

機器學習的內涵:由三個部分組成。

存在乙個模式,沒有模式就會無跡可尋(乙個人評價電影的方法,與他如何評價其他電影有關,也與其他人如何評價這部電影有關)

我們就是要找出這個模型,但是還不能用數學方法確定。所以要機器學習。要依據資料來找出這樣乙個體系。以上就是三個部分。

機器學習的本質:

存在乙個模式。

不能用數學去判定他。

有資料。

比如看電影,對於乙個觀眾,喜歡喜劇?喜歡動作片?喜歡大片還是邊緣電影?喜歡....?喜歡湯姆克魯斯?等等

對於乙個電影,對應這些特徵,

300多個因素?會喜歡某些,又有不協調的部分,總之將電影與觀眾比較,得出結果。

通過機器學習,不用去乙個個調查觀眾了,喝茶就行

在這裡觀眾是乙個由不同因素構成的向量,電影也是。

機器學習:從評價出發,試圖找出和評價相一致的因素。

都缺少乙個萬能公示:銀行用來判斷給你辦信用卡是否有收益,電影出租公司用來計算你是否會喜歡這個電影。

所以依據歷史記錄,反向研究,用於以後情況相同的顧客身上。

輸入x:顧客資訊;

輸出y:結果。

目標函式f:

x領域的目標函式,可以推出y。

用一致的x1,

y1   .....xn,yn

的資料

假設:g :由x推出

y,f未知,

g假設的,已知。

希望g接近f

學習演算法通過例子,得到最終假設。創造出乙個公式,從現成公式模型得出,

從目標函式到資料到學習的演算法到假設集再到最終的假設。

假設集h,選擇學習方法,學習模型就是選出乙個假設集和學習演算法。

乙個簡單的模型:

輸入x1.....xd代表顧客資訊

加權求和?

得到評分。與臨界值進行比較。也就是說,結果是由權重和臨界值決定的。

前提是存在乙個簡單的直線模型,可以劃分出優質顧客、劣質顧客

那兩個引數直接決定畫出的直線。演算法就是改變引數後得到移動的線,最後試圖得到答案。

以上公式就是感知器的假設(加權求和?)

現在有了假設集,提供了需要的資源,現在需要演算法來看資料,來訓練測試需要的資料。再找一邊所有的假設,找到作為最終假設輸出的函式。

給出一組訓練用的資料,起點,選出存在的顧客以及他們的行為。這些資料都是為了讓w全中更準確。

演算法就是更改權向量。

監督學習

非監督學習給你資料,祝你好運。簇。

加強監督學習

筆記 加州理工學院公開課 機器學習與資料探勘 一

對目前在看的乙個公開課做一下筆記 第一課的連線在這裡 這門課是caltech的機器學習的入門課程 就相當於科普性質的 主要想鞏固一下以前學的知識 盡量解釋概念 少貼公式 本門課的講師是yaser abu mostafa教授 caltech的大牛 能可貴的是他跟產業界有很多聯絡 所以這門課講到很多實踐...

機器學習與資料探勘

機器學習的科學成分更重一些 資料探勘的技術成分更重一些 資料分析的角度 資料探勘並沒有機器學習探索人的學習機制這一科學發現任務 資料探勘中的資料分析是針對海量資料進行的 是一門多領域交叉學科,涉及概率論 統計學 畢竟輪 凸分析 演算法複雜度理論等多門學科,專門研究計算機是怎樣模擬或實現人類的學習行為...

資料探勘與機器學習入門

導論 機器學習演算法最適用的場景就是 不便用規則處理的場合 資料探勘 data mining 是有組織有目的地收集資料,通過分析資料使之成為資訊,從而在大量資料中尋找潛在規律以形成規則或知識的技術。機器學習 machine learning,ml 是一門多領域交叉學科,涉及概率論 統計學 逼近論 凸...