《機器學習工程師》無監督演算法3 關聯規則挖掘

2021-08-20 03:13:08 字數 975 閱讀 6077

association rule 

如果乙個人買了a,那麼他買b的概率是多少。

關聯規則挖掘的三個重要的基本概念:support,confidence,lift.

形式化定義:

i = 包含n個二元變數(布林變數),每乙個i代表乙個物品。in=1代表該物品在購物籃中出現,反之等於0就是沒有出現。d = 包含m個交易,稱d為乙個資料庫。每乙個交易tj包含物品集合i的乙個子集。比如下圖t1那一行就是乙個交易,該交易包含乙個完整的物品集合。

乙個關聯規則定義為x=>y(通過是否買x推出是否買y,證明他們是否關聯),x,y都屬於i。一般x,y不相交。(肯定啦,因為要通過x推導出y嘛,買了牛奶肯定會買牛奶對吧)

總共有多少個關聯規則呢?如果給你n個二元變數,都是取1或者0。(2^n - 1)^2 個。

再回過頭來看看support,confidence和lift。

support是基礎:所有的交易中(t是交易總數),t是在t這個資料庫中的資料,t的交易中都出現了x。換言之,就是出現x的交易佔總體交易的多少。

confidence:利用support得到的條件概率。在所有出現x的交易記錄中,有多少條出現y。

lift:分子代表x和y共同出現的概率,分母是x和y獨自出現的乘積。資訊理論中互資訊的定義。

supp(x)和conf(x->y)必須大於某個閾值

理解:如果supp(x)很小,那麼研究這個就沒有意義;conf一樣。

演算法的設計:

2. 定義conf(x->y)的閾值用來挖掘關聯規則->簡單統計 

演算法工程師《機器學習基礎》

機器學習基礎 邏輯回歸,svm,決策樹 1 邏輯回歸和svm的區別是什麼?各適用於解決什麼問題?2 linear svm 和 線性回歸 有什麼異同?答案 基礎知識 3 支援向量機屬於神經網路範疇嗎?4 如何理解決策樹的損失函式?5 各種機器學習的應用場景分別是什麼?例如,k近鄰,貝葉斯,決策樹,sv...

機器學習演算法工程師領域現狀

現在可以說是機器學習演算法工程師最好的時代,各行各業對這類人才的需求都非常旺盛。典型的包括以下一些細分行業 1 推薦系統。推薦系統解決的是海量資料場景下資訊高效匹配分發的問題,在這個過程中,無論是候選集召回,還是結果排序,以及使用者畫像等等方面,機器學習都起著重要的作用。2 廣告系統。除了平台和使用...

機器學習演算法工程師面試 總綱

二.資料輸入 三.特徵工程 四.模型構建 2.線性分類器 3.概率圖 4.聚類 5.回歸分析 6.其他 五.模型評估與驗證 六.面試問題 資料結構 演算法 數學基礎 計算機系統 程式設計 參考文件 bprnn cnnsnn gansvm s3vm tsvm logisitic regression ...