《推薦系統 技術 評估及高效演算法》一2 6 總結

2021-09-23 14:40:10 字數 1562 閱讀 2005

本章介紹了在設計推薦系統中可能用到的主要的資料探勘方法和技術。我們也總結了在文獻中提到的用法,提供了如何以及在哪用到它們一些粗略指導。

我們從綜述在預處理步驟可能用到的技術開始。首先,2.2.1節回顧了如何選擇合適的距離衡量指標。在後面的步驟中大部分的方法需要它。余弦相似度和皮爾遜相關度是一般可接受最好的選擇。儘管付出了許多的努力來提高這些距離指標,但是最近的工作似乎表明距離函式的選擇不是這麼重要。然後,在2.2.2節回顧了最基礎的抽樣,其應用是為了選擇原始大資料集的子集,或者是劃分訓練和測試集。最後,我們討論降維技術的使用,諸如,在2.2.3節中主成分分析(pca)和奇異值分解(svd)作為一種方法來解決維度災難問題。我們解釋了一些使用降維技術的成功案例,特別是在netflix大獎的環境中。

在2.3節中,我們回顧了主要的分類方法:即近鄰,決策樹,基於規則分類,貝葉斯網路,人工神經網路,支援向量機。我們看到,儘管knn(見2.3.1節)的cf是首選的方法,但是所有這些方法都可以應用在不同的環境中。決策樹(見2.3.2節)可以被用來匯出基於物品內容的模型或者是模擬系統的特殊部分。決策規則(見2.3.3節)可以從預先存在的決策樹中推導出,或者是被用來引入商業或者是領域知識。貝葉斯網路(見2.3.4節)是基於內容的推薦中乙個流行的方法,但它也可以用來生成乙個基於模型的協同過濾系統。類似的方法,人工神經網路能夠被用來匯出基於模型的推薦,也可以用來結合/混合其他幾種演算法。最後,支援向量機(見2.3.6節)作為一種方法來推斷出基於內容的分類或者是匯出cf模型而流行。

對於推薦系統來說,選擇合適的分類器不容易,尤其是一些感知判斷任務和資料依賴的情況下。在cf的案例中,一些結果似乎表明基於模型方法,使用如svm或者是貝葉斯網路,能夠稍微提高標準knn分類的效能。但是,這些結果不顯著並且很難推廣。在基於內容的推薦系統的例子中有些證據表明,在一些例子中貝葉斯網路執行效果比簡單方法要好,如決策樹。但是,更加複雜的非線性分類,如ann或svm,執行效果是否更好還不是很清楚。

因此,給特定的推薦任務選擇合適分類器在今天仍有許多探索的地方。實際的經驗規則是從最簡單的方法做起,並且只有在效能的提公升值得時才採用複雜方法。效能增益應該平衡不同的維度,如**精確度或計算效率。

我們在2.4節中回顧了聚類演算法。聚類在推薦系統中一般被用來提高效能。不管是在使用者空間還是物品空間,較早進行聚類步驟都能減少隨後要做的計算距離的運算元量。但是,這一般以較低的精確度為代價,所以處理時要慎重。事實上,通過使用降維技術(如svd)提高效率在一般的例子中是好的選擇。與分類相反,沒有那麼多的聚類演算法在推薦系統的環境中使用。k-means(見2.4.1節)演算法由於簡單和相對有效,很難找到實用的替代者。我們在2.4.2節中綜述了它們中一些演算法,如分層聚類或訊息傳遞演算法。儘管這些技術還沒有應用在推薦系統中,但為將來的研究提供了有希望的出路。

最後,在2.5節中,我們描述了關聯規則並總結了它們在推薦系統的使用。關聯規則為推薦物品提供了直觀的框架,只要有乙個顯式或隱式的事務。儘管存在有效的演算法來計算關聯規則,而且已經被證明比標準knn的cf準確率好,但是他們仍不是受青睞的方法。

在設計推薦系統中選擇正確的資料探勘技術是乙個複雜的任務,其一定受許多特殊問題約束。但是,我們希望本章中技術和經驗的簡短綜述能夠幫助讀者做出更加合理的決定。除此之外,我們也發現了有待進一步提高的領域和令人興奮的研究點,以及接下來有待研究的相關研究點。

《推薦系統 技術 評估及高效演算法》一2 1 簡介

推薦系統典型地運用了其他相鄰領域的技術和方法,如人機互動和資訊檢索。但是,大多數系統的核心演算法都可以理解成資料探勘技術的乙個特例。資料探勘的過程一般由三個連續執行的步驟組成 資料預處理 59 資料分析和結果解釋 見圖2.1 我們將在2.2節中分析一些最重要的資料預處理方法。鑑於資料抽樣 資料降維 ...

推薦演算法 推薦系統的評估

其中 ep 是測試資料集合 rs ua i ualu lu u 待推薦的列表大小 離線測試,使用者 u在測試集中影片數量 未打分的影片數量 iu a 是 影片 a 在使用者推薦列表中的排名ap x i 1x pre dict ioni ch ange inre call i ap 2 p redi ...

推薦系統演算法(2)

協同過濾 cf 推薦演算法通過在使用者活動中尋找特定模式來為使用者產生有效推薦。它依賴於系統中使用者的慣用資料,例如通過使用者對其閱讀過書籍的評價可以推斷出使用者的閱讀偏好。這種演算法的核心思想就是 如果兩個使用者對於一些項的評分相似程度較高,那麼乙個使用者對於乙個新項的評分很有可能類似於另乙個使用...