機器學習（10）推薦系統

估計這章內容後面來的概率也比較低吧，學到一點思想，但畢竟現在推薦系統作為企業超看重的部分，發展較好，這些內容是不夠的，太入門了

推薦系統能領悟特徵學習的思想，不需要手動建立特徵

未防止後面看不懂，這裡做個說明：nu表示使用者數量，nm表示電影數量，r(i,j)=1表示使用者j看過電影i，y(i,j)表示使用者j給電影i的評分僅當r=1時

接下來說的θ和x都是向量：

基於內容的推薦演算法:假設電影種類分為兩種，用特徵x1,x2表示電影偏向哪一種型別，新增x0作為截距特徵。那麼每乙個電影就有乙個特徵向量x(i)。對每乙個使用者j學習乙個引數θ(通常是n+1維，n為特徵數量)，θtxi就等於電影i的**評分。

演算法給出x來學習θ，形同於線性回歸，梯度下降。這種演算法較簡單，但是已知的是各個電影的特徵量，愛情部分佔比，動作佔比等。

同理，若x未知，但是θ已知，可以用θ來學習x

協同過濾，自行學習所要用的特徵。現假設已知使用者的特徵偏好θ。現在是給出θ來學習x，協同過濾就是θ->x->θ->x...的過程

為了簡化隨機θ，然後求x求θ再求x的過程，提出協同過濾演算法:x學習θ時是使用者對所有電影的評價，θ學習x時是一部電影所有使用者的評價，協同過濾兩者統一起來，是所有電影使用者有評價時的求和，最小化代價函式時即求令x和θ同時進行最小化

演算法:初始化所有x和θ值，然後梯度下降使代價函式最小化

簡單點說，協同過濾就是同時考慮x和θ，共同搭建函式

向量化-低秩矩陣分解:協同過濾的一種方法，將**得分分別用x和θ矩陣表示。

均值規範化:問題由來，如果乙個使用者對物品(如電影)未評分，最小化代價函式j時會使θ向量全為0則**時所有得分都為0，這樣不好。均值規範化作為協同過濾的預處理，減去均值，最後**評分時加上均值，這樣乙個從未評分的使用者的**就是平均值了

機器學習（10） 推薦系統