推薦演算法之好友推薦

寫點自己的理解，大牛請直接略過。

好友推薦裡有推薦一些你可能認識的人，其中二度人脈是其中一種。

比如：何炅和謝娜在微博上相互關注，那用二度人脈的方法就是找和謝娜相互關注的人（如張杰，海濤，某人），這時候[張杰，海濤，某人]就是何炅的二度人脈，排除掉何炅已經相互關注的張杰，剩下[張杰和某人]，於是何炅發現忘記關注海濤了，接著互粉了。

在hadoop上計算使用者們的二度人脈採用兩步：表示

1.第乙個map輸入互粉的 , , , ,

reduce階段: 得到

輸出(2=二度人脈，1=互粉)

2. map輸入上乙個階段輸出。

reduce階段:開始累加二度的值，出現是互粉的則為非二度。

其實b和d 已經互粉。

c和d是二度人脈，出現值為2，出現的越高表示他們月有可能相互認識。越值得推薦給對方。

按照微博的使用者數量估計一下資料量。

1. 1億的使用者，平均有100個互粉使用者，則有100億的資料奔向reduce階段。

（假設其中有1萬的使用者，他們有1000個互粉，則reduce輸出可能達到1w*1000*1000=100億的資料量輸出，容易發生資料傾斜的情況。）總的有可能會有 1億*100*100 = 1萬億的輸出資料，儲存空間需要20t左右（未壓縮），

2. 第二個階段的資料量由第乙個階段決定。但是第二階段需要啟動更多reduce去算完這1萬億的資料，所以這個階段會和第乙個階段一樣耗時。

希望有跑過這個量級的朋友分享一下經驗。