馬蜂窩使用者內容貢獻能力模型構建

2021-09-24 08:15:20 字數 2400 閱讀 4423

在使用者個性化時代,垂直化、精細化的運營,被看作企業重要的競爭力。完整、清晰的使用者畫像體系,可以幫助企業從海量的使用者資訊中發掘每個使用者的行為特性、潛在能力及興趣等資訊,從而為使用者提供具有針對性的服務。

馬蜂窩擁有海量的使用者出行體驗資料,在成長和發展的過程中一直在探索如何通過基於海量 ugc 的資料探勘出每個使用者的基本特徵、對旅遊主題、目的地的偏好和潛在興趣,從而精準地定位和標記使用者,將優質的內容、商品和服務與使用者進行連線。

今天這篇文章,主要圍繞馬蜂窩使用者標籤體系中的「使用者貢獻能力」標籤,來介紹我們如何挖掘那些對馬蜂窩的 ugc 有貢獻能力的群體,這樣做的價值是什麼。

為了更好地幫助使用者提公升決策效率,我們需要挖掘出那些擁有豐富的自由行經驗,並且具有一定內容生產能力的旅行者,圍繞內容增長、使用者活躍制定相關策略。

如果只通過使用者的等級劃分來評估該使用者的影響力,顯然是存在問題的。我們都知道,使用者等級作為使用者激勵體系中的一種方式,是對使用者過往行為的認可,因此等級一般只會上公升不會下降,這種特點導致:

**使用者公升級以後等級固化:**例如使用者很長時間沒有登入,但從等級來看他的影響力依然很強;

無法感知使用者的內容輸出意願:即使使用者等級高且在近期有過登入行為,但對哪些話題感興趣、是否存在生產內容的意願我們無從感知。

為了解決以上問題,我們將內容貢獻能力作為使用者畫像標籤體系中的乙個字段進行挖掘,並應用到馬蜂窩很多業務當中,比如:

旅遊問答邀請

馬蜂窩問答可以看成是一種更快捷、簡短、個性化的旅遊攻略。我們可以圈定近期在該領域內容貢獻豐富的、以及內容受歡迎的相關使用者,推薦給提問者定向邀請回答,保證旅行者的問題能夠快速、準確地被解答。

馬蜂窩 kol 挖掘

圖:馬蜂窩旅行家專欄

圖:馬蜂窩指路人俱樂部

使用者內容貢獻能力 = 使用者的輸出意願 + 使用者的活躍度 + 使用者的受歡迎程度

rfm 模型我們很多人都不陌生,這是衡量使用者價值和使用者創利能力的經典工具。這裡我們基於馬蜂窩旅遊社群的場景,將 rfm 模型的三個因素調整為:

a(activity):使用者活躍度

e^(-αt):最近一次訪問時間距今天的時間衰減,採用指數衰減,其中 α 為衰減係數。這裡利用指數衰減函式做為時間衰減因子,f*e 可以理解為使用者的活躍的熱度,時間衰減因子體現了使用者活躍的熱度隨著時間逐漸衰減的過程。在馬蜂窩場景下,通過對實際資料的調參,我們選擇當時間 t 為一年(365)的時候衰減為最小值 0.0001,此時帶入公式求出 α 的值。這裡考慮的是使用者一年未貢獻任何的內容則意願衰減至最低,求得 α 為 0.0189;

以上,w 代表的是使用者受歡迎程度的綜合得分,α、β、χ 分別代表不同型別內容的權重因子。這裡通過計算全站不同形式的文章被贊的情況進行分析,得出 α:β:χ = 1:1.05:0.98 ,為了計算方便近似取 α、β、χ  均為1。

遊記:w1:0.1,w2:0.5,w3:0.2,w4:0.4;

問答:w1:0.2,w2:0.9,w3:0.3,w4:0.6;

筆記:w1:0.1,w2:0.5,w3:0.3,w4:0.6;

使用者分享意願是根據為使用者打標籤和 pagerank 來實現。將使用者貢獻內容標籤作為使用者興趣的代表,然後結合實際場景,根據 pagerank 計算模型來分析話題與使用者之間的關係,結合標籤相似度計算向使用者推薦其感興趣、分享意願高的內容。比如當使用者貢獻內容標籤與當前話題的標籤分類屬於同一類的時候,我們可以理解為使用者對當前同類標籤的話題輸出意願是比較強的。如果使用者還貢獻過當前話題標籤相類似的內容,使用者的分享意願會對應提高。如下:

d 代表使用者的內容寫作意願程度,d_i 代表使用者對某一型別的文章的貢獻意願(比如寫作遊記的意願);

t_i 代表使用者在過去時間生產的某一型別內容佔使用者分享的所有內容比值,其中 t_1 代表遊記,t_2 代表問答,t_3 代表筆記;

c_i 代表使用者寫過的某一型別的文章其**被評選為優質的數量,同理 c_1 為貢獻優質遊記的數量,c_2 為貢獻優質問答數量,c_3 為貢獻優質筆記數量。

n 代表阻尼係數,這裡預設 n 值為 0.85。

綜上,通過「使用者的輸出意願 + 使用者的活躍度 + 使用者的受歡迎程度」,我們就可以給出相應的使用者 ugc  等級,從而使使用者的內容貢獻能力得到客觀、有效地量化。

使用者內容貢獻模型充分考慮了使用者等級設定中沒有突出使用者行為型別、時間衰減因素,以及沒有充分挖掘使用者興趣的三個問題,提出了一種新的模型視角,並在馬蜂窩的當前產品中充分應用。

關注馬蜂窩技術,找到更多你想要的內容

馬蜂窩分享

今天早上爬馬蜂窩的資料,還在檢查報錯的時候,就發現自己的ip被ban,真心慘,資料沒拿到,ip還被封,新手太天真,挑逗 這種大型內容分享平台的反爬蟲,因此想做乙個簡單的總結,希望自己的經驗可以對大家,以及自己以後的爬蟲之旅有幫助 user agent cookie,不夠使 1.這次並不是完全的裸爬。...

題目 智捅馬蜂窩

背景為了統計小球的方案數,平平已經累壞了。於是,他摘掉了他那800度的眼鏡,躺在樹下休息。後來,平平發現樹上有乙個特別不一樣的水果,又累又餓的平平打算去把它摘下來。題目描述 現在,將大樹以乙個n個節點的無向圖的形式給出,每個節點用座標 xi,yi 來表示表示,平平要從第乙個點爬到第n個點,除了從乙個...

rqnoj86 智捅馬蜂窩

題目描述 背景為了統計小球的方案數,平平已經累壞了。於是,他摘掉了他那800度的眼鏡,躺在樹下休息。後來,平平發現樹上有乙個特別不一樣的水果,又累又餓的平平打算去把它摘下來。題目描述 現在,將大樹以乙個n個節點的無向圖的形式給出,每個節點用座標 xi,yi 來表示表示,平平要從第乙個點爬到第n個點,...