興趣標籤體系告訴我，閒魚的95後是這樣的

— — "水果糖小椿 m39 暫掛"

— — "列表科幻？"

不知大家能否讀懂上面的對話，但在閒魚，這樣的對話每天都在發生。資料顯示，閒魚約30%的使用者年齡不滿25歲。了解這些95後的興趣偏好，對閒魚服務年輕使用者，實現精細化運營有著十分重要的意義。因此，我們希望用資料探勘的方式，對使用者的興趣偏好進行打標，建立具有閒魚特色的興趣標籤體系，為閒魚的精細化運營提供物料，提高使用者對閒魚的活躍度和忠誠度。

相比於商品的結構化資訊，興趣愛好的表達具有更強的靈活性。其範圍幾乎沒有限制，可以是乙個很小眾的領域，如抽盲盒、徒手攀岩；也可以是乙個很寬泛的風格，如復古風，暗黑系。因此，如何做到高效精準地理解使用者，是興趣標籤建設面對的最大挑戰。

在興趣標籤建設初期，我們首先梳理了理解使用者興趣偏好的3個關鍵點：

基於以上3點思考，我們對業內常見的標籤體系生產方式進行了調研。業內常見的標籤生產方式可以分為 1）模型** 和 2）行為統計兩種。

模型**的方式通過構建機器學習模型，對使用者在某個興趣點上的感興趣程度進行**打分，得分越高，興趣越濃厚，通常可分為有監督和無監督兩類。該方法的優點是準確率高，缺點是必須有足夠體量的樣本，且為了保證準確性，往往採用二分類的方法，每種興趣都要收集足夠的樣本分別構建模型，效率低且計算成本高。

行為統計的方法是基於使用者歷史在興趣內容上的行為進行統計打分，通常會考慮行為型別、行為頻次和行為時間衰減等因素，得分越高興趣越濃厚。該方法計算簡便、可解釋性強，但由於統計資訊沒有泛化和自學習的能力，需要在統計的同時考慮到覆蓋率和時效性。

興趣標籤體系解決方案

選型初期，我們與閒魚社群的工程團隊一起，討論了兩套方案：

tf-idf是一種文字挖掘演算法，用以計算某個單詞對一篇文章的重要程度。其主要思想是：如果某個單詞在一篇文章**現的頻率高，並且在其他文章中很少出現，則認為此單詞能夠很好地標記文章的主題，具有良好的區分能力。tf-idf其實是tf*idf，其中，

體現了該單詞在單檔案中的出現頻率；

體現了該單詞在檔案集合中的類別區分能力。

單詞在同一份檔案**現的頻率越高，且檔案集合中包含該詞的檔案數越少，說明單詞的文字分類能力越強，越能體現檔案主題。

這裡，我們將乙個興趣領域看做乙個單詞，乙個使用者看做乙個檔案，全量使用者看做檔案集合，則使用者在不同興趣領域的tf-idf可表示為

通過這種方式，我們可以真正對興趣領域有偏好的使用者，標記為興趣人群。

目前標籤體系已經完成了第一階段的建設。第一階段重點對95後最熱衷的興趣領域進行打標，成果如下：

除了覆蓋量上的突破，標籤體系同樣在實際業務中拿到了投放效果，驗證了人群的準確度。在一期建設完成後，我們將標籤體系應用於閒魚的直播業務，帶來了實際的效果提公升：

由於專案時間緊急，興趣標籤以快速實現業務目標為準則進行了初版建設，後續隨著業務的發展，我們的標籤體系也會逐漸完善

豐富使用者的行為資訊，在現有的行為資訊基礎上，增加使用者在社群、本地化或文娛等場景下的行為，對使用者進行更加豐富和全面的刻畫

興趣標籤體系告訴我，閒魚的95後是這樣的

我的同事告訴我的

北大青鳥貼吧，告訴我，封我ID的理由。

我希望四年前就有人告訴我的事情

興趣標籤體系告訴我，閒魚的95後是這樣的

我的同事告訴我的

北大青鳥貼吧，告訴我，封我ID的理由。

我希望四年前就有人告訴我的事情

相關推薦