認識每乙個「你」微博中的使用者模型

社交**（social media）相對於傳統網際網路**的最大區別是通過建立人與人之間的聯絡，極大提公升了資訊生產量以及傳播效率。身處社交**中的每個人或組織同時扮演著資訊生產者、傳播者與接受者的角色。

在社交**背景下，使用者生產、傳播和接收資訊更加便捷，使得之前相對集中的使用者興趣和行為變得更加碎片化和離散，因此社交**中的使用者模型的構建和應用也發生了巨大的變化。

刻畫每個使用者，是任何一家社交型別的服務都需要面對的問題。不同的公司針對各自業務會有不同的需求，構建使用者模型的動機和目標也會存在一定差異。從微博自身的角度來講，構建使用者模型的目的包括：

(1) 完善及擴充微博使用者資訊

使用者模型的首要動機就是了解使用者，這樣才能夠提供更優質的服務。但是在微博中使用者的資訊提供得不盡完整，有些是因為平台的引導機制造成的（例如填寫公司學校資訊的時候，相應的機構名或者學校名並不在列表內），有時候又是使用者不願意或懶得提供（例如針對一些非必選項），而且對於使用者自行輸入的內容又很難進行規範化……此外，一些隱性或變化頻繁的資訊（例如使用者的興趣、商業偏好、地理位置的變化等等）也需要通過使用者的行為挖掘出來。

(2) 分析微博生態

除了了解使用者，還需要了解自己。在掌握使用者資訊的基礎上，平台就可以對自身的狀況進行分析，從相對巨集觀的基礎上把握微博的生態環境，為後續的優化和發展提供方向性。例如通過對使用者資訊的聚類，能夠對微博使用者進行人群的劃分，掌握不同人群的活躍程度，資訊的傳播和引爆方式，行為及興趣偏好等等。

(3) 支撐微博業務

在微博中的各項業務都與使用者模型有著直接與間接的關係，無論是基於興趣的推薦提公升使用者價值，精準的廣告投放提公升商業價值，還是針對特定群體的內容運營，使用者模型都是其必不可少的基礎支撐。直接地，使用者模型可以用於興趣匹配、關係匹配的推薦和投放；間接地，可以基於使用者模型中相似的興趣、關係及行為模式去推動資訊及賬號的傳播和成長。

乙個使用者可以從多個方面去刻畫，也就是說使用者模型可以從多個維度來考慮和構建。

圖1 微博使用者模型的維度劃分

使用者屬性和使用者興趣是通常使用者畫像中包含的兩個維度。前者刻畫使用者的靜態屬性特徵，例如使用者的身份資訊（性別、年齡、受教育程度、學校、工作單位……），後者則用於刻畫使用者在資訊篩選方面的傾向（例如使用者的興趣標籤、能力標籤等）。

社交維度是從社交關係及資訊傳播的角度來刻畫使用者的。在社交**中，使用者不在僅僅是乙個個體，使用者以及使用者之間的社交關係構成了一張網路，資訊在這張網路中高速流動，但是這種流動並不是無差別的，資訊的起始點，所經歷的關鍵節點以及這些節點構成的關係圈都是影響資訊流動的重要因素。社交維度就是要量化這些因素以及其影響程度。

行為維度是乙個比較新的研究方向，目的是發現影響使用者屬性、資訊變化的行為因素，分析典型使用者群體的行為模式。一方面可以通過行為模式的復用來促進使用者在微博平台的成長；另一方面也有利於平台認識使用者，和發現新的或異常的使用者行為。

屬性和興趣維度的使用者模型都可以歸入使用者畫像(user profile)的範疇，即對使用者的資訊進行標籤化。一方面，標籤化是對使用者資訊進行結構化，方便計算機的識別和處理；另一方面，標籤本身也具有準確性和非二義性，也有利於人工的整理、分析和統計。

使用者屬性指相對靜態和穩定的人口屬性，例如：性別、年齡區間、地域、受教育程度、學校、公司……這些資訊的收集和建立主要依靠產品本身的引導、調查、第三方提供等，在此基礎上需要進行補充和交叉驗證。

使用者興趣則是更加動態和易變化的特徵，首先興趣受到人群、環境、熱點事件、行業……等方面的影響，一旦這些因素發生變化，使用者的興趣容易產生遷移；其次，使用者的行為（特指在網際網路上的行為）多樣且碎片化，不同行為反映出來的興趣差異較大，在使用者興趣分析的過程中，主要考慮如下幾個方面：

(2) 權重計算：得到了使用者的興趣標籤，還需要針對使用者給這些標籤進行權重賦值，用來區分不同標籤對於該使用者的重要程度。

(3) 時效性：隨著時間的變化，使用者的興趣會發生轉移，有些興趣會貫穿使用者使用社交**的全過程，而有些興趣則是受熱點時間、環境因素等的影響。

如果將微博中的使用者視作節點，使用者之間的關係視作節點之間的邊，那麼這些節點和邊將構成乙個社交的網路拓撲結構，或稱作社交圖譜。微博中的資訊就是在這個圖譜上進行傳播。

從社交的維度建立使用者模型，需要從不同的角度細緻和全面地描述這個社交圖譜的特徵，反應影響資訊傳播的各層面上的因素，尋找節點之間的關聯想，以及刻畫圖譜本身的結構特徵。其中包括：

(1) 使用者個體對資訊傳播的影響：不同使用者在資訊傳播過程中的重要性不一樣，影響大的使用者對於資訊的傳播較影響小的使用者更具有促進作用。

(2) 量化使用者關係的遠近：衡量存在直接關聯（關注、被關注、互粉……）使用者之間的關係遠近，關係越近的使用者之間越容易產生資訊傳播行為。

(3) 延伸使用者之間的關係：通過使用者之間的直接關係（關注、被關注、互粉……），讓本身並不存在直接關係的使用者產生關聯。

(4) 尋找相似的使用者：微博中非對等的關係本身可以認為是一種認證，使用者基於興趣、線下關係、或某種其它原因反應到線上的一種關聯。那麼在關係維度上的相似使用者至少能反應他們在某種因素上的一致性。

(5) 識別關係圈：從關係圖譜的本身的結構出發，從中發掘關聯緊密的群體，有助於資訊的精準投放和推廣。

以上關於關係建模的任務可以看作是逐步深入的，從「個體」-->「關聯」-->「相似」-->「群體」的逐漸深入。

分析使用者的行為，建立行為模式有兩個任務：針對典型個體行為進行時序分片，分析使用者成長的相關因素；針對典型群體的行為進行統計，構建其行為模型。

(1)

典型個體的行為時序分析

所謂典型個體是指某段時間內，成長比較突出的微博使用者。例如從乙個新使用者從新註冊到粉絲過百、過千需要有乙個積累過程，有些使用者積累較快，有些較慢，而這些積累較快的使用者可以作為典型個體；或者某些使用者在某一階段傳播力有限，但在某時刻傳播力激增，無論是互動還是內容傳播覆蓋面都變化很大，這種也可以作為典型個體。

針對典型個體，需要挖掘與其使用者成長相關的行為因素。基本方法是對時間進行分片，獲取使用者在不同時間片上的行為統計，以及在各個時間分片上的使用者成長指標（粉絲數、互動率、傳播力等），如圖2所示。在此基礎上針對使用者行為的統計量的變化，利用關聯性分析或回歸來分析使用者成長與哪些因素有關。

圖2 時間分片上的使用者行為統計

(2)

典型群體行為模式分析

針對典型個體，從使用者的基本資訊、人口資訊、興趣維度，可以將相似的典型使用者劃分為同一的群體，稱作典型群體，針對典型群體中的使用者按照成長程度進行劃分，按不同的成長階段統計使用者行為，即建立了該典型群體的行為模型。

例如，對於「北京，年齡在20~30歲，女性，電商領域，普通賬號」這樣的典型群體，從粉絲數、傳播力、互動率等維度將其劃分到初創、成長、快速提公升、成熟……等階段，針對不同成長階段內的行為組合進行統計，結果構成該群體的行為模式。

構建使用者模型是社交**中的基礎工作，涉及到資料、統計、挖掘等各方面的技術和手段。本文針對微博的特點和業務需要，針對其中的使用者模型構建的目標和任務進行了簡述。全文並沒有涉及具體的方法和原理，後續會有相應的技術文章進行介紹。

需要指出的是，不同於傳統網際網路**，微博作為社交**最大的優勢在於引入了非對等的使用者關係，這種關係不僅令傳播更加高效，也令考慮關係因素成為了使用者建模中（無論是在屬性、興趣、社交還是行為維度上）非常重要手段。

認識每乙個「你」微博中的使用者模型

發給每乙個你珍惜的朋友

Oracle查詢每乙個使用者的最後乙個登入時間

每乙個你不滿意的現在，都有乙個你沒有努力的曾經。

認識每乙個「你」 微博中的使用者模型

發給每乙個你珍惜的朋友

Oracle查詢每乙個使用者的最後乙個登入時間

每乙個你不滿意的現在，都有乙個你沒有努力的曾經。

相關推薦

認識每乙個「你」微博中的使用者模型