社群發現 SSN LDA演算法學習筆記

ssn-lda(****** social network-lda)是一種基於潛在狄利克雷分配的分層貝葉斯演算法，在ssn-lda中，社群被建模為圖形模型中的潛在變數，並被定義為社會參與者空間上的分布。ssn-線性判別分析的優點是它只需要拓撲資訊作為輸入。該模型在兩個研究合作網路上進行了評估:citeseer和nanosci。實驗結果表明，該方法有望在大規模網路中發現社群結構。

與以往的社群發現研究不同，用基於分層貝葉斯網路的方法，從社會網路中發現概率社群。這樣，每個社會行動者都為社會中的每個社群貢獻了乙份力量，無論大小。我們還提出了三種不同的方法來基於網路中的社交資訊建立社交簡檔（social interaction profiles）。潛在概率模型和三種相關表示方法在來自兩個不同學術團體的兩個合著網路上進行評估，即來自奈米技術領域的奈米科學（nanosci）和來自電腦科學領域的電腦科學（citeseer）。**討論了:(1)基於線性判別分析的大規模網路概率社群發現模型，它只需要網路的拓撲結構；(2)探索了三種不同的社會互動情景表徵方式對社群發現的影響。

本文中唯一的輸入資訊是社會網路的拓撲結構，而不是語義資訊。ssn-lda將網路的結構資訊編碼成簡檔（profiles），並純粹從節點之間的這些社會聯絡中發現社群結構。因此，我們聲稱它更通用，可以應用於任何複雜的基於網路的應用。

2.術語

社交網路g由一對集合組成，包括社交行為者集合v = 和社互動動集e(e1，e2，...，en)，連同乙個社交權重函式:siw : (v × v ) → i。社會行動者集合v的元素是網路的頂點，社會互動集合e的元素是網路的邊，代表相應的社會行動者之間的社會互動的發生。。每個社會互動ei在集合e中被認為是兩個社會行動者之間的二元關係，即ei(vi1，vi2)，siw函式描述了這種互動的強度。

在本文中，節點vi的鄰居**由變數~ ωi編碼，ωij表示節點vi的第j個鄰居。每乙個行動者都以其社會互動簡檔(sip)為特徵，該簡檔被定義為一組鄰居(ωij)和相應的權重(siw(vi，ωij))對。形式上，

隨後，我們指定乙個社交網路包含一組社群ι(ι1，ι2，...ιk ),並且ι中的每個社群被定義為社會行動者空間上的分布。在ssn-lda中，社群分配在圖形模型中被建模為潛在變數(ι)。群落比例變數(θ)由已知引數α的狄利克雷分布調節。同時，每個社會行動者以不同的概率屬於每個社群，因此其社會互動特徵可以表示為潛在社群變數的隨機混合。以下各節更詳細地描述了ssn-lda模型。

****** sn-lda model(ssn-lda)

ssn-lda類似於基於主題的lda模型[17]，社交網路類似於語料庫，社交互動簡檔類似於文件；在社交網路中，**(ωi)的社互動動簡檔的生成過程是:

精確推理對於lda模型來說通常是難以處理的。已經有三種主要的方法來近似地解決這個模型，包括變分期望最大化，期望傳播，和吉布斯抽樣，吉布斯抽樣是馬爾可夫鏈蒙特卡羅(mcmc)模擬的一種特殊情況，其中分布的維k一次交替抽樣乙個，條件是所有其他維的值。我們選擇這種方法來求解ssn-lda模型，因為它在高維模型中通常產生相對簡單的近似推理演算法。

c. gibbs samplers for ssn-lda

social interaction profile representations

社會行為者的社會互動概況共同決定了社會網路的結構和動態。在本文中，我們**了社交網路的三種不同型別的社交互動簡檔表示，即01-sip、012-sip和k-sip。值得一提的是，這樣的探索絕非全面。然而，它為設計更複雜的社互動動模式提供了有價值的見解

（1）01-sip:在01-sip方法中，如果一對科學家共同撰寫了一篇或多篇文章，他們之間就有了優勢。

（2）012-sip:然而，01-sip的缺點之一是社交簡檔沒有考慮到除了直接鄰居之外的節點。為了緩解這個問題，我們提出了乙個012-sip模型，該模型考慮了節點的鄰居。

（3）兩種定義社互動動檔案的方法都沒有考慮合作的頻率。本節描述了乙個k-sip模型，其中邊的權重資訊被定義為兩個作者之間的協作次數。即

如果研究員vi1和vi2研究員過去合作過k次。這樣，所見即所得功能反映了互動的強度。

社群發現 SSN LDA演算法學習筆記

社群發現演算法

Berlekamp Massey演算法學習筆記

Berlekamp Massey演算法學習筆記

社群發現 SSN LDA演算法 學習筆記

社群發現演算法

Berlekamp Massey演算法學習筆記

Berlekamp Massey演算法學習筆記

相關推薦

社群發現 SSN LDA演算法學習筆記