《R語言資料探勘》 1 4 社交網路挖掘

1.4　社交網路挖掘

正如我們前面提到的，資料探勘是從資料中發現乙個模型，社交網路挖掘就是從表示社交網路的圖形資料中發現模型。

社交網路挖掘是網路資料探勘的乙個應用，比較流行的應用有社會科學和文獻計量學、pagerank和hits演算法、粗粒度圖模型的不足、增強模型和技術、主題提取的評估以及網路的評估與建模。

社交網路

當涉及社交網路的討論時，你會想到facebook、google+和linkedin等。社交網路的基本特徵如下：

存在乙個參與網路的實體集合。通常情況下，這些實體是人，但它們也完全可能是其他實體。

網路的實體之間至少存在一種關係。在facebook上，這種關係被稱為朋友，有時，這種關係要麼存在要麼不存在，兩個人要麼是朋友要麼不是朋友。然而，在社交網路的其他例子中，關係有乙個度。這個度可以是離散的，比如在google+上，朋友、家人、相識或者不相識；這個度也可能是乙個實際的數字，比如平均一天內兩個人相互交談所花費的時間。

社交網路有乙個非隨機性或者忠誠性的假設。這個條件最難形式化，但直觀解釋是關係趨於集中；也就是說，如果實體a與b和c都相關，那麼b與c相關的概率就高於平均水平。

下面是社交網路的一些種類：

**網路（telephone network）：該網路的節點是**號碼，代表個體。

合作網路（collaboration network）：該網路的節點代表發表了研究**的個體，連線兩個節點的邊表示聯合發表一篇或者多篇**的兩個個體。

社交網路以無向圖建模。實體是節點，如果兩個節點根據刻畫網路的關係相互關聯，那麼就有一條邊連線兩個節點。如果相關聯的關係有乙個度，那麼這個度就通過標記邊來表示。

這裡有乙個例子，它是用r語言的sna程式包中的科爾曼高中朋友資料（coleman』s high school friendship data）進行分析。資料**於對某個學年同一高中的73個男孩之間的友好關係的研究，所有被調查物件提供了兩個時間點（春季和秋季）來報告其關係。資料集的名稱是coleman，它是r語言中的陣列型別。節點代表乙個具體的學生，線代表兩個學生之間的關係。

《R語言資料探勘》 1 4 社交網路挖掘

《R語言資料探勘》 1 3 資料探勘

《R語言資料探勘》 1 6 網路資料探勘

R語言資料探勘資料

《R語言資料探勘》 1 4 社交網路挖掘

《R語言資料探勘》 1 3 資料探勘

《R語言資料探勘》 1 6 網路資料探勘

R語言資料探勘資料

相關推薦