《R語言資料探勘》 1 4 社交網路挖掘

2021-09-23 16:25:27 字數 1137 閱讀 6879

1.4 社交網路挖掘

正如我們前面提到的,資料探勘是從資料中發現乙個模型,社交網路挖掘就是從表示社交網路的圖形資料中發現模型。

社交網路挖掘是網路資料探勘的乙個應用,比較流行的應用有社會科學和文獻計量學、pagerank和hits演算法、粗粒度圖模型的不足、增強模型和技術、主題提取的評估以及網路的評估與建模。

社交網路

當涉及社交網路的討論時,你會想到facebook、google+和linkedin等。社交網路的基本特徵如下:

存在乙個參與網路的實體集合。通常情況下,這些實體是人,但它們也完全可能是其他實體。

網路的實體之間至少存在一種關係。在facebook上,這種關係被稱為朋友,有時,這種關係要麼存在要麼不存在,兩個人要麼是朋友要麼不是朋友。然而,在社交網路的其他例子中,關係有乙個度。這個度可以是離散的,比如在google+上,朋友、家人、相識或者不相識;這個度也可能是乙個實際的數字,比如平均一天內兩個人相互交談所花費的時間。

社交網路有乙個非隨機性或者忠誠性的假設。這個條件最難形式化,但直觀解釋是關係趨於集中;也就是說,如果實體a與b和c都相關,那麼b與c相關的概率就高於平均水平。

下面是社交網路的一些種類:

**網路(telephone network):該網路的節點是**號碼,代表個體。

合作網路(collaboration network):該網路的節點代表發表了研究**的個體,連線兩個節點的邊表示聯合發表一篇或者多篇**的兩個個體。

社交網路以無向圖建模。實體是節點,如果兩個節點根據刻畫網路的關係相互關聯,那麼就有一條邊連線兩個節點。如果相關聯的關係有乙個度,那麼這個度就通過標記邊來表示。

這裡有乙個例子,它是用r語言的sna程式包中的科爾曼高中朋友資料(coleman』s high school friendship data)進行分析。資料**於對某個學年同一高中的73個男孩之間的友好關係的研究,所有被調查物件提供了兩個時間點(春季和秋季)來報告其關係。資料集的名稱是coleman,它是r語言中的陣列型別。節點代表乙個具體的學生,線代表兩個學生之間的關係。

《R語言資料探勘》 1 3 資料探勘

1.3 資料探勘 資料探勘就是在資料中發現乙個模型,它也稱為探索性資料分析,即從資料中發現有用的 有效的 意想不到的且可以理解的知識。有些目標與其他科學,如統計學 人工智慧 機器學習和模式識別是相同的。在大多數情況下,資料探勘通常被視為乙個演算法問題。聚類 分類 關聯規則學習 異常檢測 回歸和總結都...

《R語言資料探勘》 1 6 網路資料探勘

1.6 網路資料探勘 網路挖掘的目的是從網路超連結結構 網頁和使用資料來發現有用的資訊或知識。網路是作為資料探勘應用輸入的最大資料來源之一。網路資料探勘基於資訊檢索 機器學習 machine learning,ml 統計學 模式識別和資料探勘。儘管很多資料探勘方法可以應用於網路挖掘,但是由於異構的 ...

R語言資料探勘資料

包含理論知識與rpart包例項。包含演算法的自行實現,以及rweka包的c4.5演算法 tree包的cart演算法。離散選擇模型大師kenneth train的個人主頁,提供了matlab r和gauss的源 個人推薦r 中的rsghb包,採用的估計方法是hierarchical bayes演算法,...