分析人的網路軌跡和碎片之四大模式

鄭昀 20090830

人，尤其是活躍的網際網路使用者，都會在網際網路上留下很多碎片，這些碎片也許是他自己產生的，也許是來自於新聞**，也許是來自他的網際網路好友。這些碎片之間，通常會有某種聯絡。

自動收集這些碎片，可以從中拼湊出乙個關於這個人的檢視。理論上，可以自動建立乙個知識庫，像 wikipedia 一樣。

下面我們列出國際上通行的四個模式。

一、基於email位址的使用者資料自動聚合模式

spokeo 可以根據輸入的email位址（比如遍歷你的gmail所有好友），從以下知名或不知名的web2.0服務找到郵箱所對應的使用者幾乎所有公開資料：

amazon、blogger、digg、facebook、flickr、last.fm、linkedin、myspace、stumbleupon、twitter、photobucket、picasa、windows live spaces等等。

我試驗過，在不付費的情況下，還是可以看到一部分gmail好友的常見web2.0服務上的資料，**居多。但老實說，在中國做到這一點不容易，要求使用者始終用乙個email位址註冊各種服務，而且這種資料實際上很難從服務提供商那裡拿到，只能去hack。

二、基於語義分析的實體關聯模式

本模式通常是分析可靠的文字資料，比如新聞資訊，尤其是來自於權威新聞**。

如果文字**不可靠，那就意味著你要做大量的工作去噪了，最常見的就是語法錯誤或者拼寫錯誤。比如中國雅虎人際關係收集的語料，如果還包括論壇或部落格寫手的文章，那麼就會被逼著寫**來矯正大量的語法不通順、成堆的錯別字。

實體名稱專用詞典（人名、地名、組織名）；

實體名稱在句子**現時常見的聯接詞（動詞、形容詞、名詞），尤其是描述關係的名詞，比如「誰的女朋友誰」中的「女朋友」，「誰除了老搭檔誰外，」中的「搭檔」。簡單的做法是尋找兩個實體名前後距離最近的、能表述關係的詞，根據預先設定的詞語權重，決定這句語料要表達的是什麼「關聯」。

再複雜的考慮就是如何解決「重名」，比如叫李偉或王偉的人太多了。

但說到底，這種模式還是通過實體識別和模式匹配，找到公開的權威資料中實體之間的關聯，通過統計以及後期加工，得到的乙個人際關係知識庫。

中國雅虎的人際關係就是這麼乙個產品，「劉德華_雅虎人物搜尋」和「劉德華的人際網」檢視。微軟亞洲研究院的人立方亦如是，「陳·希·同和*** 」檢視。

evri 最開始面世時，不單單能夠看到乙個人和其他人之間的關聯遠近和關聯資訊，還可以按照人與人之間的動作做查詢，比如你可以查詢都有誰讚揚過mj，查詢obama都批評過哪些機構，或者obama對希拉莉·柯林頓都有過哪些情感表述。這都表明 evri 對實體之間的語義處理達到了爐火純青的地步。你可以進一步閱讀我的文章《情感分析方向近況·0908 》了解 evri 。「mj 」檢視。

google 在前幾年推出的「in quotes」能夠自動羅列你所選擇的兩個政治人物對某些關鍵問題的表述，比如預設的obama和mccain。這個可能稍微簡單些，因為它並不需要分析政治人物之間的關聯，也不需要分析人和物之間的關聯到底是什麼，只需要優選羅列即可。

三、基於語義分析的特徵抽取模式

本模式的主要目的是分析給定使用者名稱的行為特徵，試圖用某些預置的模式去涵蓋或描述該使用者。

基於此模式所得到的結果，可以幫助某些系統更好地理解使用者，從而可以做到個性化推送。

這個模式更像是自然語言處理中的「自動分類」之「軟分類」。

mit出品的，它利用自然語言處理技術，收集足夠多的資料，期望成為乙個online persona creator。

比如你輸入乙個人名，它能盡可能地找到線上資料，以便特徵化這個人，最終生成這樣的一張圖：

personas 計算過程的動畫展示比結果更有意思，

畢竟靠語義技術尋找人的網際網路軌跡和碎片並拼接出人的特徵，出錯率太高，即使是對名人都如此，何況普通人。

personas 計算完畢後，你很難估計這個結果到底不靠譜程度有多大，只能通過看中間計算過程顯示的那一篇篇語料來估摸。

有興趣的人可以在 personasweb.html 輸入isaac mao,shizhao,zuola等名id測試。

四、基於social關係的連線分析模式

這個模式的初級階段，其實有無數的服務都曾做過，也就是根據乙個social media服務的好友關係，繪製出乙個大節點圖，畫出幾乎所有人之間的關係。

twitter上的這種服務有：

實際上利用social graph 的資料也可以繪製出類似的連線圖。

以上都是盡可能利用公開的、權威（或可靠）資料，來視覺化或結構化乙個人的線上資料。

鄭昀(follow zhengyun) 北京報道 20090830

分析人的網路軌跡和碎片之四大模式

分析人的網路軌跡和碎片之四大模式

網路丟包的四大原因和修復方法

網路丟包的四大原因和修復方法

分析人的網路軌跡和碎片之四大模式

分析人的網路軌跡和碎片之四大模式

網路丟包的四大原因和修復方法

網路丟包的四大原因和修復方法

相關推薦