輿情中的熱詞分析，沒你想的那麼簡單

阿里雲公眾趨勢分析產品通過雲服務的方式，將阿里巴巴成熟的輿情分析技術共享給廣大開發者。熱詞分析是公眾趨勢分析最近剛剛上線的功能，使用者反饋效果還不錯。這個功能聽起來很簡單，不就是對資料來源進行分詞，然後再統計一下熱度麼？no！它可沒那麼簡單。

良好的分詞是熱詞分析的基礎。對於絕大部分分詞工具來說，最大的挑戰在於識別從未見過的網路熱門詞、各種奇葩的品牌、產品詞等，舉個例子，「安利的空氣淨化器跟霍尼韋爾還有公尺家比怎麼樣」這個句子，我們隨意在網上找到了某款開源的分詞工具，分詞的結果如下:

安利/的/空氣/淨化器/跟/霍尼/韋爾/還有/公尺/家/比/怎麼樣

分詞工具能識別一般的詞語，但是對於品牌詞、產品詞等專有的實體詞，在沒有知識庫的輔助下很難識別。而阿里在網際網路尤其是電商領域耕耘多年，積累了豐富的詞庫，並始終在不斷更新，譬如上述句子，我們可以將其斷成如下形式：

安利:brd/的/空氣淨化器:prd/跟/霍尼韋爾:brd/還有/公尺家:brd/比/怎麼樣

不僅能正確地分詞，而且還能識別出其中的實體，如霍尼韋爾和公尺家是品牌詞（brd）,空氣淨化器是產品詞（prd）。目前，公眾趨勢分析背後有百萬級的人名、品牌、位址、組織機構名、商品、品牌詞庫等做支撐。

textrank的演算法思想**於pagerank，旨在通過文字中句子、詞之間的相互投票，為句子、詞進行權重的排序。pagerank假設乙個網頁的入鏈越多，則其權重越高。隨機地為每個網頁分配乙個初始權重，在每一輪投票中，每個網頁將其權重均勻地分配給其出鏈，收斂後（平穩馬爾科夫過程）每個網頁得到的權重值反映了其重要性，每輪投票的數學表述為：

其中d為阻尼係數，（1-d）/n表示每次頁面轉移時有一定的概率會從全網隨機選擇url，這樣可以避免沒有外鏈的懸掛網頁讓所有權重收斂到0。

體驗過熱詞分析功能的讀者會發現，對於每個熱詞，我們提供了與其強關聯的詞，那麼，這些關聯關係如何計算呢？

詞關聯使用點互資訊pmi（pointwise mutual information）來表示，用資訊理論的語言來表述，點互資訊衡量的是「給定乙個隨機變數後，另乙個隨機變數不確定性的減少程度」。假設有兩個詞x和y，則x和y之間的點互資訊由下述公式表示：

其中p(x,y)表示x和y同時出現的概率，p(x)和p(y)分別表示x和y單獨出現的概率。簡單粗暴地理解，就是說相對於單獨出現，某兩個詞更喜歡一起出現，則它們之間的關聯程度越高。

具體的計算公式就不在這公開了,那是我們經過無數次的除錯之後的結果，有興趣的讀者也可以了解一下這篇文章。

輿情中的熱詞分析，沒你想的那麼簡單

極光推送沒你想象的那麼難

服務優雅下線，沒你想的那麼簡單？

也許事情本身的意義，沒你想的那麼重要。

輿情中的熱詞分析，沒你想的那麼簡單

極光推送沒你想象的那麼難

服務優雅下線，沒你想的那麼簡單？

也許事情本身的意義，沒你想的那麼重要。

相關推薦