輿情中的熱詞分析,沒你想的那麼簡單

2021-09-23 17:41:36 字數 1407 閱讀 9695

阿里雲公眾趨勢分析產品通過雲服務的方式,將阿里巴巴成熟的輿情分析技術共享給廣大開發者。熱詞分析是公眾趨勢分析最近剛剛上線的功能,使用者反饋效果還不錯。這個功能聽起來很簡單,不就是對資料來源進行分詞,然後再統計一下熱度麼?no!它可沒那麼簡單。

良好的分詞是熱詞分析的基礎。對於絕大部分分詞工具來說,最大的挑戰在於識別從未見過的網路熱門詞、各種奇葩的品牌、產品詞等,舉個例子,「安利的空氣淨化器跟霍尼韋爾還有公尺家比怎麼樣」這個句子,我們隨意在網上找到了某款開源的分詞工具,分詞的結果如下:

安利/的/空氣/淨化器/跟/霍尼/韋爾/還有/公尺/家/比/怎麼樣

分詞工具能識別一般的詞語,但是對於品牌詞、產品詞等專有的實體詞,在沒有知識庫的輔助下很難識別。而阿里在網際網路尤其是電商領域耕耘多年,積累了豐富的詞庫,並始終在不斷更新,譬如上述句子,我們可以將其斷成如下形式:

安利:brd/的/空氣淨化器:prd/跟/霍尼韋爾:brd/還有/公尺家:brd/比/怎麼樣

不僅能正確地分詞,而且還能識別出其中的實體,如霍尼韋爾和公尺家是品牌詞(brd),空氣淨化器是產品詞(prd)。目前,公眾趨勢分析背後有百萬級的人名、品牌、位址、組織機構名、商品、品牌詞庫等做支撐。

textrank的演算法思想**於pagerank,旨在通過文字中句子、詞之間的相互投票,為句子、詞進行權重的排序。pagerank假設乙個網頁的入鏈越多,則其權重越高。隨機地為每個網頁分配乙個初始權重,在每一輪投票中,每個網頁將其權重均勻地分配給其出鏈,收斂後(平穩馬爾科夫過程)每個網頁得到的權重值反映了其重要性,每輪投票的數學表述為:

其中d為阻尼係數,(1-d)/n表示每次頁面轉移時有一定的概率會從全網隨機選擇url,這樣可以避免沒有外鏈的懸掛網頁讓所有權重收斂到0。

體驗過熱詞分析功能的讀者會發現,對於每個熱詞,我們提供了與其強關聯的詞,那麼,這些關聯關係如何計算呢?

詞關聯使用點互資訊pmi(pointwise mutual information)來表示,用資訊理論的語言來表述,點互資訊衡量的是「給定乙個隨機變數後,另乙個隨機變數不確定性的減少程度」。假設有兩個詞x和y,則x和y之間的點互資訊由下述公式表示:

其中p(x,y)表示x和y同時出現的概率,p(x)和p(y)分別表示x和y單獨出現的概率。簡單粗暴地理解,就是說相對於單獨出現,某兩個詞更喜歡一起出現,則它們之間的關聯程度越高。

具體的計算公式就不在這公開了,那是我們經過無數次的除錯之後的結果,有興趣的讀者也可以了解一下這篇文章。

極光推送沒你想象的那麼難

好吧 以前沒做過推送,倒是老師講過,但是一般別人嘴裡講的東西理解往往沒有那麼深刻,這裡引一段話強調自己做理解的深刻,沒有貶低老師的意思 教師不吃香而家教卻十分熱火,可見求授知識這東西就像談戀愛,一拖幾十的就是低賤,而一對一的便是珍貴。珍貴的東西當然真貴,乙個小時幾十元,基本上與妓女開的是乙個價。同是...

服務優雅下線,沒你想的那麼簡單?

服務部署,是乙個避免不了的問題。按正常迭代的速度一般兩周會發乙個版本,此時就需要部署新的 發布方式,我相信主流的都是用滾動發布,因為這樣的成本是最低的,機器數量是固定的,一台臺機器輪流發布。但是我們總會在發布過程中碰到一些報錯資訊,那是因為請求還沒結束,某些元件已經強制停止了,比如我們的資料來源,比...

也許事情本身的意義,沒你想的那麼重要。

最近看一部電影,情緒總是容易跟著導演的節奏,一會兒前仰後合的笑,一會兒被劇情打濕眼眶。總共也就1個半小時,自己的感情幾經起伏,也許是自己多愁善感,不過反思這個過程的時候,感覺生活中很多類似的情形,於是想拿一些生活中的小事件來對比。本文想描述的一種狀態,即為當沉浸在一件事情中時,就容易被事物本身的關係...