中文情感詞典的構建

2021-09-11 15:31:58 字數 1442 閱讀 1724

通用情感詞典的構建主要是通過將目前開源的情感詞典整合起來,篩去重複和無用的單詞。

目前網上開源的情感詞典包含有:知網(hownet)情感詞典、台灣大學(ntsusd)簡體中文情感極性詞典、大連理工大學情感詞彙本體。

前兩個都可以在網上找到,第三個需要到其學校官網申請,說明完用途即可獲得。

上述情感詞典年代都已經比較久遠,所以我們可以採取一定方法對其擴充套件。這裡我們採用的方法是將詞典的同義詞新增到詞典裡。

我們通過使用哈工大整理的同義詞詞林來獲取詞典的同義詞,需要一提的是第一版的同義詞林年代較為久遠,現在也有哈工大整理的同義詞林擴充套件版。

使用的鏈結在這裡:哈工大同義詞林擴充套件版

使用**編寫時也可以利用python的synonyms庫來獲取同義詞。

其已經開源,鏈結為:synonyms

如:

import synonyms

print("人臉: %s" % (synonyms.nearby("人臉")))

print("識別: %s" % (synonyms.nearby("識別")))

構建特定領域的情感詞典需要利用pmi互資訊計算與左右熵來發現所需要的新詞。具體方法我們可以新增情感種子詞,來計算分好詞的語料中各個詞語與情感種子詞的互資訊度與左右熵,再將互資訊度與左右熵結合起來,選擇出與情感詞關聯度最高的topn個詞語,將其新增到對應的情感詞典。

這裡可以參考鏈結link

具體例子:4g, 上網絡卡,4g上網絡卡;如果4g的詞頻是2,上網絡卡的詞頻是10,4g上網絡卡的詞頻是1,那麼記單單詞的總數有n個,雙單詞的總數有m個,則有下面的公式

我們這裡使用左右熵來衡量主要是想表示預選詞的自由程度(4g上網絡卡為乙個預選詞),左右熵越大,表示這個詞的左邊右邊的詞換的越多,那麼它就很有可能是乙個單獨的詞。

我們這裡的左右熵定義為(以左熵為例):

這裡我們還是舉乙個具體的例子來理解它

假設4g上網絡卡左右有這麼幾種搭配

[買4g上網絡卡, 有4g上網絡卡,有4g上網絡卡, 丟4g上網絡卡]

那麼4g上網絡卡的左熵為

這裡a = [買, 有, 丟]

後面就是具體的實現了,這裡的難點就在如何獲得這些概率值,就博主看到的用法有:利用搜尋引擎獲取詞彙共現率即p(x,y)、利用語料庫獲取各個詞出現概率

情感極性 關於中文情感分類的知識

文字分類,就是在預定義的分類體系下,根據文字的特徵 內容或屬性 將給定文字與乙個或多個類別相關聯的過程。1 構建分類類別體系 2 獲取帶有類別標籤的文字 3 文字的特徵選擇及權重計算 4 分類器的選擇與訓練 5 文字的分類應用 對應每乙個類別,都可以訓練出對應的詞特徵檔案。對應到類別的細分或者合併,...

中文情感分析語料庫

中文情感分析語料庫 中文情感分析的語料庫非常少,這五個中文語料庫是我在網上的蒐集的。url 資料集2 2012年ccf自然語言處理與中文計算會議 中文微博情感分析測評資料 url 條微博,共約 20000 條微博。資料採用xml格式,已經預先切分好句子。每條句子的所有標註資訊都包含在元素的屬性中。其...

中文情感分析語料庫

原文 中文情感分析的語料庫非常少,這五個中文語料庫是我在網上的蒐集的。url 資料集2 2012年ccf自然語言處理與中文計算會議 中文微博情感分析測評資料 url 條微博,共約 20000 條微博。資料採用xml格式,已經預先切分好句子。每條句子的所有標註資訊都包含在元素的屬性中。其中opinio...