中文情感詞典的構建

通用情感詞典的構建主要是通過將目前開源的情感詞典整合起來，篩去重複和無用的單詞。

目前網上開源的情感詞典包含有：知網（hownet）情感詞典、台灣大學（ntsusd)簡體中文情感極性詞典、大連理工大學情感詞彙本體。

前兩個都可以在網上找到，第三個需要到其學校官網申請，說明完用途即可獲得。

上述情感詞典年代都已經比較久遠，所以我們可以採取一定方法對其擴充套件。這裡我們採用的方法是將詞典的同義詞新增到詞典裡。

我們通過使用哈工大整理的同義詞詞林來獲取詞典的同義詞，需要一提的是第一版的同義詞林年代較為久遠，現在也有哈工大整理的同義詞林擴充套件版。

使用的鏈結在這裡：哈工大同義詞林擴充套件版

使用**編寫時也可以利用python的synonyms庫來獲取同義詞。

其已經開源，鏈結為：synonyms

如：

import synonyms
print("人臉: %s" % (synonyms.nearby("人臉")))
print("識別: %s" % (synonyms.nearby("識別")))

構建特定領域的情感詞典需要利用pmi互資訊計算與左右熵來發現所需要的新詞。具體方法我們可以新增情感種子詞，來計算分好詞的語料中各個詞語與情感種子詞的互資訊度與左右熵，再將互資訊度與左右熵結合起來，選擇出與情感詞關聯度最高的topn個詞語，將其新增到對應的情感詞典。

這裡可以參考鏈結link

具體例子：4g，上網絡卡，4g上網絡卡;如果4g的詞頻是2,上網絡卡的詞頻是10,4g上網絡卡的詞頻是1，那麼記單單詞的總數有n個，雙單詞的總數有m個，則有下面的公式

我們這裡使用左右熵來衡量主要是想表示預選詞的自由程度(4g上網絡卡為乙個預選詞），左右熵越大，表示這個詞的左邊右邊的詞換的越多，那麼它就很有可能是乙個單獨的詞。

我們這裡的左右熵定義為(以左熵為例):

這裡我們還是舉乙個具體的例子來理解它

假設4g上網絡卡左右有這麼幾種搭配

[買4g上網絡卡, 有4g上網絡卡，有4g上網絡卡，丟4g上網絡卡]

那麼4g上網絡卡的左熵為

這裡a = [買, 有, 丟]

後面就是具體的實現了，這裡的難點就在如何獲得這些概率值，就博主看到的用法有：利用搜尋引擎獲取詞彙共現率即p(x,y)、利用語料庫獲取各個詞出現概率

情感極性關於中文情感分類的知識

文字分類，就是在預定義的分類體系下，根據文字的特徵內容或屬性將給定文字與乙個或多個類別相關聯的過程。1 構建分類類別體系 2 獲取帶有類別標籤的文字 3 文字的特徵選擇及權重計算 4 分類器的選擇與訓練 5 文字的分類應用對應每乙個類別，都可以訓練出對應的詞特徵檔案。對應到類別的細分或者合併，...

中文情感分析語料庫

中文情感分析語料庫中文情感分析的語料庫非常少，這五個中文語料庫是我在網上的蒐集的。url 資料集2 2012年ccf自然語言處理與中文計算會議中文微博情感分析測評資料 url 條微博，共約 20000 條微博。資料採用xml格式，已經預先切分好句子。每條句子的所有標註資訊都包含在元素的屬性中。其...

中文情感分析語料庫

原文中文情感分析的語料庫非常少，這五個中文語料庫是我在網上的蒐集的。url 資料集2 2012年ccf自然語言處理與中文計算會議中文微博情感分析測評資料 url 條微博，共約 20000 條微博。資料採用xml格式，已經預先切分好句子。每條句子的所有標註資訊都包含在元素的屬性中。其中opinio...

中文情感詞典的構建

情感極性 關於中文情感分類的知識

中文情感分析語料庫

中文情感分析語料庫

相關推薦

情感極性關於中文情感分類的知識