NLP Stanford課堂情感分析

例項：

公眾、消費者的信心是否在增加

公眾對於候選人、社會事件等的傾向

****市場的漲跌

affective states又分為：

在情感分析中，我們針對的是attitude，分析的是：

attitude的文字：句子或者整個文件

情感分析的任務：

資料：polarity data 2.0:

步驟：tokenization：將文字切分成詞彙

特徵提取

使用分類器分類：

1. tokenization

需要應對：

2. 特徵提取

有效特徵：

只選擇形容詞或者所有詞（所有詞的效果更好）

3. 二值多項式樸素貝葉斯

主要思想：在情感分析或者其他文字分類的任務中，認定乙個詞是否出現比起出現的頻次更重要

訓練過程：

測試過程：

交叉驗證：

每組資料得到乙個正確率，然後計算平均正確率

4. 難點

詞典中的每個詞都儲存了所屬的情感。

1. 一般的情感詞典

如下：

不同情感詞典之間的同乙個詞極性的不一致性

2. 例項分析

分析imdb中的每個詞的極性

同乙個詞「bad」在不同的星級下計數如下：

可以發現1星最多，這也是因為1星的評價最多，所以我們不能直接用這個來確定極性，而是用如下計算：

最大似然估計：

不同詞之間的比較使用範圍最大似然估計scaled likelihood：

具體分析不同詞在不同星級下的範圍最大似然估計如下：

可以發現amazing和awesome在高分星級上出現的比較多，而bad和terrible在低分星級上出現較多

其他情感特徵：否定詞（no, not）

可以發現否定詞在低分星級上出現的比較多

主要使用半監督學習

然後建立乙個詞典

1. 基準演算法

基本思想：源於

步驟：手動標記乙個包括1336個形容詞的種子資料集，其中有657個詞是positive，679個詞是negative

通過連線的形容詞來擴充套件種子資料集。

建立乙個有監督的分類器，用以給每個詞對分配極性相似性，即兩個詞極性上有多相似，主要使用count(and)和count(but)。得到如下示意圖：

將上圖聚類成兩堆，分別為positive和negative，如下：

輸出極性的詞典：positive和negative

以上是針對形容詞，下面介紹一種針對短語的詞典的建立方法turney algorithm。

2. turney演算法

步驟類似，如下：

學習每個短語的詞性：使用點間互資訊pmi，基本思想也是使用兩個詞「and」共現的詞的計數

然後計算乙個短語的極性：

turney algorithm結果如下：

可以發現turney演算法比起基準演算法更準確，或許是因為

3. 使用wordnet學習極性

步驟：

NLP Stanford課堂分詞

一如何定義乙個單詞在統計一句話有多少個單詞的時候，首要問題是如何定義乙個單詞，通常有三種情況是否認為句中的停頓詞比如uh是乙個單詞，我們稱之為fragment，或者filled pause。是否認為乙個單詞的不同形態是乙個單詞。是否認為乙個完整的片語，比如san francisco是乙個單詞 ...

基於情感詞典的情感打分

原理我就不講了，請移步下面這篇包括情感詞典的構建各位讀者可以根據自己的需求稍作簡化以及打分策略程式對原稍有改動本文採用的方法如下首先對單條微博進行文字預處理，並以標點符號為分割標誌，將單條微博分割為n個句子，提取每個句子中的情感詞以下兩步的處理均以分句為處理單位。第二步在情感詞表中尋...

實體詞典情感詞典（全）情感詞情感詞典大全

例項簡介全包括知網hownet情感詞典，台灣大學ntusd簡體中文情感詞典，情感詞彙本體，情感詞典及其分類，清華大學李軍中文褒貶義詞典，漢語情感詞極值表，否定詞典，褒貶詞及其近義詞例項截圖核心 sentimentanalysisdic sentimentanalysisdic 知網howne...

NLP Stanford課堂 情感分析

NLP Stanford課堂 分詞

基於情感詞典的情感打分

實體詞典 情感詞典 （全）情感詞情感詞典大全

相關推薦

NLP Stanford課堂情感分析

NLP Stanford課堂分詞

實體詞典情感詞典（全）情感詞情感詞典大全