NLP Stanford課堂 情感分析

2022-08-15 16:12:24 字數 2233 閱讀 1637

例項:

公眾、消費者的信心是否在增加

公眾對於候選人、社會事件等的傾向

****市場的漲跌

affective states又分為:

在情感分析中,我們針對的是attitude,分析的是:

attitude的文字:句子或者整個文件

情感分析的任務:

資料:polarity data 2.0: 

步驟:tokenization:將文字切分成詞彙

特徵提取

使用分類器分類:

1. tokenization 

需要應對:

2. 特徵提取

有效特徵:

只選擇形容詞或者所有詞(所有詞的效果更好)

3. 二值多項式樸素貝葉斯

主要思想:在情感分析或者其他文字分類的任務中,認定乙個詞是否出現比起出現的頻次更重要

訓練過程:

測試過程:

交叉驗證:

每組資料得到乙個正確率,然後計算平均正確率

4. 難點

詞典中的每個詞都儲存了所屬的情感。

1. 一般的情感詞典

如下:

不同情感詞典之間的同乙個詞極性的不一致性

2. 例項分析

分析imdb中的每個詞的極性

同乙個詞「bad」在不同的星級下計數如下:

可以發現1星最多,這也是因為1星的評價最多,所以我們不能直接用這個來確定極性,而是用如下計算:

最大似然估計:

不同詞之間的比較使用範圍最大似然估計scaled likelihood:

具體分析不同詞在不同星級下的範圍最大似然估計如下:

可以發現amazing和awesome在高分星級上出現的比較多,而bad和terrible在低分星級上出現較多

其他情感特徵:否定詞(no, not)

可以發現否定詞在低分星級上出現的比較多

主要使用半監督學習

然後建立乙個詞典

1. 基準演算法

基本思想:源於

步驟:手動標記乙個包括1336個形容詞的種子資料集,其中有657個詞是positive,679個詞是negative

通過連線的形容詞來擴充套件種子資料集。

建立乙個有監督的分類器,用以給每個詞對分配極性相似性,即兩個詞極性上有多相似,主要使用count(and)和count(but)。得到如下示意圖:

將上圖聚類成兩堆,分別為positive和negative,如下:

輸出極性的詞典:positive和negative

以上是針對形容詞,下面介紹一種針對短語的詞典的建立方法turney algorithm。

2. turney演算法

步驟類似,如下:

學習每個短語的詞性:使用點間互資訊pmi,基本思想也是使用兩個詞「and」共現的詞的計數

然後計算乙個短語的極性:

turney algorithm結果如下:

可以發現turney演算法比起基準演算法更準確,或許是因為

3. 使用wordnet學習極性

步驟:

NLP Stanford課堂 分詞

一 如何定義乙個單詞 在統計一句話有多少個單詞的時候,首要問題是如何定義乙個單詞,通常有三種情況 是否認為句中的停頓詞比如uh是乙個單詞,我們稱之為fragment,或者filled pause。是否認為乙個單詞的不同形態是乙個單詞。是否認為乙個完整的片語,比如san francisco是乙個單詞 ...

基於情感詞典的情感打分

原理我就不講了,請移步下面這篇 包括情感詞典的構建 各位讀者可以根據自己的需求稍作簡化 以及打分策略 程式對原 稍有改動 本文採用的方法如下 首先對單條微博進行文字預處理,並以標點符號為分割標誌,將單條微博分割為n個句子,提取每個句子中的情感詞 以下兩步的處理均以分句為處理單位。第二步在情感詞表中尋...

實體詞典 情感詞典 (全)情感詞情感詞典大全

例項簡介 全 包括知網hownet情感詞典,台灣大學ntusd簡體中文情感詞典,情感詞彙本體,情感詞典及其分類,清華大學李軍中文褒貶義詞典,漢語情感詞極值表,否定詞典,褒貶詞及其近義詞 例項截圖 核心 sentimentanalysisdic sentimentanalysisdic 知網howne...