例項:
公眾、消費者的信心是否在增加
公眾對於候選人、社會事件等的傾向
****市場的漲跌
affective states又分為:
在情感分析中,我們針對的是attitude,分析的是:
attitude的文字:句子或者整個文件
情感分析的任務:
資料:polarity data 2.0:
步驟:tokenization:將文字切分成詞彙
特徵提取
使用分類器分類:
1. tokenization
需要應對:
2. 特徵提取
有效特徵:
只選擇形容詞或者所有詞(所有詞的效果更好)
3. 二值多項式樸素貝葉斯
主要思想:在情感分析或者其他文字分類的任務中,認定乙個詞是否出現比起出現的頻次更重要
訓練過程:
測試過程:
交叉驗證:
每組資料得到乙個正確率,然後計算平均正確率
4. 難點
詞典中的每個詞都儲存了所屬的情感。
1. 一般的情感詞典
如下:
不同情感詞典之間的同乙個詞極性的不一致性
2. 例項分析
分析imdb中的每個詞的極性
同乙個詞「bad」在不同的星級下計數如下:
可以發現1星最多,這也是因為1星的評價最多,所以我們不能直接用這個來確定極性,而是用如下計算:
最大似然估計:
不同詞之間的比較使用範圍最大似然估計scaled likelihood:
具體分析不同詞在不同星級下的範圍最大似然估計如下:
可以發現amazing和awesome在高分星級上出現的比較多,而bad和terrible在低分星級上出現較多
其他情感特徵:否定詞(no, not)
可以發現否定詞在低分星級上出現的比較多
主要使用半監督學習
然後建立乙個詞典
1. 基準演算法
基本思想:源於
步驟:手動標記乙個包括1336個形容詞的種子資料集,其中有657個詞是positive,679個詞是negative
通過連線的形容詞來擴充套件種子資料集。
建立乙個有監督的分類器,用以給每個詞對分配極性相似性,即兩個詞極性上有多相似,主要使用count(and)和count(but)。得到如下示意圖:
將上圖聚類成兩堆,分別為positive和negative,如下:
輸出極性的詞典:positive和negative
以上是針對形容詞,下面介紹一種針對短語的詞典的建立方法turney algorithm。
2. turney演算法
步驟類似,如下:
學習每個短語的詞性:使用點間互資訊pmi,基本思想也是使用兩個詞「and」共現的詞的計數
然後計算乙個短語的極性:
turney algorithm結果如下:
可以發現turney演算法比起基準演算法更準確,或許是因為
3. 使用wordnet學習極性
步驟:
NLP Stanford課堂 分詞
一 如何定義乙個單詞 在統計一句話有多少個單詞的時候,首要問題是如何定義乙個單詞,通常有三種情況 是否認為句中的停頓詞比如uh是乙個單詞,我們稱之為fragment,或者filled pause。是否認為乙個單詞的不同形態是乙個單詞。是否認為乙個完整的片語,比如san francisco是乙個單詞 ...
基於情感詞典的情感打分
原理我就不講了,請移步下面這篇 包括情感詞典的構建 各位讀者可以根據自己的需求稍作簡化 以及打分策略 程式對原 稍有改動 本文採用的方法如下 首先對單條微博進行文字預處理,並以標點符號為分割標誌,將單條微博分割為n個句子,提取每個句子中的情感詞 以下兩步的處理均以分句為處理單位。第二步在情感詞表中尋...
實體詞典 情感詞典 (全)情感詞情感詞典大全
例項簡介 全 包括知網hownet情感詞典,台灣大學ntusd簡體中文情感詞典,情感詞彙本體,情感詞典及其分類,清華大學李軍中文褒貶義詞典,漢語情感詞極值表,否定詞典,褒貶詞及其近義詞 例項截圖 核心 sentimentanalysisdic sentimentanalysisdic 知網howne...