文字傾向性分析綜述

2008/10/13 20:50

最近看了兩篇關於文字傾向性分析的碩士學位**（金曉鷗 (2008). 網際網路輿情資訊獲取與分析研究. 上海, 上海交通大學.；肖偉 (2007). 基於語義的blog社群文字傾向性分析. 上海, 上海交通大學.），總結了一下：

1. 文字傾向性分析的定義和主要任務

tetsuya nasukawa等指出：文字傾向性分析中的主要任務有以下三個：(1)找出文件中能夠體現情感的詞或短語；(2)判斷所找出的詞或短語的傾向性極性以及強度；(3)找出所抽取的詞或短語與主題的關係。

2.文字傾向性分析的主要方法

主要有基於語義的以及基於機器學習的文字傾向性研究兩種。

1.基於語義的文字傾向性研究方法：

a 先對待分析文字中的形容詞或能夠體現主觀色彩的短語進行抽取，然後對抽取出來的形容詞或短語逐一進行傾向性判斷並賦予乙個傾向值，最後將上述所有傾向值累加起來得到文章的總體文字傾向性。

b 預先建立乙個傾向性語義模式庫，有時還會附帶乙個傾向性字典。然後將待估文件參照語義模式庫做模式匹配，最後累加所有匹配模式對應的傾向性值從而得到整個文件的傾向性。

有的是基於詞和短語模式，有的是基於語義模式庫來分析。

2.基於機器學習的傳統文字分類技術

先通過人工標註一些文件的傾向性，並將這些文件作為訓練集，再通過機器學習的方法構造乙個褒貶兩類分類器。最後使用構造好的褒貶兩類分類器對待估文件進行分類，即識別出該文件的傾向性。常用svm（支援向量機）。

發現不管是那種方法，已經有挺多的實現方式，如果想要有創新的話，需要改進現有的這些方法。可惜的是，自己還不具備這樣的能力。這樣寫下去，也許這是個挺有意義的論題，可是能不能做出什麼成果來就能值得懷疑了。

上次耿老讓我去找trec blog trac

k的語料庫的資訊，發現要￡400，好昂貴啊。然後找了個中文的語料，是北大弄的，**是http://www.cwirf.org/ 。可惜樣例下下來了不會用。暈死。。。。唉，覺得還是不要寫這方面的好，無論如何是寫不出來什麼好的呢。煩啊。。。。