文字傾向性分析綜述

2021-05-11 14:11:01 字數 983 閱讀 8053

2008/10/13 20:50

最近看了兩篇關於文字傾向性分析的碩士學位**(金曉鷗 (2008). 網際網路輿情資訊獲取與分析研究. 上海, 上海交通大學.;肖偉 (2007). 基於語義的blog社群文字傾向性分析. 上海, 上海交通大學.),總結了一下:

1. 文字傾向性分析的定義和主要任務

tetsuya nasukawa等指出:文字傾向性分析中的主要任務有以下三個:(1)找出文件中能夠體現情感的詞或短語;(2)判斷所找出的詞或短語的傾向性極性以及強度;(3)找出所抽取的詞或短語與主題的關係。

2.文字傾向性分析的主要方法

主要有基於語義的以及基於機器學習的文字傾向性研究兩種。

1.基於語義的文字傾向性研究方法:

a 先對待分析文字中的形容詞或能夠體現主觀色彩的短語進行抽取,然後對抽取出來的形容詞或短語逐一進行傾向性判斷並賦予乙個傾向值,最後將上述所有傾向值累加起來得到文章的總體文字傾向性。

b 預先建立乙個傾向性語義模式庫,有時還會附帶乙個傾向性字典。然後將待估文件參照語義模式庫做模式匹配,最後累加所有匹配模式對應的傾向性值從而得到整個文件的傾向性。

有的是基於詞和短語模式,有的是基於語義模式庫來分析。

2.基於機器學習的傳統文字分類技術

先通過人工標註一些文件的傾向性,並將這些文件作為訓練集,再通過機器學習的方法構造乙個褒貶兩類分類器。最後使用構造好的褒貶兩類分類器對待估文件進行分類,即識別出該文件的傾向性。常用svm(支援向量機)。

發現不管是那種方法,已經有挺多的實現方式,如果想要有創新的話,需要改進現有的這些方法。可惜的是,自己還不具備這樣的能力。這樣寫下去,也許這是個挺有意義的論題,可是能不能做出什麼成果來就能值得懷疑了。

上次耿老讓我去找trec blog trac

k的語料庫的資訊,發現要£400,好昂貴啊。然後找了個中文的語料,是北大弄的,**是http://www.cwirf.org/ 。可惜樣例下下來了不會用。暈死。。。。唉,覺得還是不要寫這方面的好,無論如何是寫不出來什麼好的呢。煩啊。。。。

聚類 文字分類 傾向性分析

最近專案和話題檢測 傾向性分析相關,涉及到聚類 文字分類 文字傾向性分析技術,決定形成系統說明並將 開放出來,作為記錄。資料的話,由於和實驗室專案相關,不好開放出來,可以使用搜狗的語料庫 聚類流程 1 文字預處理,包括分詞 去停用詞 統計詞頻等 如果是英文文字的話,還有詞幹還原,如porter演算法...

情感傾向性分析訓練 在輿情系統中的應用

1.情感分析 詞庫搭建 通過對大量中文文字及人物會話分析,發現文字情感的判定基本上通過對通篇的情感詞 程度副詞及否定詞的統計分布來判別,因此,我們搭建了基於情感分析的情感詞庫以及其它輔助詞表。如下圖所示。圖1 詞典集結構關係圖 其中,正 負面情感詞通過預先標註的新聞資料中通過統計獲得,再人工過濾 程...

近期重拾Linux的一點傾向性評價和小結

引言 其實說起與linux的相識,最早還是從十多年前的一張軟盤的中文linux,名字沒記錯應是mclinux 具體出處已忘記了 高中時代大學初期的redhat,後期的ubuntu,後幾年蹭網專用livecd類,包括幾年前常常折騰路由器領域的openwrt,後來伺服器上接觸的是centos,近日因為機...