基於中文主觀性知識庫的句子主觀性計算專案

2021-08-28 18:28:33 字數 1974 閱讀 7046

chinese subjective dectection based on subjective knowlegebase, 基於中文主觀性知識庫的句子主觀性評定方法。

#專案介紹

主觀性是中文輿情和文字挖掘乙個必不可少的一項環節。

對於英文而言,我調研過textblob的主觀性介面,對於輸入乙個句子,textblob用的是詞語主觀性詞典+加權的打法,相應的介紹可以檢視我的總結材料(documents下的pdf檔案)

而針對目前github開源平台上還缺少有對中文句子主觀性評定的介面,本專案將嘗試彌補這一空缺。

本專案將從中文自身的特點出發,通過總結並挖掘中文句子主觀性線索知識庫和客觀性線索知識庫,提供乙個面向中文句子的主觀性判定方法。

degree_words.txt:程度副詞,221個

deny_words.txt:否定副詞,29個

lianci_words.txt:連詞,93個

nengyuan_words.txt:能願副詞,719個

pingjia_words.txt:評價詞,6846個

qingtai_words.txt:情態動詞,29個

rencheng_words.txt:人稱代詞,32個

senti_words:情感詞,2090個

tanci_words:嘆詞,139個

yiwen_words:疑問代詞,26個

yuqi_words:語氣詞,17個

zhishi_words.txt:指示代詞,64個

zhuangtai_words.txt:狀態詞,49個

zhuzhang_words.txt:主張詞,235個

文字分句

計算每個句子的主觀性。

每個句子主觀性計算方式:主觀線索詞*主觀線索詞權重,做加權累加和平均

每個句子主觀性求平均

輸出文字主觀性

from zhuguang import *

handler = zhuguandetect()

sent = '''你要分析的文字'''

score = handler.detect(sent)

print(score)

content = '今天天氣晴朗'

score = 0.0

**********************

content = '江龍船艇:颱風「山竹」造成直接經濟損失400萬至500萬'

score = 0.09375

**********************

content = '中華人民共和國萬歲'

score = 0.200

**********************

content = '這兩天經濟不景氣,恐怕這單子有得毀掉了'

score = 0.2092

**********************

content = '9月底美聯儲再次加息幾乎板上釘釘,央行大概率小幅跟隨加息,與此同時的定向降準對沖顯得更為重要。預計10月前後可能再次實施定向降準措施。'

score = 0.237

**********************

content = '預計明後兩天江西會有大到暴雨'

score = 0.36

**********************

content = '我喜歡你'

score = 0.767

*****************************

1)本專案以詞彙知識庫的方式,通過總結歸納出主觀性線索詞,並加以規則進行計算。

2) 從上面的效果來看,還像是那麼回事,但還有提公升空間。

3) 主觀性配合情感得分,相信能夠在輿情分析上起到一定作用。

4)詞庫歡迎補充。send mail to: [email protected]

if any question about the project or me ,see

知識的表示與知識庫

知識表示是人工智慧課程三大基礎 知識表示 知識推理以及知識應用 之一。在解決實際問題中,通常需要用到多種不同的表示方法,因為每種資料結構都有其優缺點,沒有哪種資料結構擁有多種功能,因此需要對知識根據具體應用而採用不同的知識表示方法。狀態空間法 為描述某類不同事物之間的差別,以符號表示其狀態,通過算符...

應該掌握的知識庫

一些書籍應該精讀 c 四本 the c programming language c traps and pitflalls expert c programming pointers on c c 8本 the c programming language elements of programm...

DoKuWiki知識庫的搭建

dokuwiki是乙個基於php的開源的wiki引擎,可以用來搭建中小團隊的知識共享庫管理和個人 遇到的問題 1 注意安裝的時候的埠選擇,一般預設為80埠。這裡裡涉及的埠的概念,80是http超文字傳輸協議的一般的預設埠,也就是說平時瀏覽器中輸入網頁是一般都是省略了 80的,tomcat一般預設為8...