NLTK 2 獲得文字語料和詞彙資源

2021-07-03 16:04:15 字數 1405 閱讀 8330

1.1 古登堡語料庫(project gutenberg)

#nltk包含gutenberg的一小部分文字

平均詞長 平均句子長度 本文中每個詞出現的平均次數

raw()函式能在沒有 進行過任何語言學處理之前把檔案的內容分析出來。

sents()函式把文字劃分成句子,每個句子是乙個詞鍊錶。

1.2 網路和聊天文字

from nltk.corpus import webtext

#還有from nltk.corpus import nps_chat

for fileid in webtext.fileids():

print fileid, webtext.raw(fileid)[:65], '...'

1.3 布朗語料庫
from nltk.corpus import brown
1.4 路透社語料庫
from nltk.corpus import reuters
1.5 就職演說語料庫
from nltk.corpus import inaugural
1.6 標註文字語料庫

1.7 其他預言的語料庫

from nltk.corpus import cess_esp.words()

NLTK(處理原始文字)

import nltk from urllib.request import urlopen url raw urlopen url read print type raw print len raw print raw 75 輸出 1201733 b xef xbb xbfthe project ...

NLTK 學習筆記(2)

pos速查表 標記含義 例子adj 形容詞new,good,high,special,big,local adv副詞 really,already,still,early,now cnj連詞 and,or,but,if,while,although det限定詞 the,a,some,most,ev...

文字分析 NLTK訪問檔案

coding utf 8 from future import division import nltk,re,pprint 從網路和硬碟中訪問文字 1 電子書 2 處理的html 3 處理搜尋引擎的結果 4 讀取本地檔案 5 從pdf,word及其他二進位制格式中讀取 6 捕獲使用者輸入 7 nl...