python自然語言處理 第一章

2021-08-15 04:45:18 字數 1280 閱讀 3658

from __future__ import division

import nltk

nltk.download()

from nltk.book import *

#搜尋文字

text1.concordance("monstrous")

#出現在相似上下文中德詞彙

text1.similar("monstrous")

#兩個或兩個以上的詞共同的上下文

text2.common_contexts(["monstrous","very"])

import matplotlib

#離散圖判斷詞彙在文字中的位置,從文字開頭算起在它前面有多少詞

text4.dispersion_plot(["citizens","democracy","freedom","duties","american"])

#產生和該文字風格相近的段落

text3.generate()

#返回所有識別符號的個數

len(text3)

#為每個標示符計數,set表示集合,集合中元素只出現一次

sorted(set(text3))

len(set(text3))

len(text3)/len(set(text3))

#計算乙個詞在文字中出現次數,佔據的百分比

text3.count("smote")

100*text4.count("a")/len(text4)

fdist1=freqdist(text1)#計算text1中的詞頻

vocabulary=fdist1.keys()#關鍵字資訊

fdist1['whale']#『whale』詞出現的頻率

fdist1.plot(50,cumulative=true)#詞頻前50的詞彙進行繪圖

v = set(text1)#text1 輸出詞彙集合中詞長超過15的詞彙

long_words=[w for w in v if len(w) > 15]

text4.collocations()#搭配頻繁出現的雙連詞

[len(w) for w in text1]#text1中每個詞的詞長

fdist=freqdist([len(w) for w in text1])#每個詞長對應出現的頻率

fdist#詞長只有20種

fdist.max()#出現頻率最高的詞長

fdist.freq(3)#給定樣本的頻率,佔全部詞彙的百分比

Python自然語言處理第一章

nltk即natural language toolkit,是乙個先進的用於處理自然語言的python程式,和python中的其他庫一樣,我們可以呼叫它來處理各種文字資訊。nltk功能強大,它不僅為我們學習nlp提供了豐富的語料庫,也為我們處理這些語料庫資訊提供了大量的方法,比如concordanc...

《Python自然語言處理》第一章筆記

import nltk nltk.download 引入book包 from nltk.book import 搜尋文字,顯示指定單詞及其上下文 text1.concordance monstrous 查詢出現在相似上下文中的詞 text1.similar monstrous 查詢兩個或兩個以上詞彙...

python自然語言處理 第一章答案

1.嘗試使用python直譯器作為乙個計算器,輸入表示式,如 12 4 1 12 42.26 個字母可以組成 26 的 10 次方或者 26 10個 10 字母長的字串。也就是 141167095653376l 結尾處的 l 只是表示這是 python 長數字格式 100 個字母長度的字串可能有多少...