NLTK基礎教程學習筆記（五）

import nltk
from nltk import word_tokenize
s="i was watching tv"
print(nltk.pos_tag(word_tokenize(s)))

結果：

[('i', 'prp'), ('was', 'vbd'), ('watching', 'vbg'), ('tv', 'nn')]

**中先將文字進行表示化處理，再呼叫nltk庫中的pos_tag方法得到一組（詞形，詞性標籤），可以看到很好地將一句話進行了標註。

用pos語料庫可以進行很多靈活的操作，如找出文字中所有的名詞等：

import nltk
from nltk import word_tokenize
s="i was watching tv"
#print(nltk.pos_tag(word_tokenize(s)))
tagged=nltk.pos_tag(word_tokenize(s))
allnoun=[word for word ,pos in tagged if pos in ['nn','nnp']]
print (allnoun)

結果：

['tv']

如果要找動詞只需要改變pos的詞性為

NLTK基礎教程學習筆記（九）

不同的解析器型別解析器通常需要對乙個用於表達一組語法規則的輸入字串繼續處理，然後構成乙個或者多個可用於構成某種語法概念的規則。語法是我們衡量乙個句子是否良好的乙份規範說明，而解析器則是乙個用於解讀語法的程式。該程式會通過搜尋各種不同的樹結構空間，找出給定句子的最佳樹結構，下面是一些解析器的運用細節...

NLTK基礎教程學習筆記（四）

標識化處理機器所要理解的最小處理單位是單詞分詞標識化處理，是將原生字元創分割成一系列有意義的分詞。標識化就是將原生字串分割成一系列有意義的分詞。標識化處理的複雜性因具體nlp應用而異，目標語言本身的複雜性本身也會帶來相關的變化。在英語中，可以通過正規表示式簡單的單詞來選取純單詞和數字，但在中文...

NLTK基礎教程學習筆記（十）

依賴性文字解析依賴性文字解析 dependency parsing 簡稱dp 是一種現代化的文字解析機制。dp的主要概念是將各個語法單元單詞用丁香鏈路串聯起來。這種鏈路稱為依賴關係 dependencies 在目前的文字解析社群中，有大量工作在進行。儘管短語結構式文字解析 phrase str...

NLTK基礎教程學習筆記（五）

NLTK基礎教程學習筆記（九）

NLTK基礎教程學習筆記（四）

NLTK基礎教程學習筆記（十）

相關推薦