python 自然語言處理第三章

2021-08-10 20:40:50 字數 1486 閱讀 1214

1.訪問檔案:

a.本地檔案

import os

file=open(path)----指標

file.read()----得到字串

for line in file ----遍歷檔案的每一行

b.網路檔案

from urllib import urlopen

file=urlopen(url)

file.read()

2.分詞:

tokens=nltk.word_tokenize(string)----對字串進行分詞,得到list型別

**分詞函式word_tokenize 的引數string中必須要有空格或其他標點才能分詞

type(tokens) ----list型別

3.使用unicode 進行檔案處理

模組:codecs

import codecs

file=codes.open(path,encoding="latin2")

for line in file:

line=line.encode("unicode_escape")----編碼格式unicode_escape,將所有的非ascii碼的字元轉換成「\u***x」的形式,但是在128到256之間的字元,轉換成「\***」格式。

字元編碼格式:

utf-8 ----用1-4個位元組來表示字元

utf-16 ----2位元組

utf-32 -----4位元組

gbk ----不論中英文,都是兩個位元組

latin

編碼字元:unicode,ascii

4.正規表示式的應用

模組:re

import re

使用的元字元:

^:代表以什麼開頭 如:r^"ad"

$:以什麼結尾

.:任意單個字元

?:前面的字元可選

[abc]:a|b|c

*:零次或多次重複

+::重複n次

:至少n次

:至多n次

r"abc":表示是原始字串,特殊字元不會被解釋

函式:(1).re.search("****",word) ----在查詢是否有如模式"****"的單詞

[w for w in wordlist if re.search(r"[a-z]+",w)]

(2).re.findall("****",word) -----找出單詞word的所有正規表示式「****」

cv=[(cv,w] for w in text

for cv in re.findall(r"[ptksvr][aeiou]",w)]

nltk.index(cv) ----查詢擁有正規表示式的單詞

應用a.規範文字:

詞幹提取器----nltk中的porter和lancaster

b.為文字分詞

re.split(r"",sentence)----使用正規表示式為句子分詞

《python自然語言處理》第三章 加工原料文字

1.編寫程式訪問本地和網路上的檔案 後的語言材料 2.把文件分割成單獨的詞和標點符號 加工原料文字 3.編寫程式產生格式化的輸出,把結果儲存在乙個檔案中 圖處理流程 開啟乙個url,讀裡面html格式的內容,去除標記,並選擇字元的切片,然後分詞,是否轉換為nltk.text物件是可選擇的。我們也可以...

Python第三章 異常處理

章節練習 try 檢測範圍 except exception as reason 出現異常後的處理 try f open test.txt print f.read f.close except oserror print 開啟檔案出錯 開啟檔案出錯 try f open test.txt prin...

C語言第三章

main.c project1 created by sihan guo on 2019 06 13.include int main int argc,const char ar else 迴圈結構 當型 int icount 5 while icount 0 直到型迴圈結構 這個迴圈結構至少執行...