python對讀取的檔案內容進行分詞

2022-06-19 13:39:14 字數 1410 閱讀 8674

分詞,即將連續的字序列按照一定的規範重新組合成詞序列的過程,它是一種自然語言處理技術,這裡的分詞指中文分詞,其本質是提取乙個字串中的片語或者字。

其詳細**非常簡單,如下:

#匯入jieba分詞模組

import jieba

#記錄輸入的檔案路徑

filepath = input('請輸入要讀取的檔案:')

#開啟檔案

with open(filepath,encoding='utf-8') as f:

#讀取檔案內容並分詞

words = jieba.lcut(f.read())

#替換換行符

print(words)

結果:

['

1', '

.', '

用', '

**', '

行數', '

來', '

評估', '

程式', '

的', '

開發進度

', '

,', '

就', '

好比', '

拿', '

重量', '

來', '

評估', '

乙個', '

飛機', '

的', '

建造', '

進度', '

\n', '

2', '

.', '

程式', '

不是', '

年輕', '

的', '

專利', '

,', '

但是', '

,', '

它', '

屬於', '

年輕', '

\n', '

3', '

.', '

作為', '

乙個', '

程式設計師', '

,', '

鬱悶', '

的', '

事情', '

是', '

,', '

面對', '

乙個', '

**', '

塊', '

,', '

缺', '

不敢', '

去', '

修改', '

。', '

更', '

糟糕', '

的', '

是', '

,', '

這個', '

**', '

塊', '

還是', '

自己', '

寫', '

的']

python怎麼讀取檔案內容

1 read 一次讀取全部內容到記憶體。with open file.txt r as f print f.read with方式可以避免沒有關閉資源檔案產生錯誤 2 readlines with方式,逐行讀取。with open file.txt as lines for line in line...

python檔案的讀取,關閉,新增內容

file name demo.txt with open file name,w encoding utf 8 as file obj encoding utf 8 寫入的是純文字 w w寫入檔案時,如果檔案不存在則會建立乙個檔案。如果檔案存在則會覆蓋原檔案內容 r 只能讀取 a 追加寫入 file...

Python讀取檔案編碼及內容

最近做乙個專案,需要讀取檔案內容,但是檔案的編碼方式有可能都不一樣。有的使用gbk,有的使用utf8。所以在不正確讀取的時候會出現如下錯誤 unicodedecodeerror gbk codec can t decode byte而且當你使用rb模式讀取檔案時候,返回的結果通過django返回的j...