python大檔案操作

我們知道python進行資料處理時有相應的庫，此篇只是針對python標準庫中file檔案操作中的read,readline,readlines等進行介紹

我們使用file讀取檔案時常看到直接使用read(),readlines()等一次性把檔案讀取完畢，這樣對小檔案來說當然可以，但是對於大檔案來說就可能會出現記憶體洩漏的問題。

當預設引數size=-1時，read方法會讀取直到eof，當檔案大小大於可用記憶體時，自然會發生記憶體溢位的錯誤。

同樣的，readlines會構造乙個list。list而不是iter，所以所有的內容都會儲存在記憶體之上，同樣也會發生記憶體溢位的錯誤。

如果是二進位制檔案推薦用如下這種寫法，可以自己指定緩衝區有多少byte。顯然緩衝區越大，讀取速度越快。

with
open
(file_path,
'rb'
)as f:
while
true
: buf = f.read(
1024
)if buf: 
執行操作
else
:break

而如果是文字檔案，則可以用readline方法或直接迭代檔案（python這裡封裝了乙個語法糖，二者的內生邏輯一致，不過顯然迭代檔案的寫法更pythonic，每次讀取一行，效率是比較低的。筆者簡單測試了一下，在3g檔案之下，大概效能和前者差了20%.

with
open
(file_path,
'rb'
)as f:
while
true
: line = f.readline(
)if buf:
print
(line)
else
:break
with
open
(file_path,
'rb'
)as f:
for line in f:
print
(line)

還可以將readline替換成readlines()，增加一次讀取的行數

with
open
(file_path,
'rb'
)as f:
while
true
:# 引數表示一次讀取指定size的行數，函式會自動讀取整行，所以大小不會很精確
line = f.readlines(
102400
)if buf:
print
(line)
else
:break

最後：其實我們用file處理超大檔案的頻率很小，平時我們操作小檔案時可以一次性讀取，因為頻繁操作檔案也是耗時操作，這裡的取捨要根據實際情況來看。像上面迴圈讀取檔案，我們可以使用yield來迭代結果，減小記憶體消耗。

python大檔案操作

python正則操作大檔案

ruby 操作大檔案

python 讀取大檔案

python大檔案操作

python正則操作大檔案

ruby 操作大檔案

python 讀取大檔案

相關推薦