python中的CSV大資料讀取

2021-10-07 14:29:15 字數 342 閱讀 6537

主要有兩種方式:

1. pd.read_csv(file, chunksize=chunk_size)這樣可以保證分塊讀取;下面的部落格提供了如下的**

2. dask包

import dask.dataframe as dd

dd.read_csv(...)

dask包採用的是並行讀取,速度會快很多。在個人筆記本上測試了一組

13605401*8的資料,pd.read_csv需要11s, dd.read_csv僅需要22ms.
需要注意的是,安裝需要採用pip install 'dask[complete]'的方式,保證dask完整安裝。

參考:

python中 ,CSV模組的讀操作

一 python的csv模組 python自帶了csv模組提供使用者對csv檔案進行讀寫操作 csv是comma separated values的縮寫,是用文字檔案形式儲存的 資料 二 csv的讀操作 檔案 test data.csv 1 reader函式 接受乙個可迭代的物件,比如csv檔案,返...

python讀 python讀寫csv檔案

今天閒來無事,寫了會csv,簡單總結下csv具體操作 什麼是csv 逗號分隔值 comma separated values,csv,有時也稱為字元分隔值,因為分隔字元也可以不是逗號 其檔案以純文字形式儲存 資料 數字和文字 讀csv檔案 1 首先匯入csv模板 2 建立乙個csv檔案物件 3 開啟...

python 讀CSV 檔案遇到的問題

直奔主題 把包含中文的csv檔案的編碼改成utf 8的方法 最近需要驗證csv文個中,某個字段是否存在一些特定的中文,用python開啟csv進行遍歷時總因為編碼的問題報錯,實在頭大,就採取了曲線救國的方法,即先將csv檔案用excel開啟,另存為 csv utf8格式。然後再遍歷,就ok了。接下來...