python當中如何處理大規模csv檔案

2022-09-14 04:39:09 字數 545 閱讀 3960

使用pandas包進行處理:

1.讀取限定列:file = pd.read_csv('demo.csv',usecols=['column1', 'column2', 'column3'])

2.讀取限定行:   file = pd.read_csv('demo.csv',nrows=1000,usecols=['column1', 'column2', 'column3'])                 #此時讀取的是前1000行資料,可以作為測試

3.分塊讀取:

reader = pd.read_csv('demo.csv',nrows=1000,

usecols=['column1','column2','column3'],

chunksize=1000,iterator=true)      #此時chunksize=1000指定了塊的大小

4.使用head和tail函式讀取小部分資料觀察其特徵

python實現Simhash處理大規模文字相似度

simhash 顧名思義,通過hash值比較相似度,通過兩個字串得出來的hash值,進行異或操作,然後得到相差的個數,數字越大則差異越大。1 用分詞工具 jieba nlpir 哈工大分詞器等 對字串進行分詞 去除停用詞,英文除外 seg jieba.cut str keyword jieba.an...

python如何處理異常

利用python捕獲異常的方式 方法一 捕獲所有的異常 1 2 3 4 5 6 7 8 捕獲異常的第一種方式,捕獲所有的異常 try a b b c exceptexception,data printexception,data 輸出 type exceptions.exception local...

python時間如何處理 python 時間處理

time模組 獲取時間 time.time 獲取當前時間的時間戳 time.strftime y m d h m s 獲取格式化後的字元 type str time.localtime 獲取元組形式的時間 time.gmtime 將時間轉換成utc格式的元組格式時間 importtimeprint ...