資料儲存之CSV

2021-07-30 16:32:52 字數 1540 閱讀 1116

乙個完整的(大)資料處理可以分為這幾個階段:

第一步的資料收集基本已經完成。

現在是第二步的資料儲存。

講道理,不懂點前端知識還真不好下手。

看到一堆標籤也是很煩的,還好這些東西就想剝洋蔥一樣,一層一層剝開。

配合上《愛麗絲夢遊仙境》的beautifulsoup,就方便多了。

csv( comma-separated values,逗號分隔值)是儲存**資料的常用檔案格式。

microsoft excel 和很多應用都支援 csv 格式,因為它很簡潔。

python 的 csv 庫可以非常簡單地修改 csv 檔案,甚至從零開始建立乙個 csv 檔案:

import csv  

csvfile = open("../files/test.csv", 'w+')

try:

writer = csv.writer(csvfile)

writer.writerow(('number', 'number plus 2', 'number times 2'))

for i in range(10):

writer.writerow( (i, i+2, i*2))

finally:

csvfile.close()

這種方案來處理教務處的資料,就很方便。

這裡拿處理課表的來說。

解析課表的網頁原始碼會看到有乙個table的標籤,這個很重要。

class="arranging_arrange">

確定了table和class,就看開始剝洋蔥了。

import csv

from urllib.request import urlopen

from bs4 import beautifulsoup

html = urlopen("課表url")

bsobj = beautifulsoup(html)

# 看網頁原始碼的class

table = bsobj.findall("table",)[0]

#剝第一層洋蔥

rows = table.findall("tr")

#儲存csv

csvfile = open("../files/editors.csv", 'wt', newline='', encoding='utf-8')

writer = csv.writer(csvfile)

try:

for row in rows:

csvrow =

#繼續一層層剝洋蔥

for cell in row.findall(['td', 'th']):

writer.writerow(csvrow)

finally:

csvfile.close()

這樣就可以得到儲存在當前目錄的csv檔案了。

用notepad++開啟可以看,用excel開啟會亂碼。

虐狗節,擼**,還有誰。

哈哈哈哈。

python網路爬蟲 資料儲存之CSV

csv comma separated values,逗號分隔值 是儲存 資料的常用檔案格式。很多應用都支援csv格式,因為它很簡潔,下面就是乙個csv檔案的例子 fruit,cost banana,0.30 pear,1.25 python的csv庫可以非常簡單地修改csv檔案,甚至從零開始建立乙...

爬蟲資料儲存csv

一,csv檔案的簡單讀寫import csv csv也叫逗號分分隔,一般以逗號分隔,也可以使用空格或者tab分隔 csv file open file test.csv w 寫入 try csv write csv.writer csv file csv write.writerow col1 co...

MySQL儲存引擎之CSV

csv儲存引擎可以將csv檔案作為mysql的表進行處理。儲存格式就是普通的csv檔案。資料以文字方式儲存在檔案中 innodb則是二進位制 csv檔案儲存表內容 csm檔案儲存表的元資料如表狀態和資料量 frm檔案儲存表結構資訊例項 我們新建乙個csv檔案,但是不指定not null mysql ...