python網路爬蟲 資料儲存之CSV

2021-08-08 12:31:32 字數 879 閱讀 5328

csv(comma-separated values,逗號分隔值)是儲存**資料的常用檔案格式。很多應用都支援csv格式,因為它很簡潔,下面就是乙個csv檔案的例子:

fruit,cost

banana,0.30

pear,1.25

python的csv庫可以非常簡單地修改csv檔案,甚至從零開始建立乙個csv檔案:

import csv

csvfile=open("../files/test.csv","w+")

try:

writer=csv.writer(csvfile)

writer.writerow(('number','number plus 2','number times 2'))

for i in range(10):

writer.writerow((i,i+2,i*2))

finally:

csvfile.close()

執行完成後,在上級目錄的files目錄下出現了test.csv檔案,more這個檔案的結果如下:

網路資料採集的乙個常用功能就是獲取html**並寫入csv檔案。維基百科的文字編輯器對比詞條中用了許多複雜的html**,用到了顏色、鏈結、排序,以及其他在寫入csv檔案之前需要忽略的html元素。用beautifulsoup和get_text()函式,你可以用十幾行**完成這件事:

執行結果如下:

python爬蟲資料儲存JSON儲存

encoding utf 8 import re import requests import json from requests.exceptions import requestexception def get open page url try 請求頭 headers 使用localhos...

爬蟲 之 資料儲存(txt json csv)

我們用 requests抓取到了頁面 然後用beautifulsoup 或 pyquery解析提取了目標資料,接下來就是要儲存啦。可以儲存為三種資料 get data with open data.txt w encoding utf 8 as f f.write get data json資料與s...

python爬蟲之資料儲存(四) MySQL資料庫

pip install pymysql 連線 db pymysql.connect host 127.0.0.1 port 3306 user root password root database csdn crawler charset utf8 port 在外網一般會更換埠號,不會為3306,...