python爬蟲開發與專案實踐 學習筆記(三)

2022-08-20 02:00:17 字數 886 閱讀 3494

1.3.3 序列化操作(cpickle 與 pickle)

主要介紹了

pickle.dump(d,f)#pickle實現序列化主要使用的是dumps方法或者dump方法,將序列化後的物件直接寫入檔案中

d=pickle.load(f)#pickle實現反序列化使用的是loads方法或load方法。

import

ostry

:

import cpickle as pickle #

前者是c語言編寫的,效率比後者高,優先採用前者

except

importerror:

import

pickle

f=open(r'

f:/projecttest/dump.txt

','wb')

d=dict(url='

index.html

',title='

首頁',content='首頁'

)pickle.dump(d,f)

#pickle實現序列化主要使用的是dumps方法或者dump方法,將序列化後的物件直接寫入檔案中

f.close()

print

(d)f=open(r'

f:/projecttest/dump.txt

','rb')

d=pickle.load(f)#

pickle實現反序列化使用的是loads方法或load方法。

f.close()

print(d)

執行結果:

**********== restart: d:/aasoftcfl/python/cflproject/picklecfl.py **********==

>>>

python爬蟲開發與專案實踐 學習筆記(一)

1 磁碟io操作 檔案的讀寫 1 open函式使用乙個檔名作為唯一的強制引數,然後返回乙個檔案物件。f open r f projecttest abc.txt 2 檔案模式。一般文字檔案處理,用不到b引數,但處理一些其他類似的檔案 二進位制檔案 比如影象和 格式,增加b模式,這在爬蟲處理 檔案中很...

Python爬蟲實踐

爬取的是盜版網的 免費 三寸人間 閱讀 請支援正版 以下是源 from urllib import request from bs4 import beautifulsoup import re 獲取html原始碼 response request.urlopen html response.rea...

python 爬蟲實踐

詳解 python3 urllib requests 官方文件 timeout 引數是用於設定請求超時時間。單位是秒。cafile和capath代表 ca 證書和 ca 證書的路徑。如果使用https則需要用到。context引數必須是ssl.sslcontext型別,用來指定ssl設定 cadef...