python爬蟲開發與專案實踐 學習筆記(一)

2022-08-20 02:03:12 字數 1489 閱讀 6643

1、磁碟io操作

檔案的讀寫:

1)open函式使用乙個檔名作為唯一的強制引數,然後返回乙個檔案物件。

>>> f=open(r'f:\projecttest\abc.txt')

2)檔案模式。

一般文字檔案處理,用不到b引數,但處理一些其他類似的檔案(二進位制檔案),比如影象和***格式,增加b模式,這在爬蟲處理**檔案中很常用。引數rb可以用來讀取乙個二進位制檔案。

3)檔案快取區

4)檔案讀取

>>> f=open(r'f:\projecttest\abc.txt')

>>>f.read()

'cesjhi'

5)檔案關閉

>>> f=open(r'f:\projecttest\abc.txt')

>>>f.read()

'cesjhi'

>>> f.close()

6)io異常處理

try...finally實現

try:

f=open(r'f:\projecttest\abc.txt','r')

print(f.read())

finally:

iff:

f.close()

python簡單實現方法,with替代try...finally與close

with open(r'f:\projecttest\abc.txt','r') as filereader:

print(filereader.read())

7)其他

大檔案,防止記憶體不足,可反覆呼叫read(size),一次最多讀取size個位元組

配置檔案或者其他文字檔案,可以採用按行讀取readlines()

with open(r'f:\projecttest\abc.txt','r') as filereader:

for line infilereader.readlines():

print(line.strip)

8)檔案寫入

with open(r'f:\projecttest\abc.txt','w') as filewriter:

filewriter.write('ceshi') #w 去掉了原來的文字內容

with open(r'f:\projecttest\abc.txt','r') as filereader:

print(filereader.read())

with open(r'f:\projecttest\abc.txt','a') as filewriter:

filewriter.write('\nceshi')#a 追加

with open(r'f:\projecttest\abc.txt','r') as filereader:

print(filereader.read())

python爬蟲開發與專案實踐 學習筆記(三)

1.3.3 序列化操作 cpickle 與 pickle 主要介紹了 pickle.dump d,f pickle實現序列化主要使用的是dumps方法或者dump方法,將序列化後的物件直接寫入檔案中 d pickle.load f pickle實現反序列化使用的是loads方法或load方法。imp...

Python爬蟲實踐

爬取的是盜版網的 免費 三寸人間 閱讀 請支援正版 以下是源 from urllib import request from bs4 import beautifulsoup import re 獲取html原始碼 response request.urlopen html response.rea...

python 爬蟲實踐

詳解 python3 urllib requests 官方文件 timeout 引數是用於設定請求超時時間。單位是秒。cafile和capath代表 ca 證書和 ca 證書的路徑。如果使用https則需要用到。context引數必須是ssl.sslcontext型別,用來指定ssl設定 cadef...