python網路爬蟲（第一章）

（內容來自於o』reilly(人民郵電出版社)的《python網路爬蟲權威指南》此部落格僅用於記錄學習，方便以後使用）

目前本系列文章（python網路爬蟲筆記）更新情況：

第一章：本文

第二章：python網路爬蟲（第二章）

簡單例項：python網路爬蟲（簡單例項）

print(title)1、urllib是python的標準庫，包含了從網頁請求資料，處理cookie，甚至改變請求頭和使用者**這些元資料的函式。urlopen用來開啟並讀取乙個從網路獲取的遠端物件（可以輕鬆獲取html檔案、影象檔案或其他任何檔案流）

from url lib.request import url open
html = urlopen(『')
print(html.read())

2、beautifulsoup庫：

可以將html內容傳到beautifulsoup物件

bs = beautifulsoup(html.read(), 『html.parser』)

#第乙個引數是該物件所基於的html文字，第二個引數指定了你希望beautifulsoup用來建立該物件的解析器。可供選擇的解析器有』html.parser』、』lxml'、 #'html5lib'

3、異常處理

需要引入的標準庫：

#http錯誤，網頁在伺服器上不存在（或者獲取頁面的時候出現錯誤）

from urllib.error import urlerror

#伺服器不存在使用try + except的方式進行處理

呼叫none物件下面的字標籤，會發生attributeerror錯誤

具體**可以看本文最前面的綜合**