python網路爬蟲(第一章)

2021-10-02 14:11:20 字數 1527 閱讀 5413

(內容來自於o』reilly(人民郵電出版社)的《python網路爬蟲權威指南》此部落格僅用於記錄學習,方便以後使用)

目前本系列文章(python網路爬蟲筆記)更新情況:

第一章:本文

第二章:python網路爬蟲(第二章)

簡單例項:python網路爬蟲(簡單例項)

print(title)1、urllib是python的標準庫,包含了從網頁請求資料,處理cookie,甚至改變請求頭和使用者**這些元資料的函式。urlopen用來開啟並讀取乙個從網路獲取的遠端物件(可以輕鬆獲取html檔案、影象檔案或其他任何檔案流)

from url lib.request import url open

html = urlopen(『')

print(html.read())

2、beautifulsoup庫:

可以將html內容傳到beautifulsoup物件

bs = beautifulsoup(html.read(), 『html.parser』)

#第乙個引數是該物件所基於的html文字,第二個引數指定了你希望beautifulsoup用來建立該物件的解析器。可供選擇的解析器有』html.parser』、』lxml'、 #'html5lib'

3、異常處理

需要引入的標準庫:

#http錯誤,網頁在伺服器上不存在(或者獲取頁面的時候出現錯誤)

from urllib.error import urlerror

#伺服器不存在使用try + except的方式進行處理

呼叫none物件下面的字標籤,會發生attributeerror錯誤

具體**可以看本文最前面的綜合**

爬蟲第一章

爬蟲基礎 什麼是爬蟲?爬蟲是通過程式模擬瀏覽器上網,從網上獲取資料的過程.爬蟲的分類 通用爬蟲 爬取一整個頁面的資料.聚焦爬蟲 爬取頁面中指定的區域性資料 增量式爬蟲 檢測 中資料更新的情況,爬取的是 中最新更新出來的資料.什麼是反爬機制?製作時設定的一系列阻止爬蟲程式進行的阻礙,就是反爬機制,反爬...

《用python寫網路爬蟲》第一章

在python3 的基礎上實現的,但是相對於作者的 少了支援 部分和避免爬蟲陷阱部分,寫入了自己寫的注釋,暫時的理解就是這樣了,希望有看到的朋友可以指正一下,小白成長中。import urllib.request import urllib.error import re import urllib...

python爬蟲學習 第一章 爬蟲基礎

通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。比如 電商願意被比價 或者購物資訊 爬取資訊,因為可以為他們的商品帶來更多的流量 而不願意被同行爬取 資訊,或者產品資訊 但是很多電商又會去爬取同行的商品資訊。如何解決這個矛盾?反爬機制 門戶 可以通過制定相應的策略或者技術手段,防止...