爬蟲beautifulsoup實踐

2021-09-25 22:11:07 字數 656 閱讀 3573

爬蟲beautifulsoup實踐:

一、觀察response。首先,在chrome瀏覽器裡觀察一下該網頁的response內容,可以觀察到,的url都存放在img標籤下面,srcset屬性裡面,而且它們的class屬性都為_2zekz。

二、理清爬蟲步驟的思路。規律已經找出來了~下一步就把爬蟲的思路寫一下:

1、利用requests庫獲取目標**的response(headers用chrome瀏覽器裡面的headers);

2、對獲取到的response進行處理,擷取到裡面包含的每個url資訊;

3、對每個的url進行請求,然後將每個response存到指定的資料夾裡面。

如果你對python感興趣,我這有個學習python基地,裡面有很多學習資料,感興趣的+q群:688244617
2、對獲取到的response進行處理,擷取到裡面包含的每個url資訊;

response裡面包含了頁面所有的html文字資訊,但我們只需要其中的的url,所以,這一步主要就是對這些文字資訊進行處理。

這一步有兩個方向可以選擇,一是用正規表示式去匹配合適的文字資訊,二是利用beautifulsoup去做乙個獲取。在這個實踐中我們選用beautifulsoup,而且這樣做的效率比正規表示式高很多(特別是對於對正規表示式不是很熟練的同學來說)。

爬蟲 BeautifulSoup 模組

二 根據這個dom樹就可以按照節點的名稱 屬性和文字搜尋節點 find all 方法會搜尋出所有滿足要求的節點,find 方法只會搜尋出第乙個滿足要求的節點 兩個方法的引數一模一樣 三 得到節點以後,就可以訪問它的名稱 屬性 文字。a為標籤名稱 超連結 href,class為屬性,顯示在頁面上的是p...

爬蟲資料 Beautiful Soup

安裝 pip intsall bs4 beautiful soup的簡介 beautiful soup是python的乙個庫,最主要的功能是從網頁抓取資料,官方解釋如下 github位址 和lxml一樣,beautifulsoup也是乙個html xml的解析器,主要功能也是如何解析和提取html ...

BeautifulSoup爬蟲實戰

import requests from bs4 import beautifulsoup 定義請求url url 定義請求頭 headers res requests.get url url,headers headers 判斷是否成功並獲取原始碼 if res.status code 200 p...