python爬蟲beautifulsoup4系列3

2022-06-14 21:36:11 字數 1872 閱讀 6475

前言

一、目標**

1.隨便開啟乙個風景圖的**:

2.用firebug定位,開啟firepath裡css定位目標

3.從下圖可以看出,所有的都是img標籤,class屬性都是lazy

二、用find_all找出所有的標籤

1.find_all(class_="lazy")

獲取所有的物件標籤

2.從標籤裡面提出jpg的url位址和title

1

#coding:utf-8

2from bs4 import

beautifulsoup

3import

requests

4import

os5 r = requests.get("

")6 fengjing =r.content

7 soup = beautifulsoup(fengjing, "

html.parser")

8#找出所有的標籤

9 images = soup.find_all(class_="

lazy")

10#print images # 返回list物件

"] # 獲取url位址

14 title = i["

title

"] # 返回title名稱

""

三、儲存

1.在當前指令碼資料夾下建立乙個jpg的子資料夾

2.匯入os模組,os.getcwd()這個方法可以獲取當前指令碼的路徑

3.用open開啟寫入本地電腦的檔案路徑,命名為:os.getcwd()+"\\jpg\\"+title+'.jpg'(命名重複的話,會被覆蓋掉)

四、參考**

from bs4 import

beautifulsoup

import

requests

import

osr = requests.get("

")fengjing =r.content

soup = beautifulsoup(fengjing, "

html.parser")

#找出所有的標籤

images = soup.find_all(class_="

lazy")

#print images # 返回list物件

對python介面自動化有興趣的,可以加python介面自動化qq群:226296743

python爬蟲 非同步爬蟲

壞處 無法無限制的開啟多執行緒或者多程序。執行緒池 程序池 適當使用 使用非同步實現高效能的資料爬取操作 人多力量大 環境安裝 pip install aiohttp 使用該模組中的clientsession 2表示同時存在兩個協程 pool pool 2 urls for i in range 1...

Python爬蟲 初識爬蟲

模擬瀏覽器開啟網頁,獲取網頁中我們想要的那部分資料 瀏覽器開啟網頁的過程 當你在瀏覽器中輸入位址後,經過dns伺服器找到伺服器主機,向伺服器傳送乙個請求,伺服器經過解析後傳送給使用者瀏覽器結果,包括html,js,css等檔案內容,瀏覽器解析出來最後呈現給使用者在瀏覽器上看到的結果 瀏覽器傳送訊息給...

python爬蟲基本流程 Python爬蟲流程

python爬蟲流程 主要分為三個部分 1 獲取網頁 2 解析網頁 獲取資料 儲存資料 三個流程的技術實現 1.獲取網頁 獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術 多執行緒抓取 登入抓取 突破ip限制和伺服器抓取 2.解析網頁 解析網頁的技術基礎 re...