python爬蟲beautifulsoup4系列3

前言

一、目標**

1.隨便開啟乙個風景圖的**：

2.用firebug定位，開啟firepath裡css定位目標

3.從下圖可以看出，所有的都是img標籤，class屬性都是lazy

二、用find_all找出所有的標籤

1.find_all(class_="lazy")

獲取所有的物件標籤

2.從標籤裡面提出jpg的url位址和title

1
#coding:utf-8
2from bs4 import
beautifulsoup
3import
requests
4import
os5 r = requests.get("
")6 fengjing =r.content
7 soup = beautifulsoup(fengjing, "
html.parser")
8#找出所有的標籤
9 images = soup.find_all(class_="
lazy")
10#print images # 返回list物件
"] # 獲取url位址
14 title = i["
title
"] # 返回title名稱
""

三、儲存

1.在當前指令碼資料夾下建立乙個jpg的子資料夾

2.匯入os模組，os.getcwd()這個方法可以獲取當前指令碼的路徑

3.用open開啟寫入本地電腦的檔案路徑，命名為：os.getcwd()+"\\jpg\\"+title+'.jpg'（命名重複的話，會被覆蓋掉）

四、參考**

from bs4 import
beautifulsoup
import
requests
import
osr = requests.get("
")fengjing =r.content
soup = beautifulsoup(fengjing, "
html.parser")
#找出所有的標籤
images = soup.find_all(class_="
lazy")
#print images # 返回list物件

對python介面自動化有興趣的，可以加python介面自動化qq群：226296743

python爬蟲非同步爬蟲

壞處無法無限制的開啟多執行緒或者多程序。執行緒池程序池適當使用使用非同步實現高效能的資料爬取操作人多力量大環境安裝 pip install aiohttp 使用該模組中的clientsession 2表示同時存在兩個協程 pool pool 2 urls for i in range 1...

Python爬蟲初識爬蟲

模擬瀏覽器開啟網頁，獲取網頁中我們想要的那部分資料瀏覽器開啟網頁的過程當你在瀏覽器中輸入位址後，經過dns伺服器找到伺服器主機，向伺服器傳送乙個請求，伺服器經過解析後傳送給使用者瀏覽器結果，包括html,js,css等檔案內容，瀏覽器解析出來最後呈現給使用者在瀏覽器上看到的結果瀏覽器傳送訊息給...

python爬蟲基本流程 Python爬蟲流程

python爬蟲流程主要分為三個部分 1 獲取網頁 2 解析網頁獲取資料儲存資料三個流程的技術實現 1.獲取網頁獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術多執行緒抓取登入抓取突破ip限制和伺服器抓取 2.解析網頁解析網頁的技術基礎 re...

python爬蟲beautifulsoup4系列3

python爬蟲 非同步爬蟲

Python爬蟲 初識爬蟲

python爬蟲基本流程 Python爬蟲流程

相關推薦

python爬蟲非同步爬蟲

Python爬蟲初識爬蟲