詳解Python靜態網頁爬取獲取高畫質桌布

2022-09-28 09:06:12 字數 987 閱讀 6581

前言

在設計爬蟲專案的時候,首先要在腦內明確人工瀏覽頁面獲得時的步驟

一般地,我們去網上批量開啟桌布的時候一般操作如下:

1、開啟桌布網頁

2、單擊桌布圖(開啟指定桌布的頁面)

3、選擇解析度(我們要**高畫質的圖)

4、儲存

實際操作時,我們實現了如下幾步網頁位址的訪問:開啟了桌布的網頁→單擊桌布圖開啟指定頁面→選擇解析度,點選後開啟最終儲存目標網頁→儲存

在爬蟲的過程中我們就嘗試通過模擬瀏覽器開啟網頁的操作,一步步獲得、訪問網頁、最後獲得目標的lbmvi**位址,對進行**儲存到指定路徑中www.cppcns.com

*這些中間過程中網頁的一些具體篩選條件的構造,需要開啟指定頁面的源**去觀察和尋找包含有目的鏈結的標籤

具體實現專案與注釋

這裡我只想獲得一些指定的,所以我先在網頁上搜尋「程式設計客棧長門有希」,開啟了乙個搜尋結果頁面,發現在這個頁面上就已經包含了同型別的其他桌布鏈結,於是我一開始就把最初訪問的目的位址設定為這個搜尋結果頁面

目標結果頁面截圖:

圖中下標為"1/29"."2/29"為其他同型別目標桌布,通過點選這些我們可以開啟新的目標**頁面

這裡我們檢視一下網頁源**

圖中黃色底的地方就是開啟這些同類桌布的目的位址(訪問的時候需要加上字首"")

現在我們可以嘗試實現構建爬蟲:

開啟指定頁面→篩選獲得所有長門有希桌布的目標**頁面鏈結

**如下:

獲得位址以後我們可以通過獲取位址→開啟指定頁面→選擇解析度→獲得目的**位址→儲存到本地指定路徑中

在測試的時候我輸出了一下上一步truelist中儲存的內容

可以看到儲存的只是乙個字尾,在訪問的時候我們需要加上乙個指定的字首

實現**如下(程式設計客棧注釋見**):

最後可以在自己的目標資料夾中看到爬下來的集~

本文標題: 詳解python靜態網頁爬取獲取高畫質桌布

本文位址: /jiaoben/python/257524.html

python爬蟲 爬取靜態網頁

爬蟲新手剛入門,萌新練手交流作 import requests import bs4 from bs4 import beautifulsoup 偽裝瀏覽器,獲取源 def gethtml url headers 偽裝瀏覽器 response requests.get url,headers hea...

Python爬取靜態網頁操作

靜態網頁一般指純粹的html格式的網頁,對於爬蟲來說,靜態網頁的資料都比較容易獲取,利用好requests庫就能輕鬆傳送http請求,獲取到網頁的資料。requests庫可以幫助我們獲取到響應內容,再通過一些引數來滿足我們的需求,它的安裝也十分簡單,對於windows使用者來說,在已經裝好pytho...

靜態網頁內容爬取(python)

以 漏洞掃瞄為例 from bs4 import beautifulsoup from urllib.request import urlopen import pymysql as mysqldb import re import os 插入資料 def insertdata lis cursor...