python 千庫網素材爬取

2021-09-02 12:50:45 字數 892 閱讀 8148

'''搞事情! 千庫網聖誕素材抓取(僅一頁,其他自己迴圈)'''

import requests #requests請求模組

import re #re正則匹配模組

import random #隨機數字模組

response = requests.get('') #訪問千庫**後去響應;

index = response.text #獲取到響應的檔案;

url = re.findall(r'',index) #正則匹配出每張的url

for i in url: #迴圈處理每個url;

response = requests.get(i) #訪問url得到響應資訊;

info = response.text

img_url_list = re.findall(r'src="(.*?)"/>

', info) #正則匹配出image的url鏈結

img_url = 'http:' + img_url_list.pop(0) #轉為str形式;

file_path = 'e:\python\練習\python_try\image\{}.{}'.format(random.randrange(60),'jpg') #設定儲存路徑,可更改

with open(file_path, 'wb') as f: #儲存 『wb』以二進位制形式寫入

info_img_url = requests.get(img_url)

f.write(info_img_url.content)

Python爬取散文網散文

配置python 2.7 bs4 requests 安裝 用pip進行安裝 sudo pip install bs4 sudo pip install requests 簡要說明一下bs4的使用因為是爬取網頁 所以就介紹find 跟find all find跟find all的不同在於返回的東西不同...

python爬取奇趣網小說

在爬蟲爬取的過程中,需要判斷傳入的鏈結對應的是靜態網頁還是動態網頁,然後選擇不同的 對其進行爬取 因為靜態爬取比較快,所以當網頁為靜態網頁時就不需要呼叫動態爬取的 了,from bs4 import beautifulsoup,unicodedammit from urllib.request im...

校花網爬取

聯絡爬蟲使用 1 堆糖校花網api 獲取資料的api 路徑 path 2 簡要介紹爬蟲 2 從解析過程來說 方式2 模擬瀏覽器傳送請求 獲取網頁 提取有用的資料 存放於資料庫或檔案中 爬蟲要做的就是方式2 爬蟲過程圖 3 過程各個階段的主要介紹 1 發起請求 使用http庫向目標站點發起請求,即傳送...