爬取靜態網頁(個人筆記,不要點進來)

2022-08-22 07:39:08 字數 822 閱讀 6310

定製requests  2019-04-06

一. 傳遞url引數

自己構建的url中, 資料一般會跟在乙個問號後面, 並以鍵-值的形式放在url中.

在requests中, 我們可以把這些引數儲存在字典中, 用params構建至url中.

print(r.url)  # 返回編碼後的url

上述**實現了 將key1=value1, key2=value2傳遞到**的url請求中

二. 定製請求頭

第一步, 檢視網頁內建的header

在網頁上右擊, 開啟"元素審查"或"檢查"選項, 在開啟的頁面中選擇network選項, 在左側資源中找到需要請求的網頁, 隨後開啟的視窗中的header選項中檢視

requests header的詳細資訊.

第二步, 根據查詢到的資訊編寫 自己的請求頭.其中需包括[user-agent] [host]引數.

三. 傳送post請求

傳送一些編碼為表單形式的資料( 因為如果用get請求, 資料就會顯示在url中, 這是不安全的), 只需要傳入乙個字典型別給requests的[data]引數

四.設定超時

防止遇到伺服器長時間不響應 導致爬蟲一直處在等待狀態, 用requests的[timeout]引數設定超時, 

i.e: r = requests.get(link, timeout= 0.001) # 0.001秒內無響應則丟擲異常(一般設定為20秒)

python爬蟲 爬取靜態網頁

爬蟲新手剛入門,萌新練手交流作 import requests import bs4 from bs4 import beautifulsoup 偽裝瀏覽器,獲取源 def gethtml url headers 偽裝瀏覽器 response requests.get url,headers hea...

Python爬取靜態網頁操作

靜態網頁一般指純粹的html格式的網頁,對於爬蟲來說,靜態網頁的資料都比較容易獲取,利用好requests庫就能輕鬆傳送http請求,獲取到網頁的資料。requests庫可以幫助我們獲取到響應內容,再通過一些引數來滿足我們的需求,它的安裝也十分簡單,對於windows使用者來說,在已經裝好pytho...

靜態網頁內容爬取(python)

以 漏洞掃瞄為例 from bs4 import beautifulsoup from urllib.request import urlopen import pymysql as mysqldb import re import os 插入資料 def insertdata lis cursor...