爬蟲原理 GET POST

2021-08-31 16:31:48 字數 784 閱讀 5799

靜態頁面:資料儲存在網頁的html中

動態頁面:資料不直接儲存在html中,而是伺服器後台單獨傳輸資料,再渲染到頁面中。

動態頁面獲取資料,必須抓包,找出瀏覽器和伺服器之間傳遞的資料(json、js、xml)

get: 可能會有查詢字串,但是一定沒有表單資料(查詢字串會顯示在url後面)

post: 可能會有查詢字串,但是一定有表單資料(表單資料儲存在請求體裡傳送)

匹配:""" ^(.?):\s(.?)$ 「」"

替換:""" 「\1」 : 「\2」, 「」"

sublime text: 選中部分向下多選, ctrl + d

cookie的兩種用法:

(最常用最簡單)直接手動登入**並儲存cookie,用於程式的請求報頭中

(不常用很複雜)模擬登入:

-1. 先分析登入頁面,抓包獲取需要的登入引數

-2. 傳送登入頁面的get請求,提取登入引數

-3. 附帶登入引數 和 賬戶密碼,傳送post登入請求,如果登入成功則記錄cookie

-4. 附帶這個登入後的cookie,傳送其他需要登入才能訪問的頁面

import requests

response.encoding = 「utf-8」 # 手動指定網頁的編碼,如果不指定則靠猜

response.text # 根據encoding來解碼,獲取網頁unicode編碼字串

Python爬蟲 二 爬蟲原理

爬蟲就是請求 並提取資料的自動化程式。其中請求,提取,自動化是爬蟲的關鍵!下面我們分析爬蟲的基本流程 發起請求 通過http庫向目標站點發起請求,也就是傳送乙個request,請求可以包含額外的header等資訊,等待伺服器響應 獲取響應內容解析內容 得到的內容可能是html,可以用正規表示式,頁面...

Python爬蟲原理

簡單來說網際網路是由乙個個站點和網路裝置組成的大網,我們通過瀏覽器訪問站點,站點把html js css 返回給瀏覽器,這些 經過瀏覽器解析 渲染,將豐富多彩的網頁呈現我們眼前 如果我們把網際網路比作一張大的蜘蛛網,資料便是存放於蜘蛛網的各個節點,而爬蟲就是乙隻小蜘蛛,使用者獲取網路資料的方式 方式...

爬蟲的原理

1 什麼是爬蟲?網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬瀏覽器傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式 原則上,只要是瀏覽器 客戶端 能做的事情,爬蟲都能夠做 2 爬蟲的本質 模擬瀏覽器開啟網頁,獲取網頁中想要的那部分資料 瀏覽器開啟網頁的過程如下 請求的...