python網路爬蟲之requests庫 二

2022-05-31 08:12:14 字數 687 閱讀 4067

前面一篇在介紹request登入csdn**的時候,是採用的固定cookie的方式,也就是先通過抓包的方式得到cookie值,然後將cookie值加在傳送的資料報中傳送到伺服器進行認證。

就好比獲取如下的資料。然後加入到header資訊中去

構造的cookie值

cookie=

但是這樣的實現方式有乙個問題,就是每次都需要獲取到伺服器傳送的cookie值,自動化程度大大減低。其實requests庫還有個功能可以在後續的報文互動中儲存cookie值並自動傳送.我們自管構造post的資料就可以了

首先來看下每次登陸的時候遞交的值。有username, password還有lt,execution,_eventid這些字段。

這些欄位從哪獲取呢, 通過檢視csdn網頁登入的資料,找到了這幾個字段,原來是輸入框元素裡面的屬性資料

python學習筆記 flask之request

from flask import request coding utf 8 from flask import flask,request def index 訪問上面定義的路徑就是訪問此方法 請求行 print request.method request.method 獲取請求方法 print...

Python 網路爬蟲之BeautifulSoup

在上一節記錄了如何使用urllib進行網路爬蟲,並將資料儲存。但是我當時是使用的正規表示式進行的資料過濾,有些不全面。接下來我將記錄一種更加方便的解析資料的操作 beautifulsoup 安裝beautifulsoup4 導包import urllib.request from bs4 impor...

Python之網路爬蟲(1)

將 中所有的出版社資訊都爬取出來。如下 可以看到,網頁中有許多的出版社。下面我們用 將所有出版社的名字爬取出來,並儲存在檔案中。import urllib.request import re url data urllib.request.urlopen url read data data.dec...