爬蟲 Requests 使用入門

2021-09-10 03:22:22 字數 3616 閱讀 4743

linuxalias命令用於設定指令的別名。     

home目錄中~/.bashrc 這個檔案主要儲存個人的一些個性化設定,如命令別名、路徑等。

注意:1,寫絕對路徑

2,有空格

改好後使用source ~/.bashrc 使用檔案生效

assert response.status_code==200

assert response.status_code==200
raise異常

raise

引發乙個異常

例子:如果輸入的資料不是整數,則引發乙個valueerror

inputvalue=input("

please input a int data :")

if type(inputvalue)!=type(1):

raise

valueerror

else

:

print

inputvalue

假設輸入1.2,執行結果為:

please input a int data :1.2traceback (most recent call last):

file

"c:/users/lirong/pycharmprojects/untitled/openfile.py

", line 3, in

raise

valueerror

valueerror

如果輸入1,執行結果為:

please input a int data :1

"

傳{}智播客

".format(1)

用法:requests.get("

", proxies =proxies)

proxies的形式:字典

proxies =

問題:為什麼爬蟲需要使用**?

讓伺服器以為不是同乙個客戶端在請求

防止我們的真實位址被洩露,防止被追究

檢查ip的可用性

requests 提供了乙個叫做session類,來實現客戶端和服務端的會話保持

使用方法:

1例項化乙個session物件

2讓session傳送get或者post請求

session =requests.session()

response = session.get(url,headers)

cookies="

anonymid=j3jxk555-nrn0wh; _r01_=1; _ga=ga1.2.1274811859.1497951251;

_de=bf09ee3a28ded52e6b65f6a4705d973f1383380866d39ff5; [email protected]; depovince=bj;

jebecookies=54f5d0fd-9299-4bb4-801c-eefa4fd3012b|||||; jsessionid=abci6tfwh4n4t_awjnvdw;

ick_login=4be198ce-1f9c-4eab-971d-48abfda70a50; p=0cbee3304bce1ede82a56e901916d0949; first_login_flag=1;

ln_hurl=

t=79bdd322e760beae79c0b511b8c92a6b9; societyguester=79bdd322e760beae79c0b511b8c92a6b9;

id=327550029; xnsid=2ac9a5d8; loginfrom=syshome; ch_id=10016; wp_fold=0

"cookies =

[self.url_temp.format(i * 50) for i in range(1000)]

import requests

session =request.session()

post_url = ""

post_data =

headers =

# 使用session傳送post請求,cookie儲存在其中

session.post(post_url,data=post_data,headers=headers)

#在使用session進行請求登陸之後才能訪問的位址

r = session.get("

",headers=headers)

#儲存頁面

with open(

"renren1.html

","w

",encoding="

utf-8

") as

f: f.write(r.content.decode())

headers =

r = requests.get("

",headers=headers)

#儲存頁面

#儲存頁面

with open(

"renren3.html

","w

",encoding="

utf-8

") as

f: f.write(r.content.decode())

response = requests.url(...)

response.encoding  # 檢視編碼

response.encoding = 'utf-8' # 指定編碼

response.content.decode() # 將二進位制的獲取網頁資料返回到本地進行解碼 另兩種方法 response.content.decode('gbk')  response.text

posted @

2018-12-07 16:59

wsg-python 閱讀(

...)

編輯收藏

爬蟲入門 Requests庫

首先用管理員許可權開啟cmd命令列,然後直接輸入 pip install requests,即可安裝成功 需要聯網 方法 作用requests.request 構造乙個請求,它是支撐以下方法的基礎方法 requests.get 獲取html網頁的主要方法,請求獲取url位置的資源 requests....

二 爬蟲入門 requests的基本使用

1.作用 傳送請求獲取響應 為什麼使用requesst?1 requests底層實現的是urllib 2 requests在python2和python3中通用,方法完全一樣 3 requests簡單易用 python特性 4 requests能夠幫助我們解壓響應內容 自動解壓完善請求頭,自動獲取c...

爬蟲之requests模組的入門使用

為什麼要重點學習requests模組,而不是urllib requests的底層實現就是urllib requests在python2 和python3中通用,方法完全一樣 requests簡單易用 requests能夠自動幫助我們解壓 gzip壓縮的等 網頁內容 requests模組傳送簡單的ge...