風火程式設計 requests爬蟲的使用

2021-09-12 16:53:34 字數 1544 閱讀 5576

import request

request.get(url=url, headers=)

from lxml import etree

item = {}

html = etree.html(response.text)

title = html.xpath('//h4//text()')

if title:

item['title'] = title[0]

deail_url = html.xpath('//h4/a/@href')

if detail_url:

item["url"] = url[0]

import requests

sess = requests.session()

# 提交使用者名稱密碼資料登入並記錄cookie, 不進行安全忽略證書(https)

response = sess.post(url, data=login_data, headers=headers, verify=false)

response = sess.get(link, headers=headers)

使用隧道型別的**,不能處理需要重定向的url請求, 應直接請求目標url

在配置檔案或啟動檔案頭部執行以下**

# 版本一

import requests

from requests.packages.urllib3.exceptions import insecurerequestwarning

requests.packages.urllib3.disable_warnings(insecurerequestwarning)

# 版本二

import urllib3

urllib3.disable_warnings(urllib3.exceptions.insecurerequestwarning)

from requests_toolbelt import ssladapter

adapter = ssladapter('tlsv1')

s = requests.session() # 每次請求新增

u = urllib.parse.urlencode(data)

在編碼之前英注意檢視是否有已經編碼的字段, 否則會二次編碼導致資料錯誤

使用socks5**

proxy = 'socks5://ip:port'

proxies =

resp = requests.get(url, proxies=proxies, ...)

出現異常先公升級一下socks

pip install -u requests[socks]

風火程式設計 python爬蟲幾個xpath解析方法

requests獲取的響應體 from lxml import etree html etree.html response.text 二進位制型別用.content result html.xpath expression 返回list,乙個用 0 selenium獲取的響應體 result re...

爬蟲筆記 Requests

requests庫是能夠處理獲取url 鏈結 中的資訊的乙個第三方庫 一 requests安裝 windows進入cmd命令列 pip install requests 我們可以開啟idle來檢視是否成功的安裝。沒有提示錯誤資訊表示我們已經成功地安裝好了requests庫 二 requests下的主...

風火程式設計 numba使用示例

使用numba可以對numpy的向量運算在時間和空間上進行優化.在jupyter notebook 和ipython等實時互動中可以通過魔法方法 timeit 和 memit 進行時間和記憶體消耗情況的輸出.import time import numpy as np import numba as...