風火程式設計 requests爬蟲的使用

import request
request.get(url=url, headers=)

from lxml import etree
item = {}
html = etree.html(response.text)
title = html.xpath('//h4//text()')
if title:
item['title'] = title[0]
deail_url = html.xpath('//h4/a/@href')
if detail_url:
item["url"] = url[0]

import requests
sess = requests.session()
# 提交使用者名稱密碼資料登入並記錄cookie, 不進行安全忽略證書(https)
response = sess.post(url, data=login_data, headers=headers, verify=false)
response = sess.get(link, headers=headers)

使用隧道型別的**,不能處理需要重定向的url請求, 應直接請求目標url

在配置檔案或啟動檔案頭部執行以下**

# 版本一
import requests
from requests.packages.urllib3.exceptions import insecurerequestwarning
requests.packages.urllib3.disable_warnings(insecurerequestwarning)
# 版本二
import urllib3
urllib3.disable_warnings(urllib3.exceptions.insecurerequestwarning)

from requests_toolbelt import ssladapter
adapter = ssladapter('tlsv1')
s = requests.session() # 每次請求新增
u = urllib.parse.urlencode(data)

在編碼之前英注意檢視是否有已經編碼的字段, 否則會二次編碼導致資料錯誤

使用socks5**

proxy = 'socks5://ip:port'
proxies = 
resp = requests.get(url, proxies=proxies, ...)

出現異常先公升級一下socks

pip install -u requests[socks]

風火程式設計 python爬蟲幾個xpath解析方法

requests獲取的響應體 from lxml import etree html etree.html response.text 二進位制型別用.content result html.xpath expression 返回list,乙個用 0 selenium獲取的響應體 result re...

爬蟲筆記 Requests

requests庫是能夠處理獲取url 鏈結中的資訊的乙個第三方庫一 requests安裝 windows進入cmd命令列 pip install requests 我們可以開啟idle來檢視是否成功的安裝。沒有提示錯誤資訊表示我們已經成功地安裝好了requests庫二 requests下的主...

風火程式設計 numba使用示例

使用numba可以對numpy的向量運算在時間和空間上進行優化.在jupyter notebook 和ipython等實時互動中可以通過魔法方法 timeit 和 memit 進行時間和記憶體消耗情況的輸出.import time import numpy as np import numba as...

風火程式設計 requests爬蟲的使用

風火程式設計 python爬蟲幾個xpath解析方法

爬蟲筆記 Requests

風火程式設計 numba使用示例

相關推薦