搜狗微信新增搜尋工具爬蟲

2021-08-22 07:28:19 字數 2394 閱讀 8661

注意事項:

1、從首頁我們需要輸入關鍵字才可以到達選擇搜尋工具的頁面

2、新增過搜尋工具的鏈結,是不能夠貼上出來再開啟的(會回到首頁)

1、在首頁輸入關鍵字,此時還沒有加入搜尋工具。

2、加入搜尋工具

廢話不說了,直接上乾貨。

通過對搜尋工具這一步進行抓包

此時很驚訝的發現這兩個鏈結和上面請求的鏈結是一樣的。referer是不帶搜尋工具的,request url是帶有搜尋工具的鏈結。所以就突發奇想,是不是只是在每一次的請求中帶有這個referer就可以訪問了,果真如此。然後就可以就行爬取帶有搜尋工具的鏈結了。就不用使用cookie就可以完成。

使用scrapy的核心**如下

def parse(self, response):

query = re.findall('&query=(.*?)&', response.url)[0]

headers = '.format(query),

'host': 'weixin.sogou.com',

'pragma': 'no-cache',

'upgrade-insecure-requests': '1',

}url = "".format(query)

yield scrapy.request(url=url,dont_filter=true,callback=self.parse_1,headers=headers,meta=)

def parse_1(self,response):

p = response.meta

try:

for sel in response.xpath('//div[@class="news-box"]/ul[@class="news-list"]/li'):

parse.....

# 解析網頁

if 翻頁的條件:

yield scrapy.request(url, meta=, callback=self.parse_1, dont_filter=true,headers=p['headers'])

else:

return

except:

print traceback.format_exc()

使用requests的核心**如下

**很凌亂,畢竟這個requests的**是打草稿用的,不喜勿噴。

# coding=utf-8

import requests

from lxml import etree

headers =

def get_key_words_list():

# 基礎鏈結

base_url = ''

# 我們需要的cookie是搜尋關鍵字後的cookie

# 我們選取的關鍵字是搜狗威信本身熱搜榜中的關鍵字

base_html = etree.html(requests.get(url=base_url, headers=headers).content.encode('utf8','ignore').decode('utf8','ignore'))

keywords =

for keyword in base_html.xpath('//ol[@id="topwords"]/li/a/text()'):

return keywords

cookie_url = 'weixin?type=2&ie=utf8&s_from=input&_sug_=y&_sug_type_=&query='.format(get_key_words_list()[0])

cookie_headers =

test_url = "weixin?type=2&ie=utf8&query={}&tsn=1&ft=&et=&interation=&wxid=&usip=".format(get_key_words_list()[0])

html = requests.get(url=test_url,headers=cookie_headers).content.encode('utf8','ignore').decode('utf8','ignore')

s = etree.html(html)

for title in s.xpath('//h3/a/text()'):

print title

HttpClient爬蟲 搜狗微信出現驗證碼

更換新的cookie即可解決 設定cookie並傳送請求 hashmap cookiesmap newhashmap for cookie c cookies doc jsoup.connect url cookies cookiesmap get 根據li標籤獲取具體內容 elements lis...

python 微信爬蟲 python 微信爬蟲例項

import urllib.request import urllib.parse import urllib.error import re,time import queue import threading operner urllib.request.build opener operner...

python微信爬蟲

import urllib.request import re import time import urllib.error 自定義函式,功能為使用 伺服器爬乙個 def use proxy proxy addr,url 異常處理機制 try req urllib.request.request ...