微博爬蟲之問題種種

2021-07-27 18:27:49 字數 875 閱讀 1002

好不容易模擬登陸上了微博,想著可以好好執行我的爬蟲之旅了,然而並沒有,,,,,,乙個微博賬號以及乙個ip位址不能爬太多資訊,否則微博會當成機械人(事實也是機械人,哈哈),於是上萬能的**買了兩個微博賬號想著拿來輪換登陸爬資訊,gg,在微博頁面上是可以的登陸的,然而在**上獲取微博網頁**卻不可以,想著應該是買的賬號有問題,於是用了同事的小號,結果是可以的。但是這也只是解決賬號問題,反爬好像是看ip位址的,所以得更換自己的ip,於是去大象**買了幾萬個ip,**微博。

for num in range(1,6):

url = '' + xueyuan + '&page=' + str(num)

#s = session.post(url)

# 183.140.87.42:3128 可用

#url = '%25e9%2580%259a%25e4%25bf%25a1%25e5%25ad%25a6%25e9%2599%25a2&refer=weibo_user'

#proxies = '183.140.87.42:3128'

for ip in ip_list:

try:

ss = session.get(url,headers = hds,proxies=)

print ip

break

# time.sleep(3)

except:

ip_list.remove(ip)

continue

html = ss.text

data = etree.html(html)

title = data.xpath('//p[@class="person_name"]//a[1]/@title[1]') #微博名稱

微博爬蟲python 微博爬蟲 python

本文爬取的是m站的微博內容,基於python 2.7 一 微博內容爬取 1.要爬取的微博首頁 2.手機微博是看不到翻頁,是一直往下載入的,但是其json格式的資料仍然以翻頁的形式呈現。3.開啟開發者工具,向下翻頁面,可以在network下的xhr的響應檔案中,找到json檔案的 如 通過分析發現每個...

爬蟲之爬取微博

3忘記了包含yeild的函式生成器目的是可以作為乙個迭代物件 貼源 importrequests fromurllib.parseimporturlencode frompyqueryimportpyqueryaspq base url header defget page page,value p...

Python 微博搜尋爬蟲

由於網頁端反爬蟲機制比較完善所以才去移動端進行爬蟲。對網頁進行抓包,找到相關資料 檢視資料是否與網頁的內容相同 分析多組資料的請求頭 通過網頁分析構造url位址對,位址資訊訪問。import requests 構造搜尋內容 data 反爬蟲,模擬遊覽器訪問 headers print result ...