遇到百度雲加速,網頁內容爬不到的快速解決

2022-06-05 03:39:11 字數 1653 閱讀 9143

沒採用網上自動解析驗證碼的方案,快過年了,不想pip,快速解決快速回家

import request 

from datetime import

datetime, timedelta

from scrapy.selector import

selector

s=requests.session()

headers =

url = '

'res = requests.get(url,headers=headers)

hxs =selector(res)

#print(res.text)

datepub = hxs.xpath('

//main[@class="content"]//time/text()

').extract()

#print (datepub)

links = hxs.xpath('

//main[@class="content"]//h2/a')

for index, link in

enumerate(links):

pubdatestr =datepub[index]

pubdatestr =pubdatestr.strip()

url = ''.join(link.xpath('

./@href

').extract())

item_pubdatestr = datetime.strftime(pubdate, '

%y-%m-%d')

item_res = requests.get(url, headers=headers)

item_hxs =selector(item_res)

item_title = item_hxs.xpath("

//h2/text()

").extract()

item_content = item_hxs.xpath("

//main//div[@class='econtent']/p//text()

").extract()

item_datepublish =item_pubdatestr

item_linkaddress =url

filename = datetime.now().strftime('

%y%m%d%h%m%s%f

')+"

.txt

"str_result = '

'else

: str_result = str_result + '

"content": ["

' + "" + '

"]}'

if len(str_result) >0:

with open(filename, 'w

',encoding='

utf-8

') as f:

f.write(str_result)

print(item_title)

如何獲取當期可用的cookies的方法:

開啟chorme,開啟「開發者工具」(按f12)

訪問**後

去開發發工具裡的「network」tab頁裡去找它的cookies!

enjoy :p

網頁爬蟲 爬取百度諮詢新聞

工具 import urllib request urllib.request庫可以模擬瀏覽器傳送網頁請求並獲取request的結果。以科技類新聞為例,擬爬取這樣一篇文章。首先,傳送請求 html request urllib request request html 寫入獲取到的網頁,並轉化成py...

百度雲加速3 0上線 支援海外主機空間加速

雲加速是旗下為 提供加速 安程式設計客棧全防護的平台,於2014年4月推出hhlntjhh,與之前大家所知道的加速樂免費cdn有聯絡又有區別,簡單地說就是 與加速樂在2013年8月開始交往,一直到2014年5月,與加速樂正式分手了。在與交往的短短半年的時間內,加速樂的cdn服務得到不少人的認可,加速...

列印網頁(獲得網頁限制的內容(如百度文庫))

以火狐瀏覽器為例。如果是學習,比如列印出來,這就方便很多。乙個很好用的外掛程式fireshot,能夠在網頁截圖。還有乙個是adblock,遮蔽廣告和刪除元素。print edit we這個外掛程式可以參考使用,算是兩者的結合。step1 首先要用adblock把廣告給遮蔽掉。一般預設即可遮蔽,如果有...