glidedsky挑戰 CSS反爬

2021-09-26 06:01:49 字數 668 閱讀 3113

相應頁面(

分析這個頁面的特點:

頁面顯示出來的資料不同

頁面中部分顯示的資料可能在標籤中不顯示

頁面**現數字順序是亂的,不好組合拼接,如第3個字元(346對應634)

頁面中,有些字元還出現其它的數字來擾亂數字。

是不是這些資料似曾相識,沒錯了,這些css 就是頁面數字顯示出來的規則。沒辦法了,那就分析、研究唄。

說說我總結出來的幾點吧:

那麼知道規則了,那就寫演算法實現它吧。

1、獲取頁面,解析出標籤和css樣式,儲存下來。

2、根據規則,寫演算法實現。

3、記錄數字,進行求和。

4、獲取下一面資料,再重複第一步。

這裡第2步比較難,因為它的規則不一,需要作出各種判斷。

提示一下,難點在於數字順序,可以通過定個數字下標來記錄,設一處定點值,當它產生乙個,加入到佇列,定點值就加1。

GlidedSKY挑戰之五 CSS反爬

雖然幾個挑戰沒寫完,簡單的看了一下,爬蟲工作過程中一些問題在這裡都有展示,是乙個可以檢驗爬蟲工作者的能力的 跟玄幻 中挑戰塔一樣。說一下,第5個挑戰 css反爬 通過css修改了樣式,在頁面上看到的數字展示跟原始碼中的展示不一樣 直接上 了。import re from operator impor...

glidedsky爬蟲之css反爬蟲

author cjp file cssfan.py time 2020 9 11 16 37 import re from operator import itemgetter import requests from lxml import etree defgao url items heade...

文字混淆反爬 CSS偏移

說明 利用css樣式將亂序的文字排版為人類正常閱讀的順序,但是爬蟲獲取到的是亂序的 例如 去哪兒網的機票 步驟 1 分析數字規律 2 定位數字所在標籤,得到基準資料 3 提取其他標籤的偏移量和數字 4 根據偏移量決定基準資料列表的覆蓋元素。import re from parsel import s...