glidedsky爬蟲闖關 第一關

2022-06-03 10:00:11 字數 1432 閱讀 2025

今天無意中發現了乙個練習爬蟲的**:

做的挺不錯的 強烈推薦

第一關是將網頁中所有的數字相加,因為格式十分整齊,可以用多種方法來實現,一併記錄在這裡了,注意在get的時候要加上在cookie

import

requests

from bs4 import

beautifulsoup

import

refrom requests_html import

htmlsession

from lxml import

etree

header =

r=requests.get("

level/web/crawler-basic-1

",headers=header)

html = beautifulsoup(r.text,'

lxml')

anss=0

#css選擇器

x=html.select("

div[class='col-md-1']")

for i in

x: anss+=int(i.get_text().strip())

print

(anss)

"""#正則

s='''(.+?)

'''x=re.findall(s,r.text,re.dotall)

for i in x:

anss+=int(i.strip())

print(anss)

""""""

#htmlsession.get().html.find()方法

session=htmlsession()

url=session.get("level/web/crawler-basic-1",headers=header)

#content=url.html.find('div.col-md-1:nth-child(1)',first=true)

for i in range(1,1201):

s='div.col-md-1:nth-child('+str(i)+')'

content=url.html.find(s,first=true)

anss+=int(content.text)

print(anss)

""""""

#xpath路徑

label=etree.html(r.text)

content=label.xpath('//div[@class="col-md-1"]/text()')

#提取div標籤中class名為"col-md-1"的內容資訊,並且存入乙個列表中

for i in content:

anss+=int(i.replace('\n', '').strip())

print(anss)

"""

python闖關 Python 爬蟲闖關(第一關)

經過多次手動填數字後,我們得到了這個頁面 有一 dabo 數字,顯然手動在這輸是不太靠譜了。不過,我們可以大致總結出本關的規律 第一關是將頁面出現的數字填寫到當前 url的尾部進行訪問,然後會得到乙個新的數字,再用它替換 url中的尾部數字,這樣不斷迴圈往復,直到頁面出現成功標識。那麼思路也有了 解...

glidedsky爬蟲之css反爬蟲

author cjp file cssfan.py time 2020 9 11 16 37 import re from operator import itemgetter import requests from lxml import etree defgao url items heade...

Python爬蟲闖關 5

第五關 第四關的密碼與第三關一樣,都是30以內的數字 usr bin env python3 coding utf 8 import requests from lxml import etree class login object def init self self.session reque...