glidedsky爬蟲闖關第一關

今天無意中發現了乙個練習爬蟲的**：

做的挺不錯的強烈推薦

第一關是將網頁中所有的數字相加，因為格式十分整齊，可以用多種方法來實現，一併記錄在這裡了，注意在get的時候要加上在cookie

import
requests
from bs4 import
beautifulsoup
import
refrom requests_html import
htmlsession
from lxml import
etree
header = 
r=requests.get("
level/web/crawler-basic-1
",headers=header)
html = beautifulsoup(r.text,'
lxml')
anss=0
#css選擇器
x=html.select("
div[class='col-md-1']")
for i in
x: anss+=int(i.get_text().strip())
print
(anss)
"""#正則
s='''(.+?)
'''x=re.findall(s,r.text,re.dotall)
for i in x:
anss+=int(i.strip())
print(anss)
""""""
#htmlsession.get().html.find()方法
session=htmlsession()
url=session.get("level/web/crawler-basic-1",headers=header)
#content=url.html.find('div.col-md-1:nth-child(1)',first=true)
for i in range(1,1201):
s='div.col-md-1:nth-child('+str(i)+')'
content=url.html.find(s,first=true)
anss+=int(content.text)
print(anss)
""""""
#xpath路徑
label=etree.html(r.text)
content=label.xpath('//div[@class="col-md-1"]/text()')
#提取div標籤中class名為"col-md-1"的內容資訊,並且存入乙個列表中
for i in content:
anss+=int(i.replace('\n', '').strip())
print(anss)
"""

python闖關 Python 爬蟲闖關（第一關）

經過多次手動填數字後，我們得到了這個頁面有一 dabo 數字，顯然手動在這輸是不太靠譜了。不過，我們可以大致總結出本關的規律第一關是將頁面出現的數字填寫到當前 url的尾部進行訪問，然後會得到乙個新的數字，再用它替換 url中的尾部數字，這樣不斷迴圈往復，直到頁面出現成功標識。那麼思路也有了解...

glidedsky爬蟲之css反爬蟲

author cjp file cssfan.py time 2020 9 11 16 37 import re from operator import itemgetter import requests from lxml import etree defgao url items heade...

Python爬蟲闖關 5

第五關第四關的密碼與第三關一樣，都是30以內的數字 usr bin env python3 coding utf 8 import requests from lxml import etree class login object def init self self.session reque...

glidedsky爬蟲闖關 第一關

python闖關 Python 爬蟲闖關（第一關）

glidedsky爬蟲之css反爬蟲

Python爬蟲闖關 5

相關推薦

glidedsky爬蟲闖關第一關