xpath爬個扇貝單詞

2021-09-20 07:14:33 字數 1256 閱讀 9976

注意的是:

//     是全域性查詢

.//   是當前節點標籤內全域性查詢

有多少頁單詞就能爬多少頁,就是用這幾行**跳出死迴圈的,也就是說說捕獲不到資料就說明頁碼到頭了。

tr_list = tree.xpath('//table[@class="table table-bordered table-striped"]/tbody/tr')

if not tr_list:

break

import requests

from lxml import etree

def getdata(list):

if len(list) > 0 :

return list[0]

else:

return ''

# url = ''

# url2 ='?page=2'

headers =

page = 1

while true:

url = '?page={}'.format(page)

page += 1

response = requests.request('get',url=url,headers=headers)

with open('word.html','w',encoding=response.encoding)as fp:

fp.write(response.text)

tree = etree.html(response.text)

# //是全域性查詢

tr_list = tree.xpath('//table[@class="table table-bordered table-striped"]/tbody/tr')

if not tr_list:

break

for tr in tr_list:

word_list = tr.xpath('.//strong/text()')

word = getdata(word_list)

# .//是當前標籤內全域性查詢

初識爬蟲 xpath 簡單應用(扇貝單詞)

今天跟著老師爬取扇貝單詞的網頁版,是把網頁內的單詞及其翻譯爬取到本地,並儲存成 txt 檔案,網頁是這樣的 那麼下面進入正題 開始同以往一樣,匯入包,獲取 url 發起請求,獲得響應 url response requests.get url url text print response 這裡我們...

爬蟲 bs4 爬取扇貝 python 單詞書

本例不涉及cookie,即抓取的資源無需登入認證。爬蟲主要做兩件事,乙個是抓取請求鏈結,另乙個是分析響應的資料。鑑於扇貝單詞書的詞串頁中的頁碼是通過js動態生成,直接抓取頁面內容是不能獲取,因此程式模擬了它的分頁請求路徑 向目標url發請求,拉取響應體 分析頁面 爬取指定內容 抓取鏈結 分析資料 資...

APP案例分析 扇貝單詞

閃退,使在程式執行時突然中斷。採訪的使用者是社會工作專業的大四學生,正在準備考研,通過扇貝來記憶單詞。需要能快速,並大量的記住單詞。感受一般,單詞數還是不夠快,單詞的生詞量增加還是慢。總的來說,用起來的感覺還是不錯的。單詞的重複出現,有助於記憶單詞,記得還是比較牢固的。背單詞功能 查詢功能 介面功能...