爬蟲奇遇記 如何按照標籤的文字內容來抓取

2021-07-27 11:00:26 字數 739 閱讀 7514

俗話說的好:只要能爬下來,其他都不是事。

昨天寫爬蟲遇到這樣乙個情況:父標籤的class內容都一樣,裡面子標籤只有標籤帶文字,還是來張圖比較明了:

我又要以站長之家的為例說明了

可以發現,這兩塊,父標籤和子標籤內容一模一樣,findall第乙個指向的是第一塊的,直接用索引我試過,一開始是可以的,但是對於其他網頁,有的並沒有註冊商這一塊,這時候索引就對不上了,還有可能報indexerror

然後我就想,我能不能按照子標籤的文字內容來找呢?這樣我就肯定能找到了!

但是beautifulsoup並沒有提供按照文字查詢的方法,怎麼辦呢?方法是人想出來的,beautifulsoup也是人寫出來的

這是我的實現方法,大神們如果有其他方法,歡迎討論。

create_time_text = whois_check.find('li', class_='bor-b1s ')

# 不能索引形式找,要用文字內容來找

while true:

if u'建立時間' not in create_time_text.text: # 逐個匹配,找到建立時間所在的節點

create_time_text = create_time_text.next_sibling

else:

break

耳環奇遇記 關於耳環的故事

國內首家耳環專賣店招商中 耳環奇遇記開創國內耳環專賣模式的先河。耳環奇遇記是市場競爭的必然產物,是市場細分的體現。耳環奇遇記以經營耳環為主 銀耳環 鋯石耳環 貝殼耳環 景泰藍耳環 水晶耳環 合金鑲鑽耳環 各種南韓耳環 瑪瑙耳環 珊瑚耳環等等多達數千種。公司擁有數十位飾品行業資深管理 資深店長 資深採...

KB奇遇記 6 搞笑的ERP專案團隊

早在我們來之前,kb公司這邊就已經組建了erp專案組了,當時it就只有乙個人,屬網管出身。而關鍵使用者分兩種型別 專職關鍵使用者和兼職關鍵使用者。專職關鍵使用者組織結構上已經調動到資訊部,常駐在專案組裡工作,財務模組2個人,採購模組1個人,其他模組沒有。兼職關鍵使用者平時都是在各自部門裡,平時該做什...

KB奇遇記 7 不靠譜的專案實施計畫

在erp專案啟動前期,專案組兩方專案經理和我等幾個人單獨跟總裁開會,討論了初步的erp實施計畫,本來第一期上線只是考慮上其中一家工廠而已,結果臨時加入了深加工的工廠。本來專案組預定計畫是2017年1月1號上線的,結果到總裁那邊就被裁定為2016年11月1號,足足提前了2個月。同時第二期上線要在明年半...