小白爬蟲學習2 遇到的困難

2021-10-17 11:20:55 字數 1899 閱讀 4568

```python

from bs4 import beautifulsoup

import requests

import time # 匯入相應的庫檔案

headers=

defjudgment_***

(class_name)

:if class_name==

['member_icol']:

return

'女'else

:return

'男'# 定義判斷使用者性別的函式

defget_links

(url)

:# 定義獲取詳細頁的url的函式

wb_data=requests.get(url,headers=headers)

soup=beautifulsoup(wb_data.text,

'lxml'

) links=soup.select(

'page_list>ul>li>a'

)for link in links:

href=link.get(

'href'

) get_links(href)

# 迴圈出的url函式,一次呼叫get_info函式

defget_info

(url)

: wb_data=requests.get(url,headers=headers)

soup=beautifulsoup(wb_data.text,

'lxml'

) titles=soup.select(

'div.pho_info>h4'

) addresses=soup.select(

'span.pr5'

) prices=soup.select(

"#pricepart>div.day_1>sapn"

) imgs=soup.select(

'#floatrightbox>div.js_box.clearfix>div.member_pic>a>img'

) names=soup.select(

"#floatrightbox>div.js_box.clearfix>div.w_240>h6>a"

) ***s=soup.select(

'#floatrightbox>div.js_box.clearfix>div.member_pic>div'

)for title,address,price,img,name,*** in

zip(titles,addresses,prices,imgs,names,***s)

: data=

print

(data)

# 獲取資訊並通過字典的形式列印出來

if __name__==

'__main__'

:# 程式的主入口

for i in

range(1

,2):

urls=

[''.format

(i)]

# 構造多頁url

for single_url in urls:

# 迴圈呼叫get_links()函式

get_links(single_url)

time.sleep(2)

# 睡眠2秒

``按照書上寫的敲了一遍,**基本一樣的執行後就卻只顯示正常退出,沒有爬到的資料,小白想了好多**的問題都想不通,想請教各位大神,為什麼是這樣啊。是****錯了麼,感謝啦!!

執行後的結果,什麼都沒有啊,腦殼疼。

爬蟲正規表示式遇到的困難

我看了csdn和,除去格式以外。如果能夠儲存 就好啦。我觀察資料大多存放在標籤裡面。現在如果能夠去掉p標籤的同時。保留住 感覺要用正規表示式 我拿出這兩個鏈結,你可以看看 csdn 以csdn為例子 主要就是,既要保留img標籤裡面的鏈結。又要去掉所有的其他標籤 查詢來篩選 src 結果有乙個雙引號...

遇到困難時的SOP

今天,被乙個看似困難的問題所困擾著,整整折磨我一天,其實這個問題沒有想像中的難,甚至以前也遇過類似的問題。以下幾個原因,首先是自己思路受限,沒有及時調整,使自己陷入死迴圈中,越去想,越想不出來,越想不出來,人越煩,越沒狀態。其次,昨晚幾番通宵,今天的狀態可想而知,今晚回到宿舍,抱著再試試的想法,開啟...

爬蟲學習(2)

設定header 偽裝 有些 沒有header裡面設定的身份是不會響應請求的,所以為了能響應請求,加入身份認證import urllib import urllib2 url user agent mozilla 4.0 compatible msie 5.5 windows nt 瀏覽器 身份認證...