爬蟲 BeautifulSoup 蛋殼公寓租房

2021-10-06 09:28:02 字數 2918 閱讀 5041

import re,requests

from bs4 import beautifulsoup

defget_page_info

(page=1)

: url=

""+str

(page)

headers=

r=requests.get(url,headers=headers)

soup=beautifulsoup(r.text,

'html.parser'

) house_list=soup.find_all(

"div"

,attrs=

)for once in house_list:

house_name=once.find(

"div"

,attrs=

).a.attrs[

'title'

] house_url=once.find(

"div"

,attrs=

).a.attrs[

'href'

] house_price=once.find(

"span"

,attrs=

).text.strip(

) house_station_info=once.find(

"div"

,attrs=

).next_element.strip(

) house_info4=once.find(text=re.

compile

("㎡"))

house_info4=re.sub(

"\s",''

,house_info4)

try:

house_discount=once.find(

"div"

,attrs=

).text

house_discount=re.sub(

"\s",''

,house_discount)[:

-2]except attributeerror :

house_discount=

"暫無優惠"

print

(house_discount)

for page in

range(1

,5):

get_page_info(page)

# import re

## str1="距5號環中線,10號線五和站400公尺"

# str2="距3號龍崗線六約站250公尺"

# str3="距1號羅寶線,3號龍崗線購物公園站850公尺"

# str4="距2號蛇口線,9號線景田站500公尺"

# str5="距9號線香梅站200公尺"

# regex="距(?:(\d+)號([\u4e00-\u9fa5]*)線,)?(\d+)號([\u4e00-\u9fa5]*)線([\u4e00-\u9fa5]*)站(\d+)公尺"

# print(re.search(regex,str1).groups())

# print(re.search(regex,str2).groups())

# print(re.search(regex,str3).groups())

# print(re.search(regex,str4).groups())

# print(re.search(regex,str5).groups())

c:\anaconda3\python.exe d:

/ai/

01-ai基礎/ai-

3-python高階/

01爬蟲ppt/day3_lxml和動態請求/demo1-蛋殼公寓beautifulsoup.py

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

暫無優惠

process finished with exit code 0

爬蟲 BeautifulSoup 模組

二 根據這個dom樹就可以按照節點的名稱 屬性和文字搜尋節點 find all 方法會搜尋出所有滿足要求的節點,find 方法只會搜尋出第乙個滿足要求的節點 兩個方法的引數一模一樣 三 得到節點以後,就可以訪問它的名稱 屬性 文字。a為標籤名稱 超連結 href,class為屬性,顯示在頁面上的是p...

爬蟲beautifulsoup實踐

爬蟲beautifulsoup實踐 一 觀察response。首先,在chrome瀏覽器裡觀察一下該網頁的response內容,可以觀察到,的url都存放在img標籤下面,srcset屬性裡面,而且它們的class屬性都為 2zekz。二 理清爬蟲步驟的思路。規律已經找出來了 下一步就把爬蟲的思路寫...

爬蟲資料 Beautiful Soup

安裝 pip intsall bs4 beautiful soup的簡介 beautiful soup是python的乙個庫,最主要的功能是從網頁抓取資料,官方解釋如下 github位址 和lxml一樣,beautifulsoup也是乙個html xml的解析器,主要功能也是如何解析和提取html ...