python爬取鏈家二手房的資料

2022-09-28 06:48:09 字數 1324 閱讀 4222

開啟鏈家官網,進入二手房頁面,選取某個城市,可以看到該城市**總數以及**列表資料。

某些**的資料是存放在html中,而有些卻api介面,甚至有些加密在js中,還好鏈家的**資料是存放到html中:

通過requests請求頁程式設計客棧面,獲取每頁的html資料

# 爬取的url,預設爬取的南京的鏈家房產資訊

url = ''.format(page)

# 請求url

resp = requests.get(url, headers=headers, timeout=10)

通過beautifulsoup解析html,並提取相應有用的資料

soup = beautifulsoup(resp.content, 'lxml')

rgllw# 篩選全部的li標籤

selllistcontent = soup.select('.selllistcontent li.logclickdata')

# 迴圈遍歷

for sell in selllistcontent:

# 標題

title = sell.select('div.title a')[0].string

# 先抓取全部的div資訊,再針對每一條進行提取

houseinfo = list(sell.select('div.houseinfo')[0].stripped_strings)

# 樓盤名字

loupan = houseinfo[0]

# 對樓盤的資訊進行分割

程式設計客棧 info = houseinfo[0].split('|')

# 房子型別

house_type = info[1].strip()

# 面積大小

area = info[2].strip()

# 房間朝向

toward = info[3].strip()

# 裝修型別

renovation = info[4].strip()

# 房屋位址

positioninfo = ''.join(list(sell.select('div.positioninfo')[0].stripped_strings))

# 房屋總價

totalprice = ''.join(list(sell.select('div.totalprice')[0].stripped_strings))

# 房屋單價

unitprice = list(sell.select('div.unitprice')[0].stripped_strings)[0]

以上就是我的分享,如果有什麼不足之處請指出,多交流,謝謝!

Python爬取鏈家二手房資訊

2 資料庫表結構 使用物件導向的方式,搭建專案框架 import requests from bs4 import beautifulsoup import pymysql class lianjiaspider mydb pymysql.connect localhost root 123456 ...

python爬蟲爬取鏈家二手房資訊

問題一 鏈家 也有反爬蟲策略和robots限制,robots限制忽略 不然沒法爬 另外頻繁爬取會直接導致被ban,需要隔天才會解禁止。防止被ban的方法有多種,1.禁止cookie 2.設定header 3.加大爬取間隔 4.使用 我只用了前三種方法,具體可以在settings.py 和middle...

python爬取鏈家網二手房資訊

朋友請我幫忙做的期末作業,我自己不是愛說話,直接分享 可以直接執行的,期中用的是 python 3.6版本,導包的時候直接在cmd裡面用的pip install 包名,其中有的包安裝失敗,提示pip需要公升級,可以看一下這個鏈結 下面是 在這裡插入 片 usr bin env python3 cod...