Python鏈家廣州二手房的資料爬取 資料爬取

2022-09-14 02:57:05 字數 628 閱讀 7266

# 讀取原始資料(注意選擇gbk編碼方式)

#**很簡單、就不做上傳 ^_^

try:

soup = beautifulsoup(html, 'html.parser')

except exception:

return -1

house_info_div = soup.find_all('div', attrs=) # 獲取整個標題塊

獲取到之後的資料格式 解析如下:['配套成熟 交通便利 戶型方正 住宅', '麓湖路3號大院    -  小北 ', '3室1廳 | 87.17平公尺 | 西南 | 簡裝 | 中樓層(共5層) | 2023年建 | 塔樓', '5人關注 / 1個月以前發布', 'vr**房本滿五年', '345萬單價39578元/平公尺']

拆分入庫

以上算是個人階段性練習吧!!!房價真是讓人窒息!!!

爬取廣州鏈家二手房並寫入csv

知識點 多執行緒,讀取csv,xpathimport json import csv import requests import threading import lxml import lxml.etree 遞迴鎖 rlock threading.rlock headers 獲取區域 def g...

Python爬取鏈家二手房資訊

2 資料庫表結構 使用物件導向的方式,搭建專案框架 import requests from bs4 import beautifulsoup import pymysql class lianjiaspider mydb pymysql.connect localhost root 123456 ...

python爬取鏈家二手房的資料

開啟鏈家官網,進入二手房頁面,選取某個城市,可以看到該城市 總數以及 列表資料。某些 的資料是存放在html中,而有些卻api介面,甚至有些加密在js中,還好鏈家的 資料是存放到html中 通過requests請求頁程式設計客棧面,獲取每頁的html資料 爬取的url,預設爬取的南京的鏈家房產資訊 ...