Python爬取鏈家地鐵房資料

2021-08-04 02:36:10 字數 1337 閱讀 8656

#coding=gbk

#因為涉及到中文,utf-8會報錯

### 環境:python 3.6###

import requests

import re

import pandas as pd

import csv

from bs4 import beautifulsoup

def generate_allurl(user_in_nub):

url = ''

for url_next in range(1, int(user_in_nub)):

yield url.format(url_next)

def main():

#user_in_nub = input('輸入生成頁數:')

df =

for i in generate_allurl(35): #總共34頁

print("頁碼"+i)

#get_allurl(i)

res = requests.get(i)

if res.status_code == 200:

soup = beautifulsoup(res.text, 'lxml') #獲取html的文字

re_set = re.compile('.*?re_get = re.findall(re_set, res.text)#獲取一頁的二手房資訊個數

print(len(re_get))

#for i in re_get:

#print(i)

#open_url(i)

for i in range(len(re_get)):

info = {}

info['編號'] = re_get[i] + '號'

#print(info)

info['單價'] = soup.select('.unitprice')[i].text

info['地鐵'] = soup.select('.subway')[i].text

print(df)

#df1 = pd.dataframe.from_dict(info, orient='index').t

#pandas_to_xlsx(df1)

# 表頭

# header = ['編號', '單價', '地鐵']

print(len(df))

df = pd.dataframe(df)

#將結果寫入csv

df.to_csv('d:/dst8.csv', index=false)

if __name__ == '__main__':

main()

python爬取鏈家二手房的資料

開啟鏈家官網,進入二手房頁面,選取某個城市,可以看到該城市 總數以及 列表資料。某些 的資料是存放在html中,而有些卻api介面,甚至有些加密在js中,還好鏈家的 資料是存放到html中 通過requests請求頁程式設計客棧面,獲取每頁的html資料 爬取的url,預設爬取的南京的鏈家房產資訊 ...

Python爬取鏈家二手房資訊

2 資料庫表結構 使用物件導向的方式,搭建專案框架 import requests from bs4 import beautifulsoup import pymysql class lianjiaspider mydb pymysql.connect localhost root 123456 ...

Python爬取鏈家二手房資料 重慶地區

最近在學習資料分析的相關知識,打算找乙份資料做訓練,於是就打算用python爬取鏈家在重慶地區的二手房資料。鏈家的頁面如下 爬取 如下 import requests,json,time from bs4 import beautifulsoup import re,csv defparse one...