用bs爬取安居客優秀經理人資訊

2021-07-25 11:56:13 字數 1521 閱讀 9513

目標

1、安居客二手房,隨便乙個城市,選擇優秀經紀人,爬取所有頁數

過程

1、在網頁源**中找到所需要的資料

2、用bs提取出所需要的資訊,**如下

#encoding=utf8

import re

import urllib

import urllib2

from bs4 import beautifulsoup #匯入bs

url = ''

for page in range(1,11):

url1 = url+str(page)+'/'

print url1

# 不傳入headers的話無法訪問

user_agent = "mozilla/5.0 (windows nt 6.1; win64; x64; rv:49.0) gecko/20100101 firefox/49.0"

headers =

request = urllib2.request(url1, headers=headers)

response = urllib2.urlopen(request)

html = response.read()

# pages = urllib.urlopen(url)

# html = pages.read()

soup = beautifulsoup(html, 'html.parser')

# print html

# print(soup.prettify())

title = soup.find_all('div',class_='jjr-itemmod') #所需的資訊在這個大的div標籤內

# print title

for til in title:

part1 = til.find('div',class_='jjr-info').get_text('|',strip=true).encode('utf-8')

#乙個標籤裡包含了多條資料,用|分隔開

part3 = part1.replace(' ','')

part4 = part3.replace('\n','')

part2 = til.find('div',class_='jjr-side').get_text(strip=true).encode('utf-8')

#去掉空格回車等不需要的東西

# print '-->',part4,'

with open('anjuke.txt','a+') as aj:

aj.write(part4+'|'+part2+'\n')

安居客資訊爬取

本篇是我第一次利用bs寫的爬蟲 爬取 每頁的 變數是p後的數字,可能因為這是老早之前寫的 了,所以現在一看,發現並沒有什麼難的,掌握基本要素即可。廢話不多說,直接上 吧!encoding utf8 import re import urllib import urllib2 from bs4 imp...

Python爬取安居客經紀人資訊

python2.7.15 今天我們來爬取安居客經紀人的資訊。這次我們不再使用正則,我們使用beautifulsoup。不了解的可以先看一下這個文件,便於理解。for page in range 1,8 url str page response urllib2.urlopen url content...

爬取安居客的資訊,並儲存到csv檔案中。

引入包 import requests from bs4 import beautifulsoup import time import csv 定製請求頭 換成自己的請求頭 headers 輸出查詢資訊 chaxun input 請輸入要查詢的城市 將要訪問的 訪問該 r requests.get...