python 爬蟲 58同城

2021-09-13 15:47:55 字數 1447 閱讀 8369

from bs4 import beautifulsoup

import requests

import csv

import time

url =

""#已完成的頁數序號,初時為0

page =

0# 建立乙個有寫許可權的csv_file

csv_file =

open

("rent.csv"

,"w"

)# 建立csv_writer,分隔符','

csv_writer = csv.writer(csv_file, delimiter=

',')

while

true

: page +=

1print

("fetch: "

, url.

format

(page=page)

) time.sleep(1)

# 響應

response = requests.get(url.

format

(page=page)

) html = beautifulsoup(response.text)

# 在list中選li選項

house_list = html.select(

".list > li"

)# 迴圈在讀不到新的**時結束

ifnot house_list:

break

for house in house_list:

house_title = house.select(

"h2")[

0].string

house_url = house.select(

"a")[0

]["href"

] house_info_list = house_title.split(

)# 如果第二列是公寓名則取第一列作為位址

if"公寓"

in house_info_list[1]

or"青年社群"

in house_info_list[1]

: house_location = house_info_list[0]

else

: house_location = house_info_list[1]

house_money = house.select(

".money")[

0].select(

"b")[0

].string

csv_writer.writerow(

[house_title, house_location, house_money, house_url]

)csv_file.close(

)

爬蟲 python 58同城 1

import datetime 時間 import sqlite3 資料庫模組 import requests 獲取html網頁的主要方法,對應於http的get for i in range 1,50 抓50頁,愛抓幾頁寫幾頁 print 當前抓取的頁面為 i url format i html ...

爬蟲 成都58同城所有房價,Python實現

程式發布日期2018 9 25 如果以後不能使用了,就需要更改解析方式.github部落格傳送門 csdn部落格傳送門 熟悉lxml中的etree模組 xpath的使用 檔案操作 函式時間模組 import urllib.request 開啟網頁,讀取網頁內容用 from lxml import e...

58同城演算法

58同城題目 58同城出了三道演算法題,第一道題題目過長。好像是和推薦系統掛鉤的題目 給cv一條活路吧!t t 第二道題還有第三道題都是leetcode上很簡單的題目 第一次2ac!主要還是題目簡單 主要想說一下第二道題目,給定乙個非負整數num,求在0 x num區間中的所有整數的二進位制數中1的...