Python爬蟲初體驗之趕集網租房資訊獲取

2021-08-03 19:13:18 字數 1659 閱讀 1203

初學python,剛接觸了beautifulsoup模組,就拿爬取趕集網租房資訊小試身手,以此彰顯python的威猛強大。

一、環境配置:

1、python 3.6.1 (windows 10 64位系統)

2.  pycharm 編譯器

1、bs4 :可通過在shell中pip install bs4 進行安裝。

2.  urllib.parse: python自帶

3.  requests :python 自帶

4.  csv:python 自帶

5.  html5lib:通過pip install html5lib進行安裝

三、開始編**:

1、匯入需要的模組

line 15:上海趕集網的**(url).和為下文中需要用到的format方法內的引數。page為頁數,price為租金**區間。

3.  開始爬取前10頁,**區間為800-1500,即price為2的**資訊.

line19-line21:指定變數初始值

line22:在當前工作目錄下新建乙個ganji.csv檔案,特別注意引數encoding='gb18030'指定漢字編碼,(此處查閱了大量文獻,花了半天時間才解決)。newline='' 指定        行與 行之間的分隔符為空,若沒有此引數,會預設行與行之間有乙個空行。

line23:指定分隔符為逗號。

line28:url.format(page=start_page,price=price),此處使用的是str的format方法。列印出每次迴圈時爬取的網頁位址。

line29:使用requests模組的get方法獲取當前url原始碼。

line30:使用bs4模組中的beautifulsoup方法解析網頁。解析的方法為「html.parser」.(應該共有好幾種方法可以用,此方法為標準方法,速度適中,解析準確率較高).

4.獲取想要的資訊:

開啟趕集網租房資訊的網頁,選項-開發者工具-inspector。如下圖所示:

可以檢視到每個item對應的class 為:f-list------------f-list-item---------------f-list-item-wrap.

5. 開始執行**:結果如下圖所示:

這樣就得到了,租房資訊的標題,房子所在位置,及相對應的url鏈結。大功告成!

Python專案(爬蟲) 趕集網招聘

python 爬蟲的介紹 python requests庫的學習 python bs4 beautifulsoup 庫的學習 python re庫 正規表示式 的學習 進入趕集網首頁,呼叫網頁搜尋,輸入查詢範圍 找到具體職位 檢視源 進行分析,查詢所需資料位置 學習爬蟲後試煉成果檢驗,時刻獲取趕集網...

爬蟲爬取趕集網租房資訊

如下 示例 import scrapy import numpy as np import pandas as pd import matplotlib.pyplot as plt 如下 示例 terminal 終端實現 cd 跳轉到上一層目錄 scrapy startproject booktop...

scrapy之爬蟲初體驗

本篇文章主要將怎樣建立乙個scrapy專案,以及完成第乙個scrapy爬蟲專案。首先是安裝scrapy模組,有很多原因都能導致scrapy模組安裝失敗,網上有很多教程讓怎樣安裝scrapy。親測比較有效的方法使用whl檔案安裝。不過有小夥伴也可以嘗試直接使用pip install scrapy命令進...