Python爬蟲初體驗之趕集網租房資訊獲取

初學python，剛接觸了beautifulsoup模組，就拿爬取趕集網租房資訊小試身手，以此彰顯python的威猛強大。

一、環境配置：

1、python 3.6.1 （windows 10 64位系統）

2. pycharm 編譯器

1、bs4 ：可通過在shell中pip install bs4 進行安裝。

2. urllib.parse: python自帶

3. requests :python 自帶

4. csv:python 自帶

5. html5lib:通過pip install html5lib進行安裝

三、開始編**：

1、匯入需要的模組

line 15:上海趕集網的**（url）.和為下文中需要用到的format方法內的引數。page為頁數，price為租金**區間。

3. 開始爬取前10頁，**區間為800-1500，即price為2的**資訊.

line19-line21:指定變數初始值

line22:在當前工作目錄下新建乙個ganji.csv檔案，特別注意引數encoding='gb18030'指定漢字編碼，（此處查閱了大量文獻，花了半天時間才解決）。newline='' 指定行與行之間的分隔符為空，若沒有此引數，會預設行與行之間有乙個空行。

line23:指定分隔符為逗號。

line28:url.format(page=start_page,price=price)，此處使用的是str的format方法。列印出每次迴圈時爬取的網頁位址。

line29:使用requests模組的get方法獲取當前url原始碼。

line30:使用bs4模組中的beautifulsoup方法解析網頁。解析的方法為「html.parser」.(應該共有好幾種方法可以用,此方法為標準方法，速度適中，解析準確率較高).

4.獲取想要的資訊:

開啟趕集網租房資訊的網頁，選項-開發者工具-inspector。如下圖所示：

可以檢視到每個item對應的class 為：f-list------------f-list-item---------------f-list-item-wrap.

5. 開始執行**：結果如下圖所示：

這樣就得到了，租房資訊的標題，房子所在位置，及相對應的url鏈結。大功告成！

Python專案（爬蟲）趕集網招聘

python 爬蟲的介紹 python requests庫的學習 python bs4 beautifulsoup 庫的學習 python re庫正規表示式的學習進入趕集網首頁，呼叫網頁搜尋，輸入查詢範圍找到具體職位檢視源進行分析，查詢所需資料位置學習爬蟲後試煉成果檢驗，時刻獲取趕集網...

爬蟲爬取趕集網租房資訊

如下示例 import scrapy import numpy as np import pandas as pd import matplotlib.pyplot as plt 如下示例 terminal 終端實現 cd 跳轉到上一層目錄 scrapy startproject booktop...

scrapy之爬蟲初體驗

本篇文章主要將怎樣建立乙個scrapy專案，以及完成第乙個scrapy爬蟲專案。首先是安裝scrapy模組，有很多原因都能導致scrapy模組安裝失敗，網上有很多教程讓怎樣安裝scrapy。親測比較有效的方法使用whl檔案安裝。不過有小夥伴也可以嘗試直接使用pip install scrapy命令進...

Python爬蟲初體驗之趕集網租房資訊獲取

Python專案（爬蟲） 趕集網招聘

爬蟲爬取趕集網租房資訊

scrapy之爬蟲初體驗

相關推薦

Python專案（爬蟲）趕集網招聘