如何使用python寫爬蟲程式

2021-10-17 14:20:56 字數 1374 閱讀 2155

python編寫爬蟲的整體思路簡單清晰,下面來說一下具體的步驟:

先來看**,在解釋,乙個簡單的網路爬蟲示例

import requests

from bs4 import beautifulsoup

#58同城的二手市場主頁面

start_url =

''url_host =

''#定義乙個爬蟲函式來獲取二手市場頁面中的全部大類頁面的連線

defget_channel_urls

(url)

:#使用requests庫來進行一次請求

web_data = requests.get(url)

#使用beautifulsoup對獲取到的頁面進行解析

soup = beautifulsoup(web_data.text,

'lxml'

)#根據頁面內的定位資訊獲取到全部大類所對應的連線

urls = soup.select(

'ul.ym-submnu > li > b > a'

)#作這兩行處理是因為有的標籤有鏈結,但是卻是空內容

for link in urls:

if link.text.isspace():

continue

else

: page_url = url_host + link.get(

'href'

)print

(page_url)

整體思路流程

通過url獲取說要爬取的頁面的響應資訊(requests庫的使用)

通過python中的解析庫來對response進行結構化解析(beautifulsoup庫的使用)

通過對解析庫的使用和對所需要的資訊的定位從response中獲取需要的資料(selecter和xpath的使用)

將資料組織成一定的格式進行儲存(mongodb的使用)

通過對資料庫中的資料進行篩選和組織,進行資料視覺化的初步展示(highcharts庫的使用)

簡單**演示

準備工作

requests庫:用於向指定url發起請求

beautifulsoup庫:用於解析返回的網頁資訊

lxml庫:用於解析網頁返回結果

pymongo庫:用於實現python對mongodb的操作

對所需要的網頁進行請求並解析返回的資料

對於想要做乙個簡單的爬蟲而言,這一步其實很簡單,主要是通過requests庫來進行請求,然後對返回的資料進行乙個解析,解析之後通過對於元素的定位和選擇來獲取所需要的資料元素,進而獲取到資料的乙個過程。

以上就是乙個簡單的網頁爬蟲的製作過程,我們可以通過定義不同的爬蟲來實現爬取不同頁面的資訊,並通過程式的控制來實現乙個自動化爬蟲。

如何使用python寫爬蟲程式?

python編寫爬蟲的整體思路簡單清晰,下面來說一下具體的步驟 先來看 在解釋,乙個簡單的網路爬蟲示例 import requests from bs4 import beautifulsoup 58同城的二手市場主頁面 start url url host 定義乙個爬蟲函式來獲取二手市場頁面中的全...

python寫網路爬蟲

注 本文旨在練習正規表示式的簡單使用方法 usr bin evn python coding cp936 def gethtml url 定義gethtml 函式,用來獲取頁面源 page urllib.urlopen url urlopen 根據url來獲取頁面源 html page.read 從...

python寫乙個簡單爬蟲程式

python寫乙個簡單爬蟲程式 先看輸出結果 d 應用集合 python 1.py 名稱 詭秘之主 名稱 超神機械師 名稱 九星毒奶 名稱 第一序列 名稱 明天下 名稱 爛柯棋緣 名稱 虧成首富從遊戲開始 名稱 我師兄實在太穩健了 名稱 輪迴樂園 名稱 當醫生開了外掛程式 名稱 學霸的黑科技系統 名...