python做爬蟲 python怎麼做爬蟲

2021-10-11 02:44:25 字數 1277 閱讀 2396

python編寫爬蟲的整體思路簡單清晰,下面來說一下具體的步驟

整體思路流程通過url獲取說要爬取的頁面的響應資訊(requests庫的使用)

通過python中的解析庫來對response進行結構化解析(beautifulsoup庫的使用)

通過對解析庫的使用和對所需要的資訊的定位從response中獲取需要的資料(selecter和xpath的使用)

將資料組織成一定的格式進行儲存(mongodb的使用)

通過對資料庫中的資料進行篩選和組織,進行資料視覺化的初步展示(highcharts庫的使用)

簡單**演示

準備工作

beautifulsoup庫:用於解析返回的網頁資訊

lxml庫:用於解析網頁返回結果

pymongo庫:用於實現python對mongodb的操作

對所需要的網頁進行請求並解析返回的資料

對於想要做乙個簡單的爬蟲而言,這一步其實很簡單,主要是通過requests庫來進行請求,然後對返回的資料進行乙個解析,解析之後通過對於元素的定位和選擇來獲取所需要的資料元素,進而獲取到資料的乙個過程。

以上就是乙個簡單的網頁爬蟲的製作過程,我們可以通過定義不同的爬蟲來實現爬取不同頁面的資訊,並通過程式的控制來實現乙個自動化爬蟲。

以下是乙個爬蟲的例項import requests

from bs4 import beautifulsoup

#58同城的二手市場主頁面

start_url = ''

url_host = ''

#定義乙個爬蟲函式來獲取二手市場頁面中的全部大類頁面的連線

def get_channel_urls(url):

#使用requests庫來進行一次請求

web_data = requests.get(url)

#使用beautifulsoup對獲取到的頁面進行解析

soup = beautifulsoup(web_data.text, 'lxml')

#根據頁面內的定位資訊獲取到全部大類所對應的連線

urls = soup.select('ul.ym-submnu > li > b > a')

#作這兩行處理是因為有的標籤有鏈結,但是卻是空內容

for link in urls:

if link.text.isspace():

continue

else:

page_url = url_host + link.get('href')

print(page_url)

更多學習內容,python學習網。

python做爬蟲難嗎 python寫爬蟲難嗎

所謂網路爬蟲,通俗的講,就是通過向我們需要的url發出http請求,獲取該url對應的http報文主體內容,之後提取該報文主體中我們所需要的資訊。下面是乙個簡單的爬蟲程式 http基本知識 當我們通過瀏覽器訪問指定的url時,需要遵守http協議。本節將介紹一些關於http的基礎知識。http基本流...

python爬蟲基本流程 Python爬蟲流程

python爬蟲流程 主要分為三個部分 1 獲取網頁 2 解析網頁 獲取資料 儲存資料 三個流程的技術實現 1.獲取網頁 獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術 多執行緒抓取 登入抓取 突破ip限制和伺服器抓取 2.解析網頁 解析網頁的技術基礎 re...

python爬蟲案例講解 Python爬蟲案例集合

伺服器返回的類檔案物件支援python檔案物件的操作方法 read 方法就是讀取檔案裡的全部內容,返回字串 html response.read 列印響應內容 我們需要稍微偽裝下,要不然第一步就會被反爬蟲發現 usr bin env python coding utf 8 import urllib...