python爬蟲基本入門篇

2021-09-24 01:48:18 字數 851 閱讀 4433

隨著資料價值的提公升,爬蟲工程師這個職位也逐漸越來越受到重視,那麼到底什麼是爬蟲,學習爬蟲到底都要掌握哪些技術那,接下來讓我給大家來簡單的介紹下

簡單來說就是程式模仿瀏覽器向伺服器傳送請求得到資料的過程

伺服器端利用一系列手段識別爬蟲程式,讓其無法進行資料獲取

1.根據使用者行為判斷:

由於使用者一般都是用瀏覽器進行訪問,你手速再快也不能一秒訪問幾十次,所以 伺服器端可以對單位時間內某個ip訪問伺服器的次數來識別它是不是爬蟲程式,如果檢測到是爬蟲程式,那就封掉其訪問ip

應對策略:

可以降低其訪問頻率(說實話不夠現實),或者可以購買**ip,這樣哪怕他**掉你乙個ip,你還是繼續進行爬取資料,不會耽誤爬蟲程式執行

2.對伺服器端傳送的請求頭進行判斷

由於客戶端向服務端傳送請求中包含請求頭,請求頭中有一些引數必須要傳入,像cookies,user-agent這些引數都比較好解決,但是有些引數是經過加密進行傳輸的會提公升爬蟲難度

應對策略

這時候你就需要去找js原始檔,進行js反向解析了,不過這個對新手不太友好,他需要你會一定的js語法

3.驗證碼

由於圖形驗證碼難度不一,解決的方法也有所不同

應用策略

(1)tesseract orc 谷歌開源專案,上網看下安裝教程有很多,但是它只能識別極其簡單的驗證碼

(2)有些打碼平台識別度還是很高的,自己上網搜搜看吧,我就不做廣告了

(4)滑塊驗證

應用策略:總結

Python 爬蟲入門篇(一)

注 本文資料來自 python網路爬蟲技術從入門到實踐 第一步 獲取網頁 基礎技術 requests urllib 和selenium 模擬瀏覽器 高階技術 多執行緒抓取 登入抓取 突破ip抓取和伺服器抓取 第二步 解析網頁 基礎技術 re正規表示式 beautifulsoup和lxml 高階技術 ...

如何學習Python爬蟲 入門篇 ?

如何學習python爬蟲 入門篇 第一 python爬蟲學習系列教程 python版本 2.7 整體目錄 一 爬蟲入門 python爬蟲入門一之綜述 python爬蟲入門二之爬蟲基礎了解 python爬蟲入門三之urllib庫的基本使用 python爬蟲入門四之urllib庫的高階用法 python...

用Python寫爬蟲入門篇(一)

簡介 最近在學習python,這幾篇博文用於個人記錄總結,不正之處還望大佬指出。適合學習過python的同學 用python寫爬蟲入門篇 一 用python寫爬蟲入門篇 二 用python寫爬蟲入門篇 三 先簡單介紹下爬蟲的原理 概念爬蟲架構 所需知識點 python urllib xpath be...