python3爬蟲之開篇

2022-05-31 16:57:14 字數 1254 閱讀 5840

寫在前面的話:

折騰爬蟲也有一段時間了,從一開始的懵懵懂懂,到現在的有一定基礎,對於這一路的跌跌撞撞,個人覺得應該留下一些文本性的東西,畢竟好記性不如爛筆頭,而且畢竟這是吃飯的傢伙,必須用心對待才可以,從今天起,我將會把關於爬蟲的東西進行乙個整理,以供後期的查閱,同時也想將自己的一點點經驗分享給大家。

關於爬蟲,在我們了解什麼是爬蟲之前,首先應該清楚為什麼會需要爬蟲。隨著網際網路的全球化,人們可以非常方便的通過網路來獲取資訊,但是,起初獲取資訊的方式就是人為的瀏覽、記錄。但是當人們需要獲取大量的資訊時,人工方式就顯得效率極其低下,這時,有些人就編寫了一些程式放在網際網路上執行,這些程式會按照人們編寫的邏輯來快速的在網際網路上採集資訊,省事又省力,這種程式就叫做爬蟲,也叫做蜘蛛(spider)。所以我們知道了,爬蟲其實就是人為編寫的一些程式,也也可以稱之為指令碼。

爬蟲是從哪兒來分析採集資料呢?當然是從網頁上,比如人來獲取資訊是輸入了關鍵字來搜尋,然後點選想要看的網頁,或者直接輸入某乙個**來獲取某乙個頁面的,那麼爬蟲呢?爬蟲是如何獲取頁面的呢? 說白了,爬蟲也是通過技術手段來模擬人的操作來獲取頁面的過程。爬蟲先是模擬人的操作來獲取到目標頁面,然後再對目標頁面進行分析,從而採集到人們剛興趣的資訊。 主要原理如下圖:

從上圖我們了解到了爬蟲的基本原理,但是請大家注意,上圖中有兩個過程我標紅了,為什麼呢?因為在整個爬取資料的過程中,這兩個步驟是非常非常重要的,而且這也是爬蟲與反爬相互博弈的地方。

從上圖我們可以了解到,爬蟲的執行,主要分為四個過程:

1. 獲取目標url

2. 獲取網頁

3. 頁面解析、提取資訊

4. 資料持久化

不過對於我們來說,在編寫爬蟲之前,我們肯定已經知道了想要獲取的**位址,所以第一步我們基本上可以跳過。

下面的二、三、四步是非常重要的,但是最最重要的還是第

二、三步。

關於第二步:獲取網頁,我們首先應該掌握兩種python標準庫,一種是urllib,另一種是request,這兩種庫是幫助我們來獲取目標網頁的,當然還有一些其他的方法,這個我們以後會細細說來。

對於第三步:解析頁面,我們需要掌握集中解析庫:xpath、css選擇器『、正規表示式、beautiful soup、pyquery。這些庫可以幫助我們從html網頁的各種標籤中準確的獲取到我們想要得到的資料。

python3爬蟲實戰(3)

今天心血來潮去爬取了一下招聘 的實時招聘資訊。是 選的條件是北京,實習生,計算機軟體。分析 之後發現還是很容易的,不過過程中出了不少小問題,在這裡分享一下。想要爬取的是類似的表單內容。是在ul的li裡。用beautifulsoup解析之後,tem ul bsoj.find ul 存下整個ul元素。對...

python3 爬蟲入門

這裡爬取貓眼電影 top100 榜的資訊,作為學習的第乙個demo。今天開始接觸的python,從爬蟲開始。語言相對來說比較簡單,環境配置到是花了不少時間。有個要注意的點是在引入beautifursoup庫的時候會報錯,因為3.x的庫需要引入的是beautifursoup4.到這一步環境配置基本上o...

python3爬蟲入門

pip install requests2 匯入requests import requests 3 requests方法 requests.get 獲取html網頁的主要方法,對應http的get4 獲取流程 url 使用get方法獲取資料,返回包含網頁資料的response響應,超時時間測試 r...