Python爬蟲筆記一爬蟲基本入門

最近在做乙個專案，這個專案需要使用網路爬蟲從特定**上爬取資料，於是乎，我打算寫乙個爬蟲系列的文章，與大家分享如何編寫乙個爬蟲。這是這個專案的第一篇文章，這次就簡單介紹一下python爬蟲，後面根據專案進展會持續更新。

一、何謂網路爬蟲

網路爬蟲的概念其實不難理解，大家可以將網際網路理解為一張巨大無比的網（漁網吧），而網路爬蟲就像乙隻蜘蛛（爬蟲的英文叫spider，蜘蛛的意思，個人認為翻譯為網路蜘蛛是不是更形象呢哈哈），而這只蜘蛛便在這張網上爬來爬去，如果它遇到資源，那麼它就會抓取下來。至於想抓取什麼資源？這個由你自己來進行定義了，你想抓取什麼就抓取什麼，你具有絕對主宰能力，理論上講你可以通過網路爬蟲從網際網路上獲取任何你想要並且存在與網際網路上的資訊。

二、瀏覽網頁的過程

為了理解爬蟲，我們應該了解瀏覽網頁的過程，其實說白了，爬蟲其實就是利用計算機模擬人類瀏覽網頁。那麼瀏覽網頁的過程是什麼呢？

因此，使用者看到的網頁實質是由 html **構成的，爬蟲爬來的便是這些內容，通過分析和過濾這些 html **，實現對、文字等資源的獲取。

三、url的含義

url，即統一資源定位符，也就是我們說的**，統一資源定位符是對可以從網際網路上得到的資源的位置和訪問方法的一種簡潔的表示，是網際網路上標準資源的位址。網際網路上的每個檔案都有乙個唯一的url，它包含的資訊指出檔案的位置以及瀏覽器應該怎麼處理它。

url的格式由三部分組成：

①第一部分是協議(或稱為服務方式)。

②第二部分是存有該資源的主機ip位址(有時也包括埠號)。

③第三部分是主機資源的具體位址，如目錄和檔名等。

爬蟲爬取資料時必須要有乙個目標的url才可以獲取資料，因此，它是爬蟲獲取資料的基本依據，準確理解它的含義對爬蟲學習有很大幫助。

四、環境的配置

五、爬蟲初體驗

說了這麼多，先來感受下乙個爬蟲吧，這裡我們直接抓取乙個網頁例如：

這個網頁是我的官方部落格，我們要將其內容抓取下來，其實只需要兩句**就能完成，需要使用urllib2庫，**如下：

然後列印結果如下:

可以看到，將我部落格首頁的網頁內容全部抓取下來了，你可以點選鏈結訪問我的部落格，看是否與其內容一致。

其實爬蟲就是這麼簡單，只要明白其中的原理，一切都不是問題。今天只是初步體驗爬蟲，後續會不斷高階，分享更多爬蟲知識。

Python爬蟲筆記一爬蟲基本入門

python爬蟲基本流程 Python爬蟲流程

一 python爬蟲學習爬蟲基本概念

python爬蟲（2）爬蟲基本流程

Python爬蟲筆記 一 爬蟲基本入門

python爬蟲基本流程 Python爬蟲流程

一 python爬蟲學習 爬蟲基本概念

python爬蟲 （2）爬蟲基本流程

相關推薦

Python爬蟲筆記一爬蟲基本入門

一 python爬蟲學習爬蟲基本概念

python爬蟲（2）爬蟲基本流程