Python爬蟲筆記 一 爬蟲基本入門

2022-01-15 09:10:53 字數 1400 閱讀 5005

最近在做乙個專案,這個專案需要使用網路爬蟲從特定**上爬取資料,於是乎,我打算寫乙個爬蟲系列的文章,與大家分享如何編寫乙個爬蟲。這是這個專案的第一篇文章,這次就簡單介紹一下python爬蟲,後面根據專案進展會持續更新。

一、何謂網路爬蟲

網路爬蟲的概念其實不難理解,大家可以將網際網路理解為一張巨大無比的網(漁網吧),而網路爬蟲就像乙隻蜘蛛(爬蟲的英文叫spider,蜘蛛的意思,個人認為翻譯為網路蜘蛛是不是更形象呢哈哈),而這只蜘蛛便在這張網上爬來爬去,如果它遇到資源,那麼它就會抓取下來。至於想抓取什麼資源?這個由你自己來進行定義了,你想抓取什麼就抓取什麼,你具有絕對主宰能力,理論上講你可以通過網路爬蟲從網際網路上獲取任何你想要並且存在與網際網路上的資訊。

二、瀏覽網頁的過程

為了理解爬蟲,我們應該了解瀏覽網頁的過程,其實說白了,爬蟲其實就是利用計算機模擬人類瀏覽網頁。那麼瀏覽網頁的過程是什麼呢?

因此,使用者看到的網頁實質是由 html **構成的,爬蟲爬來的便是這些內容,通過分析和過濾這些 html **,實現對、文字等資源的獲取。

三、url的含義

url,即統一資源定位符,也就是我們說的**,統一資源定位符是對可以從網際網路上得到的資源的位置和訪問方法的一種簡潔的表示,是網際網路上標準資源的位址。網際網路上的每個檔案都有乙個唯一的url,它包含的資訊指出檔案的位置以及瀏覽器應該怎麼處理它。

url的格式由三部分組成:

①第一部分是協議(或稱為服務方式)。

②第二部分是存有該資源的主機ip位址(有時也包括埠號)。

③第三部分是主機資源的具體位址,如目錄和檔名等。

爬蟲爬取資料時必須要有乙個目標的url才可以獲取資料,因此,它是爬蟲獲取資料的基本依據,準確理解它的含義對爬蟲學習有很大幫助。

四、環境的配置

五、爬蟲初體驗

說了這麼多,先來感受下乙個爬蟲吧,這裡我們直接抓取乙個網頁例如:

這個網頁是我的官方部落格,我們要將其內容抓取下來,其實只需要兩句**就能完成,需要使用urllib2庫,**如下:

然後列印結果如下:

可以看到,將我部落格首頁的網頁內容全部抓取下來了,你可以點選鏈結訪問我的部落格,看是否與其內容一致。

其實爬蟲就是這麼簡單,只要明白其中的原理,一切都不是問題。今天只是初步體驗爬蟲,後續會不斷高階,分享更多爬蟲知識。

python爬蟲基本流程 Python爬蟲流程

python爬蟲流程 主要分為三個部分 1 獲取網頁 2 解析網頁 獲取資料 儲存資料 三個流程的技術實現 1.獲取網頁 獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術 多執行緒抓取 登入抓取 突破ip限制和伺服器抓取 2.解析網頁 解析網頁的技術基礎 re...

一 python爬蟲學習 爬蟲基本概念

例如 url 專業一些的叫法是統一資源定位符 uniform resource locator 它的一般格式如下 帶方括號的為可選項 protocol hostname port path parameters query fragment url 的格式主要由前個三部分組成 443 這兩個url都...

python爬蟲 (2)爬蟲基本流程

網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者 是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻 自動索引 模擬程式或者蠕蟲。其實通俗的講就是通過程式去獲取web頁面上自己想要的資料,也就是自動抓取資料 模擬瀏覽器開啟...