Python爬蟲學習系列教程

2022-08-09 20:45:15 字數 995 閱讀 3285

python版本:2.7,python 3請另尋其他博文。

首先爬蟲是什麼?

網路爬蟲(又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取全球資訊網資訊的程式或者指令碼。

根據我的經驗,要學習python爬蟲,我們要學習的共有以下幾點:

首先,我們要用python寫爬蟲,肯定要了解python的基礎吧,萬丈高樓平地起,不能忘啦那地基,哈哈,那麼我就分享一下自己曾經看過的一些python教程,小夥伴們可以作為參考。

曾經有一些基礎的語法是在慕課網上看的,上面附有一些練習,學習完之後可以作為練習,感覺效果還是蠻不錯的,不過稍微遺憾的是內容基本上都是最基礎的,入門開始的話,就這個吧

學習**:慕課網python教程

後來,我發現了廖老師的python教程,講的那是非常通俗易懂哪,感覺也是非常不錯,大家如果想進一步了解python就看一下這個吧。

學習**:廖雪峰python教程

還有乙個我看過的,簡明python教程,感覺講的也不錯

學習**:簡明python教程

學習**:汪海的實驗室

urllib和urllib2庫是學習python爬蟲最基本的庫,利用這個庫我們可以得到網頁的內容,並對內容用正規表示式提取分析,得到我們想要的結果。這個在學習過程中我會和大家分享的。

python正規表示式是一種用來匹配字串的強有力的**。它的設計思想是用一種描述性的語言來給字串定義乙個規則,凡是符合規則的字串,我們就認為它「匹配」了,否則,該字串就是不合法的。這個在後面的博文會分享的。

如果你是乙個python高手,基本的爬蟲知識都已經掌握了,那麼就尋覓一下python框架吧,我選擇的框架是scrapy框架。這個框架有什麼強大的功能呢?下面是它的官方介紹:

官方文件:

等我們掌握了基礎的知識,再用這個 scrapy 框架吧!

扯了這麼多,好像沒多少有用的東西額,那就不扯啦!

下面開始我們正式進入爬蟲之旅吧!

Python爬蟲學習系列教程

python版本 2.7 1.python爬蟲入門一之綜述 2.python爬蟲入門二之爬蟲基礎了解 3.python爬蟲入門三之urllib庫的基本使用 4.python爬蟲入門四之urllib庫的高階用法 5.python爬蟲入門五之urlerror異常處理 6.python爬蟲入門六之cook...

Python爬蟲學習系列教程

python 崔慶才 3年前 2015 02 21 789675瀏覽 自己動手,豐衣足食!python3網路爬蟲實戰案例 以下為python2爬蟲系列教程 python版本 2.7 1.python爬蟲入門一之綜述 2.python爬蟲入門二之爬蟲基礎了解 3.python爬蟲入門三之urllib庫...

Python爬蟲學習系列教程

最近想學一下python爬蟲與檢索相關的知識,在網上看到這個教程,覺得挺不錯的,分享給大家。1.python爬蟲入門一之綜述 2.python爬蟲入門二之爬蟲基礎了解 3.python爬蟲入門三之urllib庫的基本使用 4.python爬蟲入門四之urllib庫的高階用法 5.python爬蟲入門...