Python爬蟲入門 一

2021-07-31 07:39:13 字數 1043 閱讀 5302

python版本:2.7

首先爬蟲是什麼?

網路爬蟲(又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取全球資訊網資訊的程式或者指令碼。

根據我的經驗,要學習python爬蟲,我們要學習的共有以下幾點:

首先,我們要用python寫爬蟲,肯定要了解python的基礎吧,萬丈高樓平地起,不能忘啦那地基,哈哈,那麼我就分享一下自己曾經看過的一些python教程,小夥伴們可以作為參考。

曾經有一些基礎的語法是在慕課網上看的,上面附有一些練習,學習完之後可以作為練習,感覺效果還是蠻不錯的,不過稍微遺憾的是內容基本上都是最基礎的,入門開始的話,就這個吧

學習**:慕課網python教程

後來,我發現了廖老師的python教程,講的那是非常通俗易懂哪,感覺也是非常不錯,大家如果想進一步了解python就看一下這個吧。

學習**:廖雪峰python教程

還有乙個我看過的,簡明python教程,感覺講的也不錯

學習**:簡明python教程

這是我的本科實驗室學長,入門的時候參考的他的文章,自己重新做了總結,後來這些系列文章又在他的基礎上增加了一些內容。

學習**:汪海的實驗室

urllib和urllib2庫是學習python爬蟲最基本的庫,利用這個庫我們可以得到網頁的內容,並對內容用正規表示式提取分析,得到我們想要的結果。這個在學習過程中我會和大家分享的。

python正規表示式是一種用來匹配字串的強有力的**。它的設計思想是用一種描述性的語言來給字串定義乙個規則,凡是符合規則的字串,我們就認為它「匹配」了,否則,該字串就是不合法的。這個在後面的博文會分享的。

如果你是乙個python高手,基本的爬蟲知識都已經掌握了,那麼就尋覓一下python框架吧,我選擇的框架是scrapy框架。這個框架有什麼強大的功能呢?下面是它的官方介紹:

官方文件:

等我們掌握了基礎的知識,再用這個 scrapy 框架吧!

扯了這麼多,好像沒多少有用的東西額,那就不扯啦!

下面開始我們正式進入爬蟲之旅吧!

Python爬蟲入門一

作為入門學習,我選擇了乙個靜態 生物資訊交流分享論壇 public library of bioinformatics plob 第一次嘗試,只抓取網頁文字部分。安裝requests庫和bs4庫 前者用來鏈結 和處理http協議 後者將網頁變成結構化資料,方便抓取。easy install requ...

python 爬蟲入門 一)

今天學了python爬蟲,很有意思,寫一下部落格記錄一下學習過程。最基本的爬蟲僅需要urllib庫,re庫和chardet庫 urllib庫是python內建的處理網路請求的庫。對於基本的爬蟲我們僅僅需要使用他的內部模組urllib.requset。urllib.request中所要使用的函式 ur...

python爬蟲入門(一)

1.什麼是爬蟲 2.爬蟲的核心 3.爬蟲的語言 4.爬蟲分類 聚焦爬蟲 就是現在我們這些爬蟲程式設計師所進行的工作,就是根據客戶的需求,爬取指定 的特定內容。1.首先要理解什麼是http https協議 2.python基礎知識 3.開發工具 4.抓包工具 上面的 只能簡單抓取網頁,一旦遇到需要請求...