Python爬蟲學習筆記一

爬蟲：網路蜘蛛，通俗講就是模擬瀏覽器。

所需要的知識架構：

關於基礎知識，隨便找本書就可以；urllib和urllib2是基本的爬蟲庫；正規表示式比較關鍵；框架比較高階，至於是什麼我現在也剛開始學習，一起交流。

爬網頁，首先要了解瀏覽網頁是怎麼工作的？

使用者輸入**之後，經過dns伺服器，找到伺服器主機，向伺服器發出乙個請求，伺服器經過解析之後，傳送給使用者的瀏覽器 html、js、css 等檔案，瀏覽器解析出來，便是你看到的內容。

url統一資源定位符，網際網路上的每個檔案都有乙個唯一的url，它包含的資訊指出檔案的位置以及瀏覽器應該怎麼處理它。

怎樣扒網頁呢？其實就是根據url來獲取它的網頁資訊，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段html**，加 js、css，如果把網頁比作乙個人，那麼html便是他的骨架，js便是他的肌肉，css便是它的衣服。所以最重要的部分是存在於html中的，例如

怎樣扒網頁呢？其實就是根據url來獲取它的網頁資訊，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段html**，加 js、css，如果把網頁比作乙個人，那麼html便是他的骨架，js便是他的肌肉，css便是它的衣服。所以最重要的部分是存在於html中的

怎樣扒網頁呢？其實就是根據url來獲取它的網頁資訊，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段html**，加 js、css，如果把網頁比作乙個人，那麼html便是他的骨架，js便是他的肌肉，css便是它的衣服。所以最重要的部分是存在於html中的。

import urllib2
response = urllib2.urlopen("")
print response.read()

Python爬蟲學習筆記一

Python爬蟲學習筆記一

python爬蟲學習筆記（一）

python爬蟲學習筆記

Python爬蟲學習筆記一

Python爬蟲學習筆記 一

python爬蟲學習筆記（一）

python爬蟲學習筆記

相關推薦

Python爬蟲學習筆記一