Python爬蟲學習筆記一

2021-08-19 17:45:13 字數 905 閱讀 5324

爬蟲:網路蜘蛛,通俗講就是模擬瀏覽器。

所需要的知識架構:

關於基礎知識,隨便找本書就可以;urllib和urllib2是基本的爬蟲庫;正規表示式比較關鍵;框架比較高階,至於是什麼我現在也剛開始學習,一起交流。

爬網頁,首先要了解瀏覽網頁是怎麼工作的?

使用者輸入**之後,經過dns伺服器,找到伺服器主機,向伺服器發出乙個請求,伺服器經過解析之後,傳送給使用者的瀏覽器 html、js、css 等檔案,瀏覽器解析出來,便是你看到的內容。

url統一資源定位符,網際網路上的每個檔案都有乙個唯一的url,它包含的資訊指出檔案的位置以及瀏覽器應該怎麼處理它。

怎樣扒網頁呢?其實就是根據url來獲取它的網頁資訊,雖然我們在瀏覽器中看到的是一幅幅優美的畫面,但是其實是由瀏覽器解釋才呈現出來的,實質它是一段html**,加 js、css,如果把網頁比作乙個人,那麼html便是他的骨架,js便是他的肌肉,css便是它的衣服。所以最重要的部分是存在於html中的,例如

怎樣扒網頁呢?其實就是根據url來獲取它的網頁資訊,雖然我們在瀏覽器中看到的是一幅幅優美的畫面,但是其實是由瀏覽器解釋才呈現出來的,實質它是一段html**,加 js、css,如果把網頁比作乙個人,那麼html便是他的骨架,js便是他的肌肉,css便是它的衣服。所以最重要的部分是存在於html中的

怎樣扒網頁呢?其實就是根據url來獲取它的網頁資訊,雖然我們在瀏覽器中看到的是一幅幅優美的畫面,但是其實是由瀏覽器解釋才呈現出來的,實質它是一段html**,加 js、css,如果把網頁比作乙個人,那麼html便是他的骨架,js便是他的肌肉,css便是它的衣服。所以最重要的部分是存在於html中的。

import urllib2

response = urllib2.urlopen("")

print response.read()

Python爬蟲學習筆記 一

以爬取乙個租房 的每一頁的每乙個租房資訊為例。分別使用集合和列表在csv檔案中展示為例。程式設計中需注意的是 from bs4 import beautifulsoup import requests import pandas as pd import time headers def judge...

python爬蟲學習筆記(一)

由於我也不是什麼專業人士,我也是在學習,這個就是我自己的乙個學習筆記,什麼爬蟲可以做什麼,為什麼學爬蟲我就不再贅述了,總結一點,爬蟲用來爬取網頁上的東西!在python中用到urllib和urllib2,urllib是python原生的乙個庫,urllib2是python創始人覺得urllib不好使...

python爬蟲學習筆記

一 爬蟲思路 對於一般的文章而言,思路如下 1.通過主頁url獲取主頁原始碼,從主頁原始碼中獲得 標題 鏈結 如想要抓取知乎上的新聞,就獲得主頁上的新聞鏈結 2.繼續通過 標題 鏈結獲得 標題 原始碼,進而獲得 標題 中的內容。其中,當存在多頁時,先將每一頁都一樣的url寫下來,然後迴圈加入頁碼,具...