Python爬蟲原理和網頁構造

2021-09-29 14:38:18 字數 529 閱讀 6185

###爬蟲原理###

計算機的一次request請求和伺服器端的response回應,即實現了網路連線。

request(請求頭和訊息體) 

【計算機】                    【伺服器】

response(html檔案)

#以上便是:網路連線原理                    

一、多頁面爬蟲流程

1>手動翻頁並觀察個網頁的url構成特點,構造出所有頁面的url存入列表中

2>根據url列表依次迴圈取出url

3>定義爬蟲函式

4>迴圈呼叫爬蟲函式,儲存資料

5>迴圈完畢,結束爬蟲程式

二、跨頁面爬蟲流程

1>定義爬取函式爬取列表頁的所有專題url。

2>將專題url存入列表中(種子url)。

3>定義爬取詳細頁資料函式。

4>進入專題詳細頁面爬取詳細頁資料。

5>儲存資料,迴圈完畢,結束爬蟲程式。

####網頁構造####

1 認識網頁結構和基本爬蟲原理

1.1.網頁的組成 html 超文字標記語言 css 層疊樣式表 jscript 活動指令碼語言 首先,先寫乙個簡單的html,大致了解一下。在txt中編寫如下內容,然後將檔案字尾.txt直接改為.html,最後執行即可。python爬蟲學習筆記 1.2.爬蟲的基本原理 爬蟲其實就是乙個請求 req...

Python 網頁爬蟲初試

find find all find name attrs recursive string kwargs find all name attrs recursive string kwargs name 引數可以查詢所有名字為 name 的tag,字串物件會被自動忽略掉.keyword 引數 如果...

Python爬蟲原理

簡單來說網際網路是由乙個個站點和網路裝置組成的大網,我們通過瀏覽器訪問站點,站點把html js css 返回給瀏覽器,這些 經過瀏覽器解析 渲染,將豐富多彩的網頁呈現我們眼前 如果我們把網際網路比作一張大的蜘蛛網,資料便是存放於蜘蛛網的各個節點,而爬蟲就是乙隻小蜘蛛,使用者獲取網路資料的方式 方式...