python靜態爬蟲概念

2021-10-04 04:47:31 字數 1384 閱讀 7756

#

##1.什麼是爬蟲##

#網路爬蟲(又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者)

#是一種按照一定的規則,自動的抓取全球資訊網資訊的程式或者指令碼。

##另外一些不常使用的名字還有螞蟻,自動索引,模擬程式或者蠕蟲。

##其實通俗的講就是通過程式去獲取web頁面上自己想要的資料,也就是自動抓取資料。##

##2.爬蟲可以做什麼?##

#前提是你想要的資源必須可以通過瀏覽器訪問的到。##

#3.爬蟲的本質是什麼?##

#上面關於爬蟲可以做什麼,定義了乙個前提,是瀏覽器可以訪問到的任何資源,

#特別是對於知曉web請求生命週期的學者來說,爬蟲的本質就更簡單了。

#爬蟲的本質就是模擬瀏覽器開啟網頁,獲取網頁中我們想要的那部分資料。

##瀏覽器開啟網頁的過程:

##2.經過dns伺服器找到伺服器主頁,向伺服器傳送乙個請求。

#3.伺服器經過解析處理後返回給使用者結果(包括html,js,css檔案等等內容)

#4.瀏覽器接收到結果,進行解釋通過瀏覽器螢幕呈現給使用者結果。

##上面我們說了爬蟲的本質就是模擬瀏覽器自動向伺服器傳送請求,獲取,

#處理並解析結果的自動化程式。

#爬蟲的關鍵點:模擬請求,解析處理,自動化。##

##爬蟲的基本流程##

#發起請求:通過http庫向目標站點發起請求(request),

#請求可以包含額外的header等資訊,等待伺服器響應

# #

# #

# #####

# ###

# #

#獲取響應內容:如果伺服器能正常響應,

#會得到乙個response,response的內容便是所要獲取的頁面內容,型別可能是html,josn

# #

# #

# #####

# ###

# #

#解析內容:得到的內容可能是html,可以用正規表示式,頁面解析庫進行解析,可能

#是json,可能是二進位制資料,可以做儲存或者進一步的處理

# #

# #

# #####

# ###

# #

#儲存資料:儲存形式多樣,可以存為文字,也可以儲存到資料庫,

#或者儲存特定格式的檔案

#

Python 爬蟲 概念基礎

通過編寫的程式,模擬瀏覽器,然後通過網際網路抓取資料分過程 爬蟲在使用中的分類 通用爬蟲 抓取系統的重要主城部分,抓取的是整張頁面的資料。聚焦爬蟲 建立在通用爬蟲的基礎上,抓取的是頁面中特定的內容。增量式爬蟲 檢測 中資料更新的情況,只會抓取 中最新更新的資料。反爬機制 各個 通過制定相應的策略或技...

Python通用爬蟲,聚焦爬蟲概念理解

原理 1 抓取網頁 2 採集資料 3 資料處理 4 提供檢索服務 通用爬蟲如何抓取新 1 主動提交url 檢索排名 1 競價排名 2 根據pagerank值排名,由訪問量,點選量得出,seo崗位做的工作 這個協議僅僅是口頭上的協議,真正的還是可以爬取的。聚焦爬蟲 根據特定的需求抓取指定的資料。思路 ...

python 爬蟲筆記 簡單靜態

不太懂網頁上的專業術語。1.首先檢視頁面源 檢視要爬取的資料是什麼樣的,在哪個標籤下,能不能用xpath或者bs4取出來。2.f12此頁面,重新整理檢視頁面響應時,能看到的資訊。主要是訊息頭里的請求 請求方法,host,user agent,cookie以及引數裡的資料。及時檢視響應,看出現的頁面是...