python靜態爬蟲概念

# ##1.什麼是爬蟲## #網路爬蟲(又被稱為網頁蜘蛛，網路機械人，在foaf社群中間，更經常的稱為網頁追逐者) #是一種按照一定的規則，自動的抓取全球資訊網資訊的程式或者指令碼。 ##另外一些不常使用的名字還有螞蟻，自動索引，模擬程式或者蠕蟲。 ##其實通俗的講就是通過程式去獲取web頁面上自己想要的資料，也就是自動抓取資料。## ##2.爬蟲可以做什麼？## #前提是你想要的資源必須可以通過瀏覽器訪問的到。## #3.爬蟲的本質是什麼？## #上面關於爬蟲可以做什麼，定義了乙個前提，是瀏覽器可以訪問到的任何資源， #特別是對於知曉web請求生命週期的學者來說，爬蟲的本質就更簡單了。 #爬蟲的本質就是模擬瀏覽器開啟網頁，獲取網頁中我們想要的那部分資料。 ##瀏覽器開啟網頁的過程： ##2.經過dns伺服器找到伺服器主頁，向伺服器傳送乙個請求。 #3.伺服器經過解析處理後返回給使用者結果(包括html,js,css檔案等等內容) #4.瀏覽器接收到結果，進行解釋通過瀏覽器螢幕呈現給使用者結果。 ##上面我們說了爬蟲的本質就是模擬瀏覽器自動向伺服器傳送請求，獲取， #處理並解析結果的自動化程式。 #爬蟲的關鍵點：模擬請求，解析處理，自動化。## ##爬蟲的基本流程## #發起請求：通過http庫向目標站點發起請求(request), #請求可以包含額外的header等資訊，等待伺服器響應 # # # # # ##### # ### # # #獲取響應內容：如果伺服器能正常響應， #會得到乙個response,response的內容便是所要獲取的頁面內容，型別可能是html,josn # # # # # ##### # ### # # #解析內容：得到的內容可能是html，可以用正規表示式，頁面解析庫進行解析，可能 #是json,可能是二進位制資料，可以做儲存或者進一步的處理 # # # # # ##### # ### # # #儲存資料：儲存形式多樣，可以存為文字，也可以儲存到資料庫， #或者儲存特定格式的檔案

#

python靜態爬蟲概念

Python 爬蟲概念基礎

Python通用爬蟲，聚焦爬蟲概念理解

python 爬蟲筆記簡單靜態

python靜態爬蟲概念

Python 爬蟲 概念基礎

Python通用爬蟲，聚焦爬蟲概念理解

python 爬蟲筆記 簡單靜態

相關推薦

Python 爬蟲概念基礎

python 爬蟲筆記簡單靜態