爬蟲基本基礎知識講解

2021-08-27 16:07:04 字數 1246 閱讀 4177

一.什麼是爬蟲

爬蟲就像是一直蜘蛛一樣 ,而網際網路是就像是一張大大的蜘蛛網一樣。簡單的說爬蟲就是請求**並提取資料的自動化程式。

提取:我們得到這些網路資源都是一些html**,或者是一些文字文字。我們下一步做的工作就是在這些資料中提取出我們想要的東西。比如乙個手機號。存在資料庫或者文件裡面。

自動化:程式就能代替人工不停的大量的進行提取資料。

二:爬蟲的基本流程

1.發起請求:通過http庫向目標站發起請求,即傳送乙個request,請求可以包含額外的headers等資訊,等待伺服器響應。

2.獲取響應的內容:如果伺服器能正常的響應,會得到乙個request的內容便是所要獲取的頁面內容、型別可能有html,json字元轉,二進位制資料等型別

3.解析內容:得到的內容可能是html可以用正規表示式,網頁解析庫進行解析。可能是json,可以直接轉為json物件解析,可能是二進位制資料,可以做儲存或者進一步處理。

4.儲存資料:儲存格式多樣化,可以存為文字,也可以儲存至資料庫,或者儲存特定格式的檔案。

三:什麼是request和response

1.瀏覽器就傳送訊息給該**所在的伺服器,這個過程叫做http request。

2.伺服器收到瀏覽器傳送的訊息後,能夠根據瀏覽器傳送訊息的內容,做相應處理,然後把訊息回傳給瀏覽器。這個過程叫做http response。

3.瀏覽器收到伺服器的response資訊後,會對資訊進行相應處理,然後展示。

四:request包含什麼

1.請求方式:主要有get,post兩種型別,另外還有head,put,delete,options等。

最主要的就是get和pose兩種請求方式。pose請求的方式大多是用在登陸的請求上,他將許多的請求引數封裝在一起,進行保密。get則是需要很多的引數才可以,用於搜尋。

2.請求url

3.請求頭:包含請求時的頭部資訊,如user-agent,host,cookie等資訊。

五:response包含什麼

1.響應狀態:200代表成功,300以上的狀態時用來做頁面跳轉的,400以上是用來說明伺服器找不到資源的,500以上時表示伺服器處理錯誤。

2.響應頭:如內容的型別,內容的長度,伺服器資訊,,設定cookie資訊等等

爬蟲基礎知識

大資料時代,要進行資料分析,首先要有資料來源。而學習爬蟲,可以讓我們獲取更多的資料來源,並且這些資料來源可以按我們的目的進行採集,去掉很多無關資料。網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬客戶端傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。只要是瀏覽器能做的事...

Cmake基礎知識講解

本文主要參考 1.cmake編譯原理 cmake是一種跨平台編譯工具,比make更為高階,使用起來要方便得多。cmake主要是編寫cmakelists.txt檔案,然後用cmake命令將cmakelists.txt檔案轉化為make所需要的makefile檔案,最後用make命令編譯原始碼生成可執行...

Python基礎知識講解

1.1 配置環境變數 將python的安裝目錄新增到系統的環境變數中,在這裡python的預設安裝路徑是 c python27,按照下面的方法將python所在路徑新增到環境變數中 我的電腦 屬性 高階 環境變數 在path變數的末尾新增 c python27即可。不同變數使用 符號分隔 在cmd中...