嘗試寫個爬蟲(2)

2021-06-18 03:35:31 字數 345 閱讀 9187

爬蟲的工作原理

主要技術

1.獲得url,解析出主機,埠以及資源路徑;

2.呼叫dns解析程式,將url轉換成ip位址;

4.迴圈獲得伺服器端的返回資訊,並儲存到本地。

dns(網域名稱系統)

用於網路資源的命名管理,將internet上的網域名稱與真實的ip位址進行一對一或一對多的對映,使用者可以通過輸入網域名稱資訊,查詢dns伺服器,獲得真實的ip。

hostent*  gethostbyname(const  char*  strurl);

struct hostent 通過h_addr欄位儲存解析成功後的ip位址。

注意後面補上這段**和測試結果。

嘗試寫個爬蟲(1)

背景知識 url uniform resource locator 也是平常所說的網頁位址。url是標準的internet協議,由協議型別,主機名,資源路徑等組成。格式為 protocol hostname port path parameters query protocal 是協議型別,最常用的...

嘗試寫個爬蟲(3)

http 超文字傳輸協議 通常http用於傳輸文字資訊,當然也可以傳輸二進位制或者各種流式檔案。通訊原理如下 1.建立tcp會話連線,通常指一次socket連線 2.client端向server端傳送請求命令,即http請求頭 3.server端響應client端請求,生成http返回頭,以及返回的...

爬蟲初學,寫個簡單的爬蟲

首先構造一下請求頭,呼叫request模組傳送請求,def request data url headers try response requests.get url,headers headers if response.status code 200 return response.conte...