python爬蟲必知的基礎知識

2021-09-20 04:18:16 字數 1046 閱讀 7111

訪問資源的協議型別url開頭的http,https,ftp,sftp,smb,

http(hyper text transfer protocol):從網路傳輸超文字資料到本地瀏覽器的傳輸協議,它能高效而準確的傳送超文字文件。

https(hyper text transfer protocol over secure socket layer),是以安全為目標的http通道,即安全版,在http下加入ssl層,簡稱https,安全基礎為ssl,傳輸的內容都是經過ssl加密的。主要作用看p79頁。

general:request headers:method ,url,headers,body,

method: get:wd表示要search的關鍵字,資料在url當中可以看到,最多提交1024位元組。

post:大多在表單提交的時發起,包含在請求體當中,沒限制

content-type和post提交資料方式的關係。

user-agen t 爬蟲偽裝瀏覽器

response header:status code p85

header:expires:指定響應的過期時間

set-cookie:設定cookie

爬蟲需要知道的基礎網頁結構:

body 

html定義了網頁的內容和結構,css描述了網頁的布局,js定義了網頁的行為,

#id.class      css選擇器

節點樹及節點間的關係

標籤定義的內容為節點,構成html dom樹

dom:document object model文件物件模型,定義了訪問html和xml(可擴充套件標記語言)文件的標準。

html dom標準

文件節點,元素節點,文字節點,屬性節點,注釋節點。

樹中所有節點均可以通過js訪問,元素可被修改,建立或刪除。具有層級關係,

資料爬取出來可以儲存的格式:

資料儲存txt,json,csv

物件與陣列

物件,文字字元,dump和loads函式

jQuery必知必熟基礎知識

jquery 1.特點 小巧功能強 跨瀏覽器 外掛程式2.使用 實際是js檔案 a 複製js到webroot b 頁面 3.核心物件及常用方法和屬性 a 名稱 jquery和 用 找出來的物件叫jquery物件 用document找出來的物件叫dom物件 b dom和jquery物件轉換 jquer...

mysql必知必會 基礎知識

資料庫是乙個以某種有組織的方式儲存的資料集合。理解資料庫的一種最簡單的辦法就是將其想象為乙個檔案櫃。此檔案櫃是乙個存放資料的物理位置,不管資料是什麼以及如何組織的。1.表等同於當你將資料放進檔案櫃時,不是將資料隨便扔進乙個抽屜就完了,你應該將相關的資料放進乙個特定的檔案中。2.表是一種結構化的檔案,...

會計人必知的實務基礎知識

在實務工作中可能每個財務人員只負責某乙個會計工作環節,儘管如此,每個財務人員還是非常有必要對財務工作的大致環節瞭如指掌。一 財務工作的大致環節如下 1 根據原始憑證或原始憑證彙總表填製記賬憑證。2 根據收付記賬憑證登記現金日記賬和銀行存款日記賬。3 根據記賬憑證登記明細分類賬。4 根據記賬憑證彙總 ...