python網路爬蟲 使用API之API通用規則

2021-08-08 11:10:50 字數 1109 閱讀 3016

和大多數網路資料採集的方式不同,api用一套非常標準的規則生成資料,而且生成的資料也是按照非常標準的方式組織的。因為規則很標準,所以一些簡單、基本的規則很容易學,也可以幫你快速地掌握任意api的用法。不過並非所有的api都很簡單,有些api的規則是比較複雜的,因此第一次使用乙個api時,建議閱讀文件,無論你對以前用過的api是多麼熟悉。

1. 方法

利用http從網路服務獲取資訊有四種方式:

get就是你在瀏覽器中輸入**瀏覽**所做的事情。當你訪問時,就會使用get方法。可以想象成get在說:「喂,網路伺服器,請按照這個位址發給我資訊」。

post基本就是當你填寫表單或提交表單到網路伺服器的後端程式時所做的事情。每次當你登入**的時候,就是通過使用者名稱和(可能加密的)密碼發起乙個post請求。如果你用post發起乙個api請求,相當於說「請把資訊儲存到你的資料庫裡」

put在**互動過程中不常用。但是在api裡面時常會用到。put請求用來更新乙個物件或資訊。例如,api可能會要求用post請求建立新使用者,但是如果你要更新老使用者的郵箱,就要用put請求了。

delete用於刪除乙個物件。例如,如果我們向發出乙個delete請求,就會刪除id號為23的使用者。delete方法在公共api中不常用,它們主要用於建立資訊,不能隨便讓乙個使用者去刪除資料庫的資訊。但是和put方法一樣,delete方法也值得了解一下。

雖然http規範裡還有一些資訊處理方式,但是這四種基本是你使用api過程中可能遇到的全部。

2. 驗證

雖然有些api不需要驗證操作(也就是任何人都可以使用api,不需要註冊),但是很多新式api在使用之前都要求客戶驗證。有些api要求客戶驗證是為了計算api呼叫的費用,或者提供了包月的服務。有些驗證是為了「限制」使用者使用api(限制每分鐘,每小時或每天api呼叫的次數),或者是限制一部分使用者對某種資訊或某類api的訪問。還有一些api可能不要求驗證,但是可能會為了市場營銷而跟蹤使用者的使用行為。

通常api驗證的方法都是使用類似令牌(token)的方式使用,每次api呼叫都會把令牌傳到伺服器上。這種令牌要麼是使用者註冊的時候分配給使用者,要麼就是在使用者呼叫的時候才提供,可能是長期固定的值,也可能使頻繁變化的,通過伺服器對使用者名稱和密碼的組合處理後生成。令牌除了在url鏈結中傳遞,還會通過請求頭里的cookie把使用者資訊傳遞給伺服器。

Python即時網路爬蟲 API說明

1,介面名稱 2,介面說明 如果您想編寫乙個網路爬蟲程式,您會發現大部分時間耗費在調測網頁內容提取規則上,不講正規表示式的語法如何怪異,即便使用xpath,您也得逐個編寫和除錯。如果要從乙個網頁上提取很多字段,逐個除錯xpath將是十分耗時的。通過這個介面,你可以直接獲得乙個調測好的提取器指令碼程式...

Python網路爬蟲

找到url,也就是相當於入口,找到你要爬取的鏈結,獲取整個頁面資料 使用正規表示式,匹配到你想要爬取的內容,這裡使用的主要是正規表示式和一些常用的開源庫 最後一步就是寫入文字以及儲存問題了,如文字檔案 資料庫 coding utf 8 是用來指定檔案編碼為utf 8 from urllib impo...

python網路爬蟲

這篇部落格簡單的實現了乙個網路爬蟲指令碼,所謂網路爬蟲就是從 某乙個頁面 通常是首頁 開始,讀取網頁的內容,找到在網頁中的其它鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,這樣一直迴圈下去,直到把這個 所有的網頁都抓取完為止。下面就是乙個簡單地網路爬蟲程式 note 這個命令的意思是,從爬去尋找關鍵...