Python即時網路爬蟲 API說明

2021-07-13 20:17:58 字數 1211 閱讀 5108

1,介面名稱

2,介面說明

如果您想編寫乙個網路爬蟲程式,您會發現大部分時間耗費在調測網頁內容提取規則上,不講正規表示式的語法如何怪異,即便使用xpath,您也得逐個編寫和除錯。如果要從乙個網頁上提取很多字段,逐個除錯xpath將是十分耗時的。通過這個介面,你可以直接獲得乙個調測好的提取器指令碼程式,是標準的xslt程式,您只需針對目標網頁的dom執行它,就能獲得xml格式的結果,所有字段一次性獲得。

用於資料分析和資料探勘的網路爬蟲程式中,內容提取器是影響通用性的關鍵障礙,如果這個提取器是從api獲得的,您的網路爬蟲程式就能寫成通用的框架。請參看

gooseeker的開源python網路爬蟲專案

。3,介面規範

3.1,介面位址(url)

api/getextractor

3.2,請求型別(contenttype) 不限

3.3,請求方法

3.4,請求引數

注釋:請參看gooseeker網路爬蟲術語解釋:doc/article-57-1.html

3.5,返回型別(contenttype)

text/xml; charset=utf-8

3.6,返回引數

http訊息頭中的引數,如下:

3.7,返回錯誤資訊

4,用法範例(python語言)

1,gooseeker會員中心申請key

2,提取器名獲取參考 

1分鐘快速生成用於網頁內容提取的xslt

示例**:

# -*- coding: utf-8 -*-

from urllib import request

url = 'api/getextractor?key=您的key&theme=您的提取器名'

resp = request.urlopen(url)

content = resp.read()

if(content):

print(content)

5,相關文件

1, python即時網路爬蟲專案: 內容提取器的定義

1, gooseeker開源python網路爬蟲github源

7,文件修改歷史

1,2016-06-22:v1.0

python網路爬蟲 使用API之API通用規則

和大多數網路資料採集的方式不同,api用一套非常標準的規則生成資料,而且生成的資料也是按照非常標準的方式組織的。因為規則很標準,所以一些簡單 基本的規則很容易學,也可以幫你快速地掌握任意api的用法。不過並非所有的api都很簡單,有些api的規則是比較複雜的,因此第一次使用乙個api時,建議閱讀文件...

Python即時網路爬蟲專案 內容提取器的定義

專案背景 在python 即時網路爬蟲專案啟動說明中我們討論乙個數字 程式設計師浪費在調測內容提取規則上的時間,從而我們發起了這個專案,把程式設計師從繁瑣的調測規則中解放出來,投入到更高階的資料處理工作中。解決方案 為了解決這個問題,我們把影響通用性和工作效率的提取器隔離出來,描述了如下的資料處理流...

python結合API實現即時天氣資訊

python結合api實現即時天氣資訊 import urllib.request import urllib.parse import json 利用 最美天氣 抓取即時天氣情況 snwzsx class zuimei def init self self.url zuimei queryweat...