Python即時網路爬蟲 API說明

1，介面名稱

2，介面說明

如果您想編寫乙個網路爬蟲程式，您會發現大部分時間耗費在調測網頁內容提取規則上，不講正規表示式的語法如何怪異，即便使用xpath，您也得逐個編寫和除錯。如果要從乙個網頁上提取很多字段，逐個除錯xpath將是十分耗時的。通過這個介面，你可以直接獲得乙個調測好的提取器指令碼程式，是標準的xslt程式，您只需針對目標網頁的dom執行它，就能獲得xml格式的結果，所有字段一次性獲得。

用於資料分析和資料探勘的網路爬蟲程式中，內容提取器是影響通用性的關鍵障礙，如果這個提取器是從api獲得的，您的網路爬蟲程式就能寫成通用的框架。請參看

gooseeker的開源python網路爬蟲專案

。3，介面規範

3.1，介面位址（url）

api/getextractor

3.2，請求型別（contenttype）不限

3.3，請求方法

3.4，請求引數

注釋：請參看gooseeker網路爬蟲術語解釋：doc/article-57-1.html

3.5，返回型別（contenttype）

text/xml; charset=utf-8

3.6，返回引數

http訊息頭中的引數，如下：

3.7，返回錯誤資訊

4，用法範例（python語言）

1，gooseeker會員中心申請key

2，提取器名獲取參考

1分鐘快速生成用於網頁內容提取的xslt

示例**：

# -*- coding: utf-8 -*-
from urllib import request
url = 'api/getextractor?key=您的key&theme=您的提取器名'
resp = request.urlopen(url)
content = resp.read()
if(content):
print(content)

5，相關文件

1， python即時網路爬蟲專案: 內容提取器的定義

1， gooseeker開源python網路爬蟲github源

7，文件修改歷史

1，2016-06-22：v1.0

Python即時網路爬蟲 API說明

python網路爬蟲使用API之API通用規則

Python即時網路爬蟲專案內容提取器的定義

python結合API實現即時天氣資訊

Python即時網路爬蟲 API說明

python網路爬蟲 使用API之API通用規則

Python即時網路爬蟲專案 內容提取器的定義

python結合API實現即時天氣資訊

相關推薦

python網路爬蟲使用API之API通用規則

Python即時網路爬蟲專案內容提取器的定義