爬蟲模組大全

2022-08-12 00:27:13 字數 1433 閱讀 7798

urllib -網路庫(stdlib)。

requests -網路庫。

grab – 網路庫(基於pycurl)。

pycurl – 網路庫(繫結libcurl)。

urllib3 – python http庫,安全連線池、支援檔案post、可用性高。

httplib2 – 網路庫。

robobrowser – 乙個簡單的、極具python風格的python庫,無需獨立的瀏覽器即可瀏覽網頁。

mechanicalsoup -乙個與**自動互動python庫。

mechanize -有狀態、可程式設計的web瀏覽庫。

socket – 底層網路介面(stdlib)。

unirest for python – unirest是一套可用於多種語言的輕量級的http庫。

hyper – python的http/2客戶端。

pysocks – socksipy更新並積極維護的版本,包括錯誤修復和一些其他的特徵。作為socket模組的直接替換。

treq – 類似於requests的api(基於twisted)。

grequests – 封裝了gevent+requests模組的grequests模組

aiohttp – asyncio的http客戶端/伺服器(pep-3156)。

grab – 網路爬蟲框架(基於pycurl/multicur)。

scrapy – 網路爬蟲框架(基於twisted),不支援python3。

pyspider – 乙個強大的爬蟲系統。

cola – 乙個分布式爬蟲框架。

portia – 基於scrapy的視覺化爬蟲。

restkit – python的http資源工具包。它可以讓你輕鬆地訪問http資源,並圍繞它建立的物件。

demiurge – 基於pyquery的爬蟲微框架。

lxml – c語言編寫高效html/ xml處理庫。支援xpath。

cssselect – 解析dom樹和css選擇器。

pyquery – 解析dom樹和jquery選擇器。

beautifulsoup – 低效html/ xml處理庫,純python實現。

html5lib – 根據whatwg規範生成html/ xml文件的dom。該規範被用在現在所有的瀏覽器上。

feedparser – 解析rss/atom feeds。

markupsafe – 為xml/html/xhtml提供了安全轉義的字串。

xmltodict – 乙個可以讓你在處理xml時感覺像在處理json一樣的python模組。

xhtml2pdf – 將html/css轉換為pdf。

untangle – 輕鬆實現將xml檔案轉換為python物件。

bleach – 清理html(需要html5lib)。

sanitize – 為混亂的資料世界帶來清明。

python爬蟲教程大全

關於python爬蟲這方面知識,在網路上有一些教程 文章,很有價值,能夠帶領新手快速入門。在這裡我把自己學習時找到的一些教程列出來,與大家一起分享,歡迎補充!乙隻小爬蟲 乙隻併發的小爬蟲 python與簡單網路爬蟲的編寫 python寫爬蟲 抓取網頁並解析html python 網路爬蟲 一 抓取網...

python爬蟲教程大全

關於python爬蟲這方面知識,在網路上有一些教程 文章,很有價值,能夠帶領新手快速入門。在這裡我把自己學習時找到的一些教程列出來,與大家一起分享,歡迎補充!乙隻小爬蟲 乙隻併發的小爬蟲 python與簡單網路爬蟲的編寫 python寫爬蟲 抓取網頁並解析html python 網路爬蟲 一 抓取網...

python爬蟲教程大全

關於python爬蟲這方面知識,在網路上有一些教程 文章,很有價值,能夠帶領新手快速入門。在這裡我把自己學習時找到的一些教程列出來,與大家一起分享,歡迎補充!乙隻小爬蟲 乙隻併發的小爬蟲 python與簡單網路爬蟲的編寫 python寫爬蟲 抓取網頁並解析html python 網路爬蟲 一 抓取網...