Python爬蟲環境搭建大全

2021-09-17 07:24:15 字數 2200 閱讀 1324

在《python3網路爬蟲開發實戰》中,第一章主要是配置爬蟲的各種環境,這裡來記載一下簡單的安裝過程

python3:

requests(請求庫):

pip install requests

selenium(自動化測試工具):

pip install selenium

chromedriver(配合瀏覽器,驅動瀏覽器):

geckodriver(火狐的驅動,配合selenium):

phantomjs:

載的檔案解壓之後並開啟,會看到乙個 bin 資料夾,裡面包括乙個可執行檔案 phantomjs.exe ,我們需

要將它直接放在配置好環境變數的路徑下或者將它所在的路徑配置到環境變盤裡。 比如,我們既可以

將它直接複製到 python 的 scripts 資料夾,也可以將它所在的 bin 目錄加入到環境變數

aiohttp(web服務的庫,可以提高效率):

lxml(python的解析庫):

pip install lxml

beautiful soup(python的解析庫):

pip install beautifulsoup4

pyquery(強大的網頁解析工具):

pip install pyquery

tesserocr(驗證碼識別工具):

安裝tesserocr(pip install tesserocr pillow)

mysql(輕量級的關聯式資料庫):

安裝完成後,我們可以在「計算機」→「管理」→「服務」頁面開啟和關閉 mysql 服務

mongodb(非關係型資料庫,類似於python的字典):

找到軟體安裝位置

在bin目錄下建立data資料夾

建立start.bat檔案,裡面寫:

mongod --dbpath ./data

啟動mongode的時候就可以直接點start.bat檔案,然後資料庫就啟動了

robomongo/robo 3t(mongo的的視覺化工具):

redis(基於記憶體的高效非關係型資料庫,類似mongode):

安裝redis desktop manager(redis資料庫的視覺化工具):

pymysql(python連線mysql的包):

pip install pymysql

pymongo(python中操作mongode的第三方包):

pip install pymongo

redis-py(python中操作redis資料庫的第三方包):

pip install redis

redisdump(用於對redis資料匯入匯出的工具):

首先安裝ruby(參考:

gem install redis-dump

即可完成redisdump的安裝

flask(輕量級的web服務程式):

pip install flask

tornado(高效支援非同步的web框架):

pip install tornado

charles(可在手機端的抓包工具):

安裝破解都可參考(

mitmproxy(支援http,https的抓包程式,通過控制台操作):

安裝操作參考(

pyspider(國人編寫,網路爬蟲框架):

pip install pyspider

scrapy(強大的靜態頁面的爬蟲框架):

首先在python中安裝

最後直接

pip install scrapy

scrapy-splash(scrapy中支援js渲染的工具):

首先安裝docker

參見:安裝完成docker後:

docker run -p 8050:8050 scrapinghub/splash

即可完成安裝

scrapy-redis(scrapy對redis資料庫操作的拓展):

pip install scrapy-redis

在部署分布式爬蟲的時候,需要安裝另外一些庫:

scrapyd scrapyd-client scrapyd api scrapyrt gerapy

這裡編者水平有限,暫時用不到這些東西,用到的時候會進行更新

python爬蟲 環境搭建

技術交流 qq群599020441 紀年科技aming linux 環境配置 安裝系統依賴包 sudo apt get install libssl1.0.0 libssl dev tcl tk sqlite sqlite3 libbz2 1.0 libbz2 dev libexpat1 libex...

Python爬蟲的環境搭建

1 環境搭建 anaconda visual studio code pycharm 2 需要後續安裝的包 3 會出現的問題 3.2 bloom filter 網頁去重 使用pip install bloom filter命令 後,在pycharm中不能匯入,解決方式如下 pip install p...

selenium python爬蟲環境搭建

前言 準備使用selenium爬取 資料,先搭建selenium python爬蟲環境搭建 系統環境 64位win10系統,同時裝python2.7和python3.6兩個版本,ide為pycharm 安裝selenium 進入cmd命令列視窗,敲入以下 pip install selenium接著...