python 爬蟲第一天

2021-09-24 04:10:18 字數 892 閱讀 3645

1.爬蟲框架安裝

如果直接用requests selenium 等庫寫爬蟲,爬取量不是太大,速度要求不高是可以的

我們可以用爬蟲框架:pyspider 和scrapy

pyspider 是國人binux編寫的強大網路爬蟲框架,帶有強大的webui 指令碼編輯器 任務***,專案管理器及結果處理器,結果支援多種資料庫後端,多種訊息佇列,。

pyspider 支援js渲染,依賴於phantonjs,需安裝

安裝過程:

pip install pyspider

驗證安裝完成:

pyspider all

error as following:

**valueerror: invalid configuration:

pip install scrapy

驗證安裝成功,在命令列輸入:scrapy

部署相關庫的安裝

如果想要大規模抓取爬蟲 一定要用到分布式爬蟲,對於scrapy 有乙個擴充套件元件,叫做scrapyd,只需要安裝該元件,即可遠端管理scrapy任務,包括部署原始碼,啟動任務和監聽任務

還可以用docker集群部署,將爬蟲製作成docker映象,只要主機安裝了docker,就可以直接執行爬蟲。

後續需要在安裝docker 和scrapyed 這一頁暫時不記錄

python爬蟲(第一天)

網易雲課堂的 丘祐瑋綜述 如何爬網頁資料 使用chorme,右鍵 檢查 pip 安裝 requests pip 安裝 beautifulsoup4 pip 安裝 jupyter 執行jupyter notebook import requests res requests.get res.encod...

python爬蟲學習第一天

今天開始學習python網路爬蟲,寫個部落格作為筆記以及自己的學習過程以監督自己。今天學習了urllib這個python包的一部分內容,主要是urllib.request 內容簡記 urllib.request.urlopen 詳解 利用以上最基本的urlopen 方法,我們可以完成最基本的簡單網頁...

學python爬蟲第一天

win10系統 小白一枚 第一次學習寫部落格 1.get是預設的http請求方法 2.post方法主要是提交表單 3.get引數暴露在url中 4.get相對post不安全 可以用下面的語句show一下,確定是否安裝完全 定義請求的url url 發起get請求 res requests.get u...