python爬蟲工具安裝

2021-08-20 14:32:59 字數 1172 閱讀 5865

re與urllib模組一般python自帶

pip install requests
有些**是js渲染的,需要借助瀏覽器載入,在此需要安裝selenium

pip install selenium
還需要安裝chrome瀏覽器以及瀏覽器對應的chromedrive

安裝成功測試:

可以看出以上需要開啟乙個網頁,也可以使用phantomjs,執行時不需要開啟網了,即可在後台執行。

)也不得不說phantomjs裡面的坑很多,要想輕鬆點,上乙個選擇就可以了。

提供xpath的高效解析方式

pip install lxml
beautifulsoup4也是乙個網頁解析庫,使用方便,依賴xlml,安裝之前先安裝lxml。

pip install beautifulsoup4
呼叫方式

from bs4 import beautifulsoup

soup = beautifulsoup('',

'lxml'

)# 使用xlml解析

網頁解析庫,相對bs4是要方便的,語法跟jquery是相似的。

from pyquery import pyquery as pq

doc = pq(

"hello"

)result = doc(

"html"

).text(

)result

# 'hello'

爬蟲 工具安裝Jupyter anaconda

你可以在這裡檢視官方的 jupyter 安裝文件 開始上手!現在你已經知道這些筆記本是什麼以及如何將其安裝到你的機器上了。現在開始使用吧!要執行你的 jupyter notebooks,只需在命令列輸入以下命令即可!安裝python3 m pip install jupyter 啟動jupyter ...

Python爬蟲 網路爬蟲和相關工具

網路爬蟲和相關工具 網路爬蟲的概念 爬蟲的應用領域 搜尋引擎 新聞聚合 社交應用 輿情監控 行業資料 合法性和背景調研 爬蟲合法性 網路爬蟲領域目前還屬於拓荒階段,雖然網際網路世界已經通過自己的遊戲規則建立起一定的道德規範 robots協議,全稱是 網路爬蟲排除標準 但法律部分還在建立和完善中,也就...

常見Python爬蟲工具總結

前言 以前寫爬蟲都是用requests包,雖然很好用,不過還是要封裝一些header啊什麼的,也沒有用過無頭瀏覽器,今天偶然接觸了一下。原因是在處理乙個錯誤的時候,用到了幾個以前沒有用過的工具 這幾個工具也挺常見的,在這裡一起總結一下。包括以下幾個 selenium 簡介安裝 簡單使用from se...