爬蟲解析庫的安裝

2021-10-12 08:29:05 字數 597 閱讀 6386

1.lxml            pip3 install lxml

2.beautifulsoup4 pip3 install beautifulsoup4

3.pyquery pip3 install pyquery

4.tesserocr

sudo

apt-get

install -y tesseract-ocr libtesseract-dev libleptonica-dev

我們檢視一下其支援的語言

tesseract --list-langs

結果顯示只支援幾種語言,若想安裝多國語言,就需要安裝tessdata(github上面搜)

ubuntu系統下的遷移命令

sudo

mv tessdata-4.0.0/* /usr/share/tesseract-ocr/tessdata

檢視一下所有支援的語言

tesseract --list-langs

安裝tesserocr 和pillow

pip3 install tesserocr pillow

爬蟲之xpath解析庫

xpath語法 1.常用規則 1.nodename 節點名定位 2.從當前節點擊取子孫節點 3.從當前節點擊取直接子節點 4.nodename attribute 根據屬性定位標籤 div class ui main 5.attributename 獲取屬性 6.text 獲取文字 2.屬性匹配兩種...

爬蟲請求庫的安裝

1.requests pip3 install requests 2.selenium pip3 install selenium 3.安裝谷歌和火狐瀏覽器 4.chromedriver和geckodriver github上搜尋,windows複製到python的 scripts目錄下,linux...

python爬蟲常用庫安裝 爬蟲常用庫的安裝

請求庫 解析庫儲存庫 工具庫請求庫 urlib re python內建庫 requests pip3 install requests pip2,pip conda都是可以選擇的 selenium pip3 install selenium chromedriver 測試python下輸入 from...