Python3爬蟲從零開始 庫的安裝

2021-08-29 01:42:48 字數 1076 閱讀 1208

抓取網頁之後下一步就是從網頁中提取資訊。提取方式有很多種,可以利用正規表示式進行提請,但是相對而言比較麻煩繁瑣。現在有很多強大的解析庫供我們使用,如lxml,beautiful soupp,pyquery等。本節對其安裝進行介紹。

lxml的安裝

lxml支援html和xml的解析,支援xpath解析方式。

在windos下直接利用pip安裝,執行命令列命令:

pip3 install lxml
beautiful soup的安裝beautiful suop是python的乙個html或xml的解析庫,我們可以用它來方便地從網頁中提取資料。它的html和xml解析器是依賴於lxml庫的,所以在此之前需要確保已經成功安裝好了lxml庫。

依舊是pip安裝:

pip3 install beautifulsoup4
pyquery的安裝pyquery提供了和jquery類似的語法來解析html文件,支援css選擇器。

pip3 install pyquery
tesserocr的安裝爬蟲過程中難免遇到各種各樣的驗證碼,而大多數驗證碼還是圖形驗證碼,這時候可以用ocr(optical character recognition)來識別。

tesserocr是python的乙個ocr識別庫,但其實是對tesseract坐的一層python api封裝,所以它的核心是tesseract。因此,在此之前需要安裝tesseract。

最後,安裝tesserocr即可:

pip3 install tesserocr pillow
安裝好的各種庫,最後在python目錄下\lib\site-packages中可以檢視到。

mysql的安裝

這裡安裝mysql參照教程:

從零開始的Python 3

學!都可以學!1.直接放例項吧qaq 下為求階乘的遞迴 def jc n if n 1 or n 0 return 1 n n jc n 1 return n num jc 10 print num 2.然而函式可以訪問全域性變數但不能修改全域性變數。在函式內宣告全域性變數後才能修改 num 1 d...

從零開始 Python3 學習筆記

感覺有必要學習一門計算機語言,之前學過的計算機語言早已經還給老師了,現在想想實在是浪費 現在算是從零開始學了 在網上查了一下python入門比較簡單,應用面比較廣,好吧,於是就選它吧 短期的目標是做乙個簡單的爬蟲,爬取某網頁上的資料 網上看了一下案例 importurllib.request url...

Python3爬蟲從零開始 正規表示式

正規表示式測試工具 例項1 match import re content hello 123 4567 world this is a regex demo print len content result re.match hello s d d d s d s w content print ...