python常用工具包及模組使用(持續更新)

2021-10-04 21:36:32 字數 1725 閱讀 1705

安裝:pip install python-whois

import whois

print(whois.whois("網域名稱"))

安裝:pip install requests

安裝:pip install beautifulsoup4

#解析格式錯誤的html

from bs4 import beautifulsoup

from ppprint import pprint

broken_html = ''

#html.parser 是一種解析器

soup = beautifulsoup(broken_html,'html.parser')

fixed_html = soup.prettify()

pprint(fixed_html)

html.parser解析器不準確的時候,可以使用html5lib

安裝:pip install html5lib

#解析格式錯誤的html

from bs4 import beautifulsoup

from ppprint import pprint

broken_html = ''

#改用html5lib

soup = beautifulsoup(broken_html,'html5lib')

fixed_html = soup.prettify()

pprint(fixed_html)

html解析正確後,可使用find()和findall()方法定位我們所需的元素

ul = soup.find('ul',attrs=)

ul.find('li') #返回第乙個匹配元素

ul.findall('li') #返回所有匹配元素

windows安裝說明鏈結

安裝cssselect庫,使用css選擇器

安裝:pip install cssselect

tree = fromstring(html)

td = tree.cssselect('tr#id > td.classname')[0]

area = td.text_content()

print(area)

css選擇器無法正常工作的時候(html非常不完整或存在格式不當的元素時),可使用xpath選擇器。

tree = fromstring(html)

area = tree.xpath('//tr[@id="id"]/td[@class="classname"]/text()')[0]

print(area)

安裝:pip install pillow

安裝:pip install pytesseract

#常規應用方法只能識別典型的文字

import pytesseract

img = get_captcha_img(html.content)

pytesseract.image_to_string(img)

#一般都需要對進行處理,如轉換為灰度影象等

學習書籍:

1、《用python寫網路爬蟲(第二版)》 中國工信出版集團  人民郵電出版社

2、《python程式設計無師自通》 中國工信出版集團  人民郵電出版社

常用工具包

mac環境下python虛擬環境的安裝和配置 配置.bash log檔案 vim bash log 3.執行該檔案 source bash log 4.建立虛擬環境 mkvirtualenv virtualenv 匯出和安裝依賴包 pip install r requirements.txt pip...

centos7 常用工具包安裝

1 yum y install lrzsz rz 檔名 上傳 2.gcc nginx之類由c語言開發的,編譯的時候需要用到 yum y install gcc c 3.pcre perl庫,包括 perl 相容的正規表示式庫 yum y install pcre pcre devel 4.zlib ...

Python常用工具PyCharm

pycharm 是我用過的python編輯器中,比較順手的乙個。而且可以跨平台,在macos和windows下面都可以用,這點比較好。首先預覽一下 pycharm 在實際應用中的介面 更改了pycharm的預設風格 安裝pycharm 的啟用方式 1,推薦購買正版。2,可以選擇試用,免費試用30天。...