Python之爬蟲工具包

2021-12-29 19:49:55 字數 761 閱讀 8689

requests包:是乙個實用的python的http客戶端庫,編寫爬蟲從web上爬取資料時經常用到 ,簡單實用,介面簡單 ,requests.get(url)。

lxml包:主要用來解析通過requests抓取的html內容,從中提取出我們需要的資料,在對html文字內容進行提取、篩選時用到的是xpath語法 ,lxml使用的是xpath語法對html內容進行的定位篩選提取。

lxml包的使用:

通過lxml工具可以從html**中提取我們需要的資料

乙個網頁就是乙個html的檔案

需要通過lxml對乙個html格式的檔案內容進行組織(組織成乙個樹形結構)

html檔案是乙個樹形結構 - 型別linux系統的目錄結構

通過lxml組織成樹形結構後,然後再使用xpath語法對內容進行定位、篩選、過濾

xpath的語法使用:

路徑表示(使用xpath語法來表示xml文字中標籤的路徑)

//div 定位到根節點下的所有的div標籤,並返回乙個可迭代物件

//div[class="j-r-list-c-desc"]/hl/text() 提取某個標籤下的文字資料

/@href 提取的是某個標籤下的屬性名稱為href的屬性值

篩選條件

//div[@class="link"] 定位到根目錄下的包含class屬性並且屬性值為link的div標籤

//div[li] 篩選出根目錄下所有的包含li子標籤的div標籤

//div[@class] 篩選出包含class屬性的div標籤

Python工具包以及資源包

pip install whl 適用於2.x pip3 install whl 適用於2.x,3.x easy install python 官網 非官方 注意 如果安裝python安裝成功之後出現 dll引入錯誤問題 通常的做法,找到python安裝位置裡lib site pakage 相應的檔案...

python安裝wxpython工具包

wxpython是python語言的一套優秀的gui圖形庫,允許python程式設計師很方便的建立完整的 功能鍵全的gui使用者介面。wxpython是作為優秀的跨平台gui庫 wxwidgets 的python封裝和python模組的方式提供給使用者的。就如同python和wxwidgets一樣,...

python語言識別工具包

langid包 相當強大!def langidfunc print langid.classify we are family print langid.classify questa e una prova print langid.classify 我們都有乙個家 identifier lang...