第60講 乙隻爬蟲的自我修養8 正規表示式

2022-07-12 00:39:08 字數 473 閱讀 9248

一 search方法:

1 模組級別的search方法:re.search(pattern,string,flags=0)

2 編譯後的正規表示式模式物件也擁有search方法:regex.search(string[,pos[,endpos]])

注意:search方法並不會立刻返回你可以使用的字串取而代之,而是返回乙個匹配物件

3 匹配物件有一些方法,使用方法才可以獲得一些你需要的字串

start()方法:匹配的開始位置

end()方法:匹配的結束位置

span()方法:表示範圍

二 findall方法

1 功能:

正規表示式裡面沒有子組:找到所有匹配的內容,並把他們組織成列表的形式返回

正規表示式裡面有子組:findall方法會把正規表示式的匹配結果進行分類,並將結果以元組的形式返回——解決辦法:讓子組不捕獲內容

**一直沒辦法用,不知道怎麼改

論乙隻爬蟲的自我修養9 異常處理

網頁的異常處理 高階語言的乙個優秀特性就是它可以從容不迫的處理每乙個遇到的錯誤,不至於說因為遇到乙個小錯誤就導致整個程式崩潰了,大部分高階語言處理錯誤的方法都是通過檢測異常 處理異常來實現的,python也是一樣。用程式用 進行網際網路訪問的時候,會出現異常那是再正常不過的了,例如說之前實現了乙個 ...

論乙隻爬蟲的自我修養5 正規表示式

比如你想寫乙個指令碼來自動獲取最新的 ip位址,但是肯定會遇到困難,解析 首先要寫個這個爬蟲肯定要先去這個 審查元素踩點,隨便選中乙個ip審查元素,然後檢視這個ip前後有什麼標籤,可以發現是被td標籤包起來了,接著你會發現別的位置也會有td標籤,但裡邊卻不是ip而是別的資訊,那你可能會花很多時間,先...

乙隻爬蟲的產生

以下環境基於py2.7 爬蟲架構 url管理器 處理待爬url以及爬過的url,防止重複抓取以及死迴圈 網頁解析器 解析出想要的資料,以及捕捉新的url位址交給url管理器進行處理繼續抓取。過濾資料,拿到有價值的資料進行處理。資料的存放 python 的 set集合 可以防止資料的重複 需要長期儲存...