寒假大資料學習筆記五

今天學習內容為正規表示式，這一塊我一整天竟然沒有學完。

在一開始爬取網頁匹配有用的字串時，我用的是find方法，如下：

」和「.jpg」來鎖定鏈結，這樣做十分不方便，因為很難保證得到的是想要的鏈結，一旦有非鏈結匹配成功，同樣也會被扒下來，這樣會對清洗資料造成很大的麻煩。而正規表示式，無疑會方便許多。

但正規表示式的邏輯非常麻煩（個人認為），舉例如下：

想要匹配ip位址的正規表示式，我窮盡腦汁寫出的如下： string = "

((25[0-5]|2[0-4]\d|[01]\d\d)\.)(25[0-5]|2[0-4]\d|[01]\d\d)

" ，ip位址的格式為 a.b.c.d ，其中abcd分別都是0-255中的某乙個數字。這個式子分為3部分：第一部分是 ((25[0-5]|2[0-4]\d|[01]\d\d)\.) ，

這表示a.，而第一部分加上則代表將第一部分重複3次，這就變成了 a.b.c. ，然後在加上第一部分，整個ip位址匹配正則式就完成了。

正規表示式幾乎應用於所有語言，所以十分重要。

ps.正規表示式測試工具**

寒假大資料學習筆記十一

今天從山西衛健委官網上爬取新型冠狀病毒疫情有關內容的資料。到發部落格為止我只做了一半，只是將相關文字爬取下來，還沒有經過處理。那麼主要說一說我碰到的問題吧。主要就是爬取網頁的文字內容時受到網頁標籤的影響，難以規範地取得我想要的內容，影響包括但不限於各種稀奇古怪的位置上出現的換行符空格製表符。同時...

寒假大資料學習筆記九

2 建立scrapy專案這是很麻煩的一步，因為pycharm沒法建立scrapy專案，所以無論是windows還是linux都需要使用命令建立，可以使用命令scrapy檢視所有的scrapy可使用命令。scrapy genspider 專案名網域名稱切換到想建立專案的的位置，輸入以上命令即可。...

寒假大資料學習筆記七

今天由於某些私人原因，學習時間比較少，學習內容為基礎的urllib error。1 異常處理一般常用的異常有兩個 httperror和urlerror。urlerror一般出現的情況是沒有網路連線伺服器連線失敗找不到指定的伺服器。例子如下 1 try 2 url 3 response requ...

寒假大資料學習筆記五

寒假大資料學習筆記十一

寒假大資料學習筆記九

寒假大資料學習筆記七

相關推薦