網路爬蟲三

2021-09-27 03:18:07 字數 1241 閱讀 6248

一、正規表示式之元字元

就是正規表示式中具有一些特殊含義的字元

二、正規表示式括號的作用

1、限制多選項的範圍 (fri|1)st 這樣寫會匹配frist或1st 如果去掉,則 fri|1st就是匹配 fri或1st

2、將若干個字元進行組合,受量詞的同時作用。例如 th+ 表示匹配 th thh thhh(h無數次),如果是(th)+,則匹配的是th thth ththth(th無數次)

3、反向引用,即前面括號匹配到的東西記憶與後面,常用於匹配重複單詞。

4、分組

三、常用的元字元

四、常用的反義元字元

五、模式修正符

可以在不改變正規表示式的情況下,通過模式修正符改變正規表示式的含義,從而實現一些匹配結果的調整等功能

i 匹配時忽略大小寫  m多行匹配

l 本地化識別匹配    u  unicode

s 讓.匹配包括換行符

import re

string="python"

pat="pyt"

rst=re.search(pat,string,re.i)

print(rst)

執行結果

五、貪婪模式與懶惰模式

1.貪婪模式

盡可能多的匹配,挖掘更多

import re

string="helloworldbeijji"

pat1="h.*l"#貪婪模式

rst=re.search(pat1,string,re.i)

print(rst)

執行結果

2.懶惰模式

盡可能少的匹配

import re

string="helloworldbeijji"

pat2="h.*?l"#懶惰模式,精準

rst2=re.search(pat2,string,re.i)

print(rst2)

執行結果

3.區別

上面貪婪模式匹配出來helloworl

懶惰模式匹配出的是hel

網路爬蟲(三) 簡單使用scrapy

一.首先簡單了解scrapy的架構 官方給出的解釋 spiders spider是scrapy使用者編寫用於分析response並提取item 即獲取到的item 或額外跟進的url的類。每個spider負責處理乙個特定 或一些 item pipeline item pipeline負責處理被spi...

網路爬蟲 SQL注入檢測三

4.3 爬蟲和sql檢查的結合 在lib core spider.py檔案引用一下from script import sqlcheck 等下節課我們開發出了外掛程式系統後,就不需要這樣引用了,爬蟲會自動呼叫,但這節課為了測試,我們還是引用一下。在craw 方法中,取出新url地方呼叫一下。sql ...

網路爬蟲 多執行緒爬蟲

多執行緒爬蟲 import threading class one threading.thread def init self threading.thread.init self def run self for i in range 0,10 print 我是執行緒1 class two th...