正規表示式 py爬蟲篇

2021-08-27 08:21:19 字數 2191 閱讀 5166

re.match試著從字串的起始位置匹配乙個模式,

若不能從起始位置匹配成功,match()就返回none.

import re

content = 'hello 123 4567 world_this demo'

res = re.match('^hello\s

\d\d

\d\s

\d\s

\w\sdemo

$', content)

print(res)

print(res.group())

print(res.span())

import re

content = 'hello 123 4567 world_this demo'

res = re.match('^hello\s(\d+)\s(\d

)\s\w

\sdemo

$', content)

print(res)

print(res.group(1))

import re

content = 'hello 123 4567 world_this is a regex demo'

res = re.macth('^

import re

content = 'hello 123 4567 world_this is a regex demo'

res = re.match('^he.*(\d+).*demo$', content)

print(res)

import re

content = 'hello 123 4567 world_this is a regex demo'

res = re.match('^he.*?(\d+).*demo$', content)

print(res)

import re

content = '''hello 123 4567 world_this

is a regex demo

'''res = re.match('^he.*?(\d+).*demo$', content, res.s)

print(res)

import re

content = 'price is $5.00'

result = re.match('price is \$5\.00', content)

print(result)

掃瞄整個字串並且返回第乙個掃瞄到的結果
import re

content = 'extra stings hello 1234567 world_this is a regex demo ex

tra stings'

result = re.search('hello.*?(\d+).*?demo', content)

print(result)

print(result.group(1))

替換字串每乙個匹配的子串,然後返回替換後的字串。
>>> content = 'extra stings hello 1234567 world_this is a regex demo extra stings'

>>> content = re.sub('\d+','',content)

>>>

print content

extra stings hello world_this is a regex demo extra stings

>>> content = 'extra stings hello 1234567 world_this is a regex demo extra stings'

>>> content = re.sub('(\d+)',r'\1 445566',content)

>>>

print content

extra stings hello 1234567

445566 world_this is a regex demo extra stings

Python 正規表示式(爬蟲篇)

實際上爬蟲有四個主要步驟 取 去掉對我們沒用處的資料 處理資料 按照我們想要的方式儲存和使用 我們爬下來的資料大部分都是全部的網頁,這些資料有時候是很龐大並且混亂的,大部分的董事是我們不關心的,所以我們需要將之按我們的需要過濾和匹配出來。那麼對於文字的過濾或者規則的匹配,最強大的就是正規表示式,是 ...

爬蟲 正規表示式

正規表示式 regular expression 是一種字串匹配的模式 pattern 它可以檢查乙個字串是否含有某種子串 替換匹配的子串 提取某個字串中匹配的子串。匯入正則模組 importre 字元匹配 rs re.findall abc adc print rs rs re.findall a...

爬蟲之正規表示式基礎篇

一 點睛 1 正規表示式工具 2 測試一下 3 說明 其實,這裡就是用了正規表示式匹配,也就是用一定的規則將特定的文字提取出來。比如,電子郵件開頭是一段字串,然後是乙個 符號,最後是某個網域名稱,這是有特定的組成格式的。二 常用的匹配規則模式 描述 w 匹配字母 數字及下劃線 w匹配不是字母 數字及...