基於規則的常用實體資訊抽取

2021-09-23 06:19:23 字數 1754 閱讀 8804

1. 文字中url位址抽取

regex = "(http[s]?://(?:[a-za-z]|[0-9]|[$-_@.&+]|[!*,]|(?:%[0-9a-fa-f][0-9a-fa-f]))+)|([a-za-z]+.\w+\.+[a-za-z0-9\/_]+)"

url = re.findall(regex, text)

print(url)

"""[('', '')]

"""

2. email 位址抽取
regex = "([a-za-z0-9_.+-]+@[a-za-z0-9-]+\.[a-za-z0-9-.]+)"

text = "我的郵箱是[email protected]"

email = re.findall(regex, text)

print(email)

「」「['[email protected]']

」「」

3. 身份證號碼抽取
regex = "\d[\d|x|x]"

text = "我的身份證號碼是352221199604050372"

idnumber = re.findall(regex, text)

print(idnumber)

「」「['352221199604050372']

」「」

4. ip位址抽取
regex = "(?:(?:[0,1]?\d?\d|2[0-4]\d|25[0-5])\.)(?:[0,1]?\d?\d|2[0-4]\d|25[0-5])"

text = '我的ip是127.0.0.1'

ip = re.findall(regex, text)

print(ip)

"""['127.0.0.1']

"""

5. **號碼抽取
regex = "1[34578]\d"

text = "我的手機號是18896827613"

phonenumber = re.findall(regex, text)

print(phonenumber)

"""['18896827613']

"""

6. 中文資訊抽取
import re

regex = '[\u4e00-\u9fa5]'

text = '我是wo shi 中國人 zhong guo ren'

ch_character = re.findall(regex, text)

print(ch_character)

"""['我', '是', '中', '國', '人']

7. 英文資訊抽取
text = '我是wo shi 中國人 zhong guo ren'

regex = '[a-za-z]'

en_character = re.findall(regex, text)

print(en_character)

['w', 'o', 's', 'h', 'i', 'z', 'h', 'o', 'n', 'g', 'g', 'u', 'o', 'r', 'e', 'n']

8. 數字抽取
text = '北京2019口號富強'

regex = '[0-9]'

number = re.findall(regex, text)

print(number)

['2', '0', '1', '9']

基於模式發現的資訊抽取 1

iepad 基於模式發現的資訊抽取 iepad information extraction based on pattern discovery chia hui chang shao chen lui 摘要 關鍵字 資訊抽取,抽取規則,pat樹,多字串對齊 引言 本文將要介紹iepad,乙個應用...

命名實體識別(一) 基於規則的命名實體識別

一 命名實體識別 首先,我們來認識一下命名實體識別的概念。命名實體識別 named entities recognition,ner 研究的命名實體一般分為3大類 實體類 時間類和數字類 和7小類 人名 地名 組織機構名 時間 日期 貨幣和百分比 研究的目的是將語料中的這些命名實體識別出來。主要有三...

實體關係抽取的現狀與未來

來到 2019 年的今天,深度學習的諸多侷限性也慢慢得到廣泛認知。對於自然語言處理而言,要做到精細深度的語義理解,單純依靠資料標註與算力投入無法解決本質問題。如果沒有先驗知識的支援,中國的桌球誰都打不過 與 中國的足球誰都打不過 在計算機看來語義上並沒有巨大差異,而實際上兩句中的 打不過 意思正好相...