基於規則的常用實體資訊抽取

1. 文字中url位址抽取

regex = "(http[s]?://(?:[a-za-z]|[0-9]|[$-_@.&+]|[!*,]|(?:%[0-9a-fa-f][0-9a-fa-f]))+)|([a-za-z]+.\w+\.+[a-za-z0-9\/_]+)"
url = re.findall(regex, text)
print(url)
"""[('', '')]
"""

2. email 位址抽取

regex = "([a-za-z0-9_.+-]+@[a-za-z0-9-]+\.[a-za-z0-9-.]+)"
text = "我的郵箱是[email protected]"
email = re.findall(regex, text)
print(email)
「」「['[email protected]']
」「」

3. 身份證號碼抽取

regex = "\d[\d|x|x]"
text = "我的身份證號碼是352221199604050372"
idnumber = re.findall(regex, text)
print(idnumber)
「」「['352221199604050372']
」「」

4. ip位址抽取

regex = "(?:(?:[0,1]?\d?\d|2[0-4]\d|25[0-5])\.)(?:[0,1]?\d?\d|2[0-4]\d|25[0-5])"
text = '我的ip是127.0.0.1'
ip = re.findall(regex, text)
print(ip)
"""['127.0.0.1']
"""

5. **號碼抽取

regex = "1[34578]\d"
text = "我的手機號是18896827613"
phonenumber = re.findall(regex, text)
print(phonenumber)
"""['18896827613']
"""

6. 中文資訊抽取

import re
regex = '[\u4e00-\u9fa5]'
text = '我是wo shi 中國人 zhong guo ren'
ch_character = re.findall(regex, text)
print(ch_character)
"""['我', '是', '中', '國', '人']

7. 英文資訊抽取

text = '我是wo shi 中國人 zhong guo ren'
regex = '[a-za-z]'
en_character = re.findall(regex, text)
print(en_character)
['w', 'o', 's', 'h', 'i', 'z', 'h', 'o', 'n', 'g', 'g', 'u', 'o', 'r', 'e', 'n']

8. 數字抽取

text = '北京2019口號富強'
regex = '[0-9]'
number = re.findall(regex, text)
print(number)
['2', '0', '1', '9']

基於模式發現的資訊抽取 1

iepad 基於模式發現的資訊抽取 iepad information extraction based on pattern discovery chia hui chang shao chen lui 摘要關鍵字資訊抽取，抽取規則，pat樹，多字串對齊引言本文將要介紹iepad，乙個應用...

命名實體識別（一）基於規則的命名實體識別

一命名實體識別首先，我們來認識一下命名實體識別的概念。命名實體識別 named entities recognition,ner 研究的命名實體一般分為3大類實體類時間類和數字類和7小類人名地名組織機構名時間日期貨幣和百分比研究的目的是將語料中的這些命名實體識別出來。主要有三...

實體關係抽取的現狀與未來

來到 2019 年的今天，深度學習的諸多侷限性也慢慢得到廣泛認知。對於自然語言處理而言，要做到精細深度的語義理解，單純依靠資料標註與算力投入無法解決本質問題。如果沒有先驗知識的支援，中國的桌球誰都打不過與中國的足球誰都打不過在計算機看來語義上並沒有巨大差異，而實際上兩句中的打不過意思正好相...

基於規則的常用實體資訊抽取

基於模式發現的資訊抽取 1

命名實體識別（一） 基於規則的命名實體識別

實體關係抽取的現狀與未來

相關推薦

命名實體識別（一）基於規則的命名實體識別