機器學習專案（二）人工智慧輔助資訊抽取（二）

字串搜尋演算法，用於在輸入的一串字串中匹配有限組"字典"中的子串。它與普通字串匹配的不同點在於同時與所有字典串進行匹配。演算法均攤情況下具有近似於線性的時間複雜度，約為字串的長度加所有匹配的數量

kmp演算法核心為部分匹配表，記錄字串中的字首集合與字尾集合的交集中最長元素的長度。根據部分匹配表，可避免重複檢查先前匹配的元素。

trie,又稱字首樹或字典樹，是一種有序樹，用於儲存關聯陣列，其中的鍵通常是字串。乙個節點的所有子孫都有相同的字首，也就是這個節點對應的字串，而根節點對應空字串。一般情況下，不是所有的節點都有對應的值，只有葉子節點和部分內部節點所對應的鍵才有相關的值。

依靠構造乙個有限狀態機(類似於在乙個trie樹中新增失配指標)來實現。這些額外的失配指標允許在查詢字串失敗時進行回退(例如設trie樹的單詞cat匹配失敗，但是在trie樹中存在另乙個單詞cart，失配指標就會指向字首ca)，轉向某字首的其他分支，免於重複匹配字首，提高演算法效率。

import ahocorasick as ah
a = ah.automaton(
)words =
['口服'
,'注射'
,'皮下注射'
,'腹腔注射'
,'靜脈'
,'靜脈注射'
,'靜滴'
,'csii'
]for idx , key in
enumerate
(words)
: a.add_word(key,
(idx,key)
)a.make_automaton(
)haystack =
'胰島素強化**方案包括基礎-餐食胰島素**方案[多次皮下注射胰島素或持續皮下胰島素輸注(csii)]或預混胰島素每天注射'
for end_index ,
(insert_order,original_value)
in a.
iter
(haystack)
: start_index = end_index -
len(original_value)+1
print
(start_index,end_index+
1,original_value)
assert haystack[start_index:start_index+
len(original_value)
]== original_value

原理：nfa自動機(non deterministic finite automaton 不確定型有窮自動機)。nfa是以正規表示式為基準去匹配的，發現不匹配了。此時就會發生回溯

正則裡面nfa引擎實際上就是在語法解析的時候，構造出的乙個有向圖，然後通過深度的方式，去一條路徑一條路徑的遞迴嘗試。

優點功能強大，可以拿到匹配的上下文資訊，支援各種斷言捕獲組環視之類的功能

缺點對開發正則功底要求較高，需要注意回溯造成的效能問題

機器學習專案（二）人工智慧輔助資訊抽取（二）

學習觀（二）人工智慧入門理解

1 2人工智慧與機器學習

01 人工智慧與機器學習概念介紹

機器學習專案（二） 人工智慧輔助資訊抽取（二）

學習觀（二） 人工智慧入門理解

1 2人工智慧與機器學習

01 人工智慧與機器學習概念介紹

相關推薦

機器學習專案（二）人工智慧輔助資訊抽取（二）

學習觀（二）人工智慧入門理解