NLP實踐系列 2 特徵提取

2021-09-11 23:47:34 字數 1576 閱讀 9860

自然語言處理中,特徵提取是十分重要的一環,而提取特徵,主要是提取單詞的特徵,比如讀音,和語義。這就涉及到了分詞的問題。

​ 分詞指的是將乙個單詞序列切分成乙個乙個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。

現有的分詞方法可分為三大類:基於字串匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法。

1.2.1 基於字串匹配的分詞方法

​ 基於字串匹配的分詞方法又稱機械分詞方法,它是按照一定的策略將待分析的漢字串與乙個「充分大的」機器詞典中的詞條進行配,若在詞典中找到某個字串,則匹配成功(識別出乙個詞)。

​ 按照掃瞄方向的不同,字串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標註過程相結合,可以分為單純分詞方法和分詞與詞性標註相結合的一體化方法。常用的字串匹配方法有如下幾種:

(1)正向最大匹配法(從左到右的方向);

(2)逆向最大匹配法(從右到左的方向);

(3)最小切分(每一句中切出的詞數最小);

(4)雙向最大匹配(進行從左到右、從右到左兩次掃瞄)

​ 這類演算法的優點是速度快,時間複雜度可以保持在o(n),實現簡單,效果尚可;但對歧義和未登入詞處理效果不佳。

1.2.2 基於理解的分詞方法

​ 基於理解的分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法資訊和語義資訊來處理歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義資訊來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和資訊。由於漢語語言知識的籠統、複雜性,難以將各種語言資訊組織成機器可直接讀取的形式,因此目前基於理解的分詞系統還處在試驗階段。

1.2.3 基於統計的分詞方法

​ 基於統計的分詞方法是在給定大量已經分詞的文字的前提下,利用統計機器學習模型學習詞語切分的規律(稱為訓練),從而實現對未知文字的切分。例如最大概率分詞方法和最大熵分詞方法等。隨著大規模語料庫的建立,統計機器學習方法的研究和發展,基於統計的中文分詞方法漸漸成為了主流方法主要的統計模型有:n元文法模型(n-gram),隱馬爾可夫模型(hidden markov model ,hmm),最大熵模型(me),條件隨機場模型(conditional random fields,crf)等。

​ 在實際的應用中,基於統計的分詞系統都需要使用分詞詞典來進行字串匹配分詞,同時使用統計方法識別一些新詞,即將字串頻率統計和字串匹配結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。

可以利用一下現成的工具類庫進行詞頻的統計,如python中的collections.counter模組。

基於統計的分詞方法中常用的n元文法模型稱為n-gram模型,具體的,一元分詞模型為unigram、二元分詞模型為bigram、三元元分詞模型為trigram。

具體原理分析可看參考文章第二篇,講的很透徹。

步驟有:

分詞(可採用結巴分詞來進行分詞操作,其他庫也可以);去停用詞;構造詞表。

每篇文件的向量化。

nlp實踐task2 特徵提取

1.1 分詞的概念 分詞的正向最大 逆向最大 雙向最大匹配法 所謂詞典正向最大匹配就是將一段字串進行分隔,其中分隔 的長度有限制,然後將分隔的子字串與字典中的詞進行匹配,如果匹配成功則進行下一輪匹配,直到所有字串處理完畢,否則將子字串從末尾去除乙個字,再進行匹配,如此反覆。逆向匹配與此類似。正向最大...

nlp 特徵提取 task2

1.1 分詞的概念 分詞的正向最大 逆向最大 雙向最大匹配法 漢語分詞難點 分詞規範 歧義切分 未登入詞識別。分詞規範 詞這個概念一直是漢語語言學界糾纏不清又揮之不去的問題,也就是說,對於詞的抽象定義 詞是什麼 和詞的具體界定 什麼是詞 迄今拿不出乙個公認的 具有權威性的詞表來。歧義切分 切分歧義是...

NLP基礎 Task2 特徵提取

基本文字處理技能 1.1 分詞的概念 分詞的正向最大 逆向最大 雙向最大匹配法 1.2 詞 字元頻率統計 可以使用python中的collections.counter模組,也可以自己尋找其他好用的庫 概念2.1 語言模型中unigram bigram trigram的概念 2.2 unigram ...