NLP實踐系列 2 特徵提取

自然語言處理中，特徵提取是十分重要的一環，而提取特徵，主要是提取單詞的特徵，比如讀音，和語義。這就涉及到了分詞的問題。

分詞指的是將乙個單詞序列切分成乙個乙個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。

現有的分詞方法可分為三大類：基於字串匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法。

1.2.1 基於字串匹配的分詞方法

基於字串匹配的分詞方法又稱機械分詞方法，它是按照一定的策略將待分析的漢字串與乙個「充分大的」機器詞典中的詞條進行配，若在詞典中找到某個字串，則匹配成功（識別出乙個詞）。

按照掃瞄方向的不同，字串匹配分詞方法可以分為正向匹配和逆向匹配；按照不同長度優先匹配的情況，可以分為最大（最長）匹配和最小（最短）匹配；按照是否與詞性標註過程相結合，可以分為單純分詞方法和分詞與詞性標註相結合的一體化方法。常用的字串匹配方法有如下幾種：

（1）正向最大匹配法（從左到右的方向）；

（2）逆向最大匹配法（從右到左的方向）；

（3）最小切分（每一句中切出的詞數最小）；

（4）雙向最大匹配（進行從左到右、從右到左兩次掃瞄）

這類演算法的優點是速度快，時間複雜度可以保持在o（n）,實現簡單，效果尚可；但對歧義和未登入詞處理效果不佳。

1.2.2 基於理解的分詞方法

基於理解的分詞方法是通過讓計算機模擬人對句子的理解，達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析，利用句法資訊和語義資訊來處理歧義現象。它通常包括三個部分：分詞子系統、句法語義子系統、總控部分。在總控部分的協調下，分詞子系統可以獲得有關詞、句子等的句法和語義資訊來對分詞歧義進行判斷，即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和資訊。由於漢語語言知識的籠統、複雜性，難以將各種語言資訊組織成機器可直接讀取的形式，因此目前基於理解的分詞系統還處在試驗階段。

1.2.3 基於統計的分詞方法

基於統計的分詞方法是在給定大量已經分詞的文字的前提下，利用統計機器學習模型學習詞語切分的規律（稱為訓練），從而實現對未知文字的切分。例如最大概率分詞方法和最大熵分詞方法等。隨著大規模語料庫的建立，統計機器學習方法的研究和發展，基於統計的中文分詞方法漸漸成為了主流方法主要的統計模型有：n元文法模型（n-gram），隱馬爾可夫模型（hidden markov model ，hmm），最大熵模型（me），條件隨機場模型（conditional random fields，crf）等。

在實際的應用中，基於統計的分詞系統都需要使用分詞詞典來進行字串匹配分詞，同時使用統計方法識別一些新詞，即將字串頻率統計和字串匹配結合起來，既發揮匹配分詞切分速度快、效率高的特點，又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。

可以利用一下現成的工具類庫進行詞頻的統計，如python中的collections.counter模組。

基於統計的分詞方法中常用的n元文法模型稱為n-gram模型，具體的，一元分詞模型為unigram、二元分詞模型為bigram、三元元分詞模型為trigram。

具體原理分析可看參考文章第二篇，講的很透徹。

步驟有：

分詞（可採用結巴分詞來進行分詞操作，其他庫也可以）；去停用詞；構造詞表。

每篇文件的向量化。

NLP實踐系列 2 特徵提取

nlp實踐task2 特徵提取

nlp 特徵提取 task2

NLP基礎 Task2 特徵提取

NLP實踐系列 2 特徵提取

nlp實踐task2 特徵提取

nlp 特徵提取 task2

NLP基礎 Task2 特徵提取

相關推薦