NLP基礎 Task2 特徵提取

2021-09-26 02:55:03 字數 374 閱讀 5537

基本文字處理技能

1.1 分詞的概念(分詞的正向最大、逆向最大、雙向最大匹配法);

1.2 詞、字元頻率統計;(可以使用python中的collections.counter模組,也可以自己尋找其他好用的庫)

概念2.1 語言模型中unigram、bigram、trigram的概念;

2.2 unigram、bigram頻率統計;(可以使用python中的collections.counter模組,也可以自己尋找其他好用的庫)

文字矩陣化:要求採用詞袋模型且是詞級別的矩陣化

步驟有:

3.1 分詞(可採用結巴分詞來進行分詞操作,其他庫也可以);

3.2 去停用詞;構造詞表。

3.3 每篇文件的向量化。

nlp 特徵提取 task2

1.1 分詞的概念 分詞的正向最大 逆向最大 雙向最大匹配法 漢語分詞難點 分詞規範 歧義切分 未登入詞識別。分詞規範 詞這個概念一直是漢語語言學界糾纏不清又揮之不去的問題,也就是說,對於詞的抽象定義 詞是什麼 和詞的具體界定 什麼是詞 迄今拿不出乙個公認的 具有權威性的詞表來。歧義切分 切分歧義是...

nlp實踐task2 特徵提取

1.1 分詞的概念 分詞的正向最大 逆向最大 雙向最大匹配法 所謂詞典正向最大匹配就是將一段字串進行分隔,其中分隔 的長度有限制,然後將分隔的子字串與字典中的詞進行匹配,如果匹配成功則進行下一輪匹配,直到所有字串處理完畢,否則將子字串從末尾去除乙個字,再進行匹配,如此反覆。逆向匹配與此類似。正向最大...

NLP實踐系列 2 特徵提取

自然語言處理中,特徵提取是十分重要的一環,而提取特徵,主要是提取單詞的特徵,比如讀音,和語義。這就涉及到了分詞的問題。分詞指的是將乙個單詞序列切分成乙個乙個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。現有的分詞方法可分為三大類 基於字串匹配的分詞方法 基於理解的分詞方法和基...