2 NLP 前置技術解析

2021-09-06 07:57:53 字數 588 閱讀 9814

nlp 的前置技術

很多的資料科學庫、框架、模組以及工具箱可以有效地實現 nlp 大部分常見的演算法與技術

需要掌握 numpy、正規表示式

python 處理 nlp 的優勢

正規表示式是一種定義了搜尋模式的特徵序列,主要是用於字串的模式匹配,或是字元的匹配。

nlp 通常所需要處理的語料,一部分來自於web 網頁的資訊抽取,一部分來自於文字格式的文件

兩種語料的特點:

web 網頁具有很強的開發價值,具有時效性強、資訊量大、結構穩定、價值高等特點

文字格式的文件多**於人為編寫或系統生成,其中包含了非結構化文字、半結構化文字、結構化文字

正規表示式的作用:

將這些文件內容從非結構化轉為結構化,以方便後續的文字挖掘

去雜訊(url 或鏈結、語氣助詞、標點符號等)

2 NLP之語料庫

語料庫 存放語言材料的倉庫。現代的語料庫是指存放在計算機裡的原始語料文字或經過加工後帶有語言學資訊標註的語料文字。基本認識 三點 語料庫樣例 人們 n 將 d 銘 記 v 這 r 一 m 時刻 n w 年 t 月 t 日 t 時 t 分 t w 詞性標註的符號 語料庫的分類 1 付費語料和免費語料 ...

NLP前置技術 Numpy的實現

numpy包成了python科學計算的擴充套件包,在很多多維陣列 大型陣列numpy的使用時最多的。對於numpy包的使用,最好的了解方式就是通過官網了,1 在numpy裡,ndarray他是n demensional array英文的縮寫。他是一種由同質元素組成的多維陣列。元素數量是事先準備好的,...

雲計算技術解析 Amazon EC2 的幕後

今天新聞裡報導說,vmware 拆資 10 億 5 千萬美元,收購 nicira。nicira 是一家創業公司,專注於 網路虛擬化 注 主打產品是 vswitch。今天新聞裡報導說,vmware 拆資 10 億 5 千萬美元,收購 nicira。nicira 是一家創業公司,專注於網路虛擬化,主打產...