自然語言處理如何入門

ps：筆者會持續更新~

俗話說得好：

做research或者學習某個技能最重要的是要對自己的research要非常熟悉（3mins讓別人聽懂你做的這玩意兒是個啥，contribution在**，讓別人覺得你做的東西有意義）

自然語言包括許多分支，主要有：

機器翻譯、自動文摘、資訊檢索、文件分類、問答系統、資訊過濾、資訊抽取、文字挖掘、語音識別等。

其中很多分支都是相互交叉的，大家可以根據自己的興趣專攻某個領域。我的方向則為人工智慧->機器學習->自然語言處理（nlp）->文字挖掘

那麼機器學習在文字挖掘中有哪些應用呢？

（1）話題識別

（2）情感分類

（3）命名實體識別

所謂的命名實體識別是指讓計算機自動識別出自己不認識的詞。比如：「胡歌唱歌非常好聽！」，計算機如何才能知道「胡歌」是乙個詞而不應該是「歌唱」是乙個詞呢？「胡歌」這個詞對於絕大多數詞庫而言都不太可能存在，那麼怎麼能讓機器識別出這個詞並且以最大的可能認為這個詞是正確的呢？我認為在所有的方法中，crf的效果最好，甚至比hmm要好得多。crf又稱條件隨機場，它能夠記錄訓練資料中每個特徵的狀態及其周圍特徵的狀態，當多個特徵同時出現的時候，找出每個特徵在多個特徵組合中最有可能出現的狀態。也就是說，crf以「物以類聚」為基本論點，即大多數詞出現的環境是有規律的，並不是雜亂無章的。選取特徵的時候，以「字」為單位明顯要比以「詞」為單位好很多，因為命名實體的詞是以字為單位才能理解的，比如「陳小春」，我們是以「陳/小/春」的意思來理解的，而不是「陳/小春」或者「陳小/春」。

（4）推薦系統

目前文字挖掘的主要研究領域有：文字結構分析、文字摘要、文字分類、文字聚類、文字關聯分析、分布分析和趨勢**等。

下面來說一說學習人工智慧->機器學習->自然語言處理（nlp）->文字挖掘都需要哪些知識儲備：

這裡不僅僅是文字挖掘方向，整個nlp領域內其實都是適用的，只不過某個特殊領域會有細微的技術差別，但整體入門，還無需那麼深入嘞~

自然語言處理如何入門

如何入門自然語言處理

自然語言處理入門

自然語言處理

自然語言處理如何入門

如何入門自然語言處理

自然語言處理入門

自然語言處理

相關推薦