AI NLP NLU 資料大亂燉

如何理解最小二乘法？（被人鄙視了不知道什麼叫統計的基本原理？這篇文章寫的真好通俗易懂）

python安裝目錄結構詳解（windows下用python還是需要熟悉下環境的）

python+wordcloud+jieba+docx生成中文詞云和詞頻統計（這個挺好玩的）

關於理解人跟機器的對話

speech act theory言語行為理論

austin認為，說任何一句話時，人們同時要完成三種行為：言內行為、言外行為、言後行為（顧芸英，1986）

austin把言外行為分為五類：即，判定語（verdictives）、裁定語（exercitives）、承諾語（commissives）、闡述語（expositives）和行為語（behabitives）。後來，searle批評了這一分類，把言外行為分為「新五類」：即，斷言（assertives）、指令（directives）、承諾語（commissives）、表情語（expressives）和宣布（declarations）。

理解人類提問

英特調查後發現對於中文問題來說，無非可以分成以下兩類：疑問句和反問句。對於反問句當然沒什麼好說的，我們來重點看看疑問句。可以分為是非問句、正反問句、特指問句、選擇問句，其中特指問句又可以分為人、原因、地點、時間、意見、數量、方式和其餘的實體。

對於問題來說，人類也需要首先對句子做乙個判斷，拿特指問題來說，需要判斷到底是問什麼？接著將每個問題做乙個初步的定位，縮小回答時的搜尋範圍，最後從知識體系和場景中取得答案。

nlu 的難點主要在語料的準備，接下來就自己了解到的經驗進行一一記錄。

每個意圖要有關鍵字，意圖中的每句都要有關鍵字。

每個關鍵字要擴充20左右的語句。

所有語句之間要夠發散、離散（即除關鍵字外盡量不用重複的詞語）。

除關鍵字之外，所有的詞字，在每個意圖中重複率要低、要低，最好不重複。

整個檔案中，除關鍵字之外，所有的詞字，重複率要低、要低，最好不重複。

上面兩條造成的現象就是,你我他啊是的嗎之類的詞都要去掉（語義可以稍微不通順，可接受）。

句式相同，引數不同的意圖進行合併，通過後期校驗引數進行分辨。

意圖識別的準確度跟兩方面有關

關鍵字在當前意圖**現的頻率

關鍵字在整個檔案**現的頻率

原創 | 工業場景下，問答機械人如何陪聊？

nlu(natural language understanding)是採用nlp(natural language processing)技術對使用者問題進行意圖識別和實體抽取。意圖識別是要弄清楚使用者到底要問什麼，如是查詢故障發生次數還是故障原因；實體抽取是這個意圖下的具體槽位值。比如問句是「上個月發電機故障次數是多少」，意圖就是「查詢故障次數」，故障名稱的槽位值是「發電機故障」，時間的槽位值是「上個月」。意圖識別可以描述成為分類問題，使用機器學習的方法來解決，如svm、fasttext；實體抽取使用nlp裡的ner（命名實體識別）相關技術解決。

rasa使用指南01（想辦法先做乙個機械人出來？）

自然語言處理之序列標註問題（用乙個機器可以理解的辦法來處理問題）

一文詳解深度學習在命名實體識別ner中的應用（到底是先分詞還是先做ner糾結了很久，看完了不糾結了）

ner概念系統梳理

命名實體識別主要分類，一般包括 3 大類（實體類、時間類和數字類）和 7 小類（人名、地名、組織名、機構名、時間、日期、貨幣和百分比）。但隨著 nlp 任務的不斷擴充，在特定領域中會出現特定的類別，比如醫藥領域中，藥名、疾病等類別。

從材料碩士到演算法工程師的轉行之路（這個哥們看起來很牛啊，向他學習，人家很客氣，也加了wx）

AI NLP NLU 資料大亂燉

NOIP模擬顏料大亂鬥

BZOJ5085 最大亂搞

堆的應用之海量資料處理（紅包大亂戰）

AI NLP NLU 資料大亂燉

NOIP模擬 顏料大亂鬥

BZOJ5085 最大 亂搞

堆的應用之海量資料處理（紅包大亂戰）

相關推薦

NOIP模擬顏料大亂鬥

BZOJ5085 最大亂搞