AI NLP NLU 資料大亂燉

2021-09-24 21:20:53 字數 1892 閱讀 1744

如何理解最小二乘法?(被人鄙視了不知道什麼叫統計的基本原理?這篇文章寫的真好通俗易懂)

python安裝目錄結構詳解(windows下用python還是需要熟悉下環境的)

python+wordcloud+jieba+docx生成中文詞云和詞頻統計(這個挺好玩的)

關於理解人跟機器的對話

speech act theory言語行為理論

austin認為,說任何一句話時,人們同時要完成三種行為:言內行為、言外行為、言後行為(顧芸英,1986)

austin把言外行為分為五類:即,判定語(verdictives)、裁定語(exercitives)、承諾語(commissives)、闡述語(expositives)和行為語(behabitives)。後來,searle批評了這一分類,把言外行為分為「新五類」:即,斷言(assertives)、指令(directives)、承諾語(commissives)、表情語(expressives)和宣布(declarations)。

理解人類提問

英特調查後發現對於中文問題來說,無非可以分成以下兩類:疑問句和反問句。對於反問句當然沒什麼好說的,我們來重點看看疑問句。可以分為是非問句、正反問句、特指問句、選擇問句,其中特指問句又可以分為人、原因、地點、時間、意見、數量、方式和其餘的實體。

對於問題來說,人類也需要首先對句子做乙個判斷,拿特指問題來說,需要判斷到底是問什麼?接著將每個問題做乙個初步的定位,縮小回答時的搜尋範圍,最後從知識體系和場景中取得答案。

nlu 的難點主要在語料的準備, 接下來就自己了解到的經驗進行一一記錄。

每個意圖要有關鍵字,意圖中的每句都要有關鍵字。

每個關鍵字要擴充20左右的語句。

所有語句之間要夠發散、離散(即除關鍵字外盡量不用重複的詞語)。

除關鍵字之外,所有的詞字,在每個意圖中重複率要低、要低,最好不重複。

整個檔案中,除關鍵字之外,所有的詞字,重複率要低、要低,最好不重複。

上面兩條造成的現象就是,你我他啊是的嗎之類的詞都要去掉(語義可以稍微不通順,可接受)。

句式相同,引數不同的意圖進行合併,通過後期校驗引數進行分辨。

意圖識別的準確度跟兩方面有關

關鍵字在當前意圖**現的頻率

關鍵字在整個檔案**現的頻率

原創 | 工業場景下,問答機械人如何陪聊?

nlu(natural language understanding)是採用nlp(natural language processing)技術對使用者問題進行意圖識別和實體抽取。意圖識別是要弄清楚使用者到底要問什麼,如是查詢故障發生次數還是故障原因;實體抽取是這個意圖下的具體槽位值。比如問句是「上個月發電機故障次數是多少」,意圖就是「查詢故障次數」,故障名稱的槽位值是「發電機故障」,時間的槽位值是「上個月」。意圖識別可以描述成為分類問題,使用機器學習的方法來解決,如svm、fasttext;實體抽取使用nlp裡的ner(命名實體識別)相關技術解決。

rasa使用指南01(想辦法先做乙個機械人出來?)

自然語言處理之序列標註問題(用乙個機器可以理解的辦法來處理問題)

一文詳解深度學習在命名實體識別ner中的應用(到底是先分詞還是先做ner糾結了很久,看完了不糾結了)

ner概念系統梳理

命名實體識別主要分類,一般包括 3 大類(實體類、時間類和數字類)和 7 小類(人名、地名、組織名、機構名、時間、日期、貨幣和百分比)。但隨著 nlp 任務的不斷擴充,在特定領域中會出現特定的類別,比如醫藥領域中,藥名、疾病等類別。

從材料碩士到演算法工程師的轉行之路(這個哥們看起來很牛啊,向他學習,人家很客氣,也加了wx)

NOIP模擬 顏料大亂鬥

開始看到前面的題目那麼水,到這題時就開始胡思亂想了,待修改莫隊?樹套樹?30棵線段樹?然後我打了30棵線段樹,常數十分的大啊!超時30分tat。然後旁邊的人把30個顏色的值放到同乙個節點上,然後就對了,常數小而已嘛!雖然兩個方法的時間複雜度理論上是一樣的。其實就是每個節點儲存30個顏色是否出現過,然...

BZOJ5085 最大 亂搞

description 給你乙個n m的矩形,要你找乙個子矩形,價值為左上角左下角右上角右下角這四個數的最小值,要你最大化矩形的價值。sample input 2 21 2 3 4sample output 1bitset 好 n 3信仰ac include include include incl...

堆的應用之海量資料處理(紅包大亂戰)

應用場景 2015年春節期間,a公司的支付軟體某寶和t公司某信紅包大亂戰。春節高峰以後,公司leader要求後台攻城獅對後台的海量的資料進行分析。先要求分析出各地區發紅包最多的前100位使用者。現在知道人最多的s地區大約有100w使用者,要求寫乙個演算法實現。分析 看到這裡,問題可以簡化為求很多個資...