語言模型 總結)

2022-06-06 19:45:10 字數 1117 閱讀 1874

主要總結的內容:n元語法的基本概念

訓練語料:用於構建語言模型的文字。(對於n元語法模型,使用的訓練語料的規模一般要有幾百萬個詞)

對於n>2的n元語法模型,條件概率中要考慮前面的n-1個詞的概率。   

句子s中包含l個基元(「基元」可以是字、詞、短語等,在這裡是「詞」),  句子s=w1*w2*w3****wl , 其中

表示詞,約定

到為,    取

為,     把

稱為的歷史。   

用於估計概率

的方法稱為最大似然估計(maximum likelihood estimation, mle)。

等式為:

(1-2)

注意:求和表示式

等於計算歷史

的數目,兩種書寫方式等同。

若(1-2)式中,n=2即二元語法模型,用

表示二元語法

在給定文字中的出現次數,

(1-2)可寫為:

模型語言 介面模型語言

介面模型可以分為三個層次 意圖 功能層,表現抽象層,表現實現層 意圖 功能層 職責 表達了介面的意圖,即這個 或若干個 頁面完成什麼意圖,在完成這個意圖的過程中,最終得出 頁面與頁面之間的關係,包括流向和資料的傳遞 每個頁面中,做什麼事,其中涉及哪些概念,概念之間的關係,以及概念相關的操作 表現抽象...

Spark 模型總結

註明 以及相關資料均來自scalable machine learning from berkelyx,只是個人總結使用,侵權即刪 mr的價值體現在對大資料集的分布式處理上。如下面的圖例 來自scalable machine learning from berkelyx 將大規模的文件先分開成不同的...

IOCP模型總結

呼叫的步驟如下 抽象出乙個完成埠大概的處理流程 1 建立乙個完成埠。2 建立乙個執行緒a。3 a執行緒迴圈呼叫getqueuedcompletionstatus 函式來得到io操作結果,這個函式是個阻塞函式。4 主線程迴圈裡呼叫accept等待客戶端連線上來。5 主線程裡accept返回新連線建立以...