NLP專業術語

hyper-parameters：在訓練模型時，有些引數是需要手動設定的，每個引數有乙個可選的範圍或者列表可供訓練，可以呼叫sklearn的gridsearchcv函式來自動統計搜尋。

development set：在*****中也簡寫成dev。一般在訓練模型時需要用到交叉驗證，這部分用來交叉驗證訓練的樣本成為dev set

交叉驗證：在統計模型的**準確率時，一般將樣本分成10份，其中乙份用作測試集合，另外9份作為訓練集合；這樣的組合有10種，每一種組合都對應乙個準確率，最終的準確率是10個準確率的平均值。也可通過sklearn的gridsearchcv函式實現。傳入乙個cv值就代表將資料分為幾份。

evaluation set：訓練完後，用來驗證模型的樣本集合。

bio scheme：在aspect-extract裡「b-term」indicates thestart of an aspect term, 「i-term」 indicates the continuation of an aspect term, and 「o」indicates not an aspect term.

向量的距離：兩個向量a,b的距離為|a-b|,向量的長度為向量裡的每個元素平方和開根號。

the brown clustering

可用的工具為

假設我們現在有乙個分類器，可以把每個詞分配到乙個類裡面，一共有k個類：

1 到wt

為輸入文字中的詞序列，v是所有詞組成的列表.第乙個概率公式中使用到了 p(

w2|w

1)=e

(c2|

c1)×

p(w2

|c2)

後面兩個量在一次分類結束後可以從文字中統計得出.如何評價乙個分類結果的優越是通過最大化下面的式子：

′)是指兩個連續的詞相應的類別，這些量都是可以從結果中統計出來的。分別如下：

′)表示所有兩個連著的詞的數量。

演算法操作流程如下：輸入為乙個文字，輸出為文字中每個詞的bit string. 假如取bit string中的前n位，則只考慮2的n次方個分類。

假如分類總數為m，比如m=1000，我們按照詞彙出現的頻率對其進行排序然後把頻率最高的m個詞各自分到乙個類中，對於剩下的|v|-m個詞進行如下迴圈：

1.找出剩下詞中頻率最高的乙個詞作為第m+1個詞，

2.從這m+1個類中選擇最好的兩個詞合併為乙個類，合併要能最大程度增加quality(c)。下面會具體講到quality(c)的含義。

最後我們剩下m個類，然後我們再做m-1詞合併，這樣就得到了一顆完整的樹。

class imbalance problem:

參考就是在訓練集合中，不同類別的數量相差很大。

semantic role labeling: 又稱淺層語義分析(shallow semantic parsing),指的是分析句子的論元結構,即標記出句子中某個動詞的所有論元,屬於語義分析任務。參考

隨機梯度下降（stochastic gradient descent）和批量梯度下降（batch gradient descent ）的公式對比、實現對比

詞幹提取（stemming）和詞形還原（lemmatization）:

1、詞形還原（lemmatization），是把衍生詞彙還原為一般形式（能表達完整語義）

2、而詞幹提取（stemming）是抽取詞的詞幹或詞根形式（不一定能夠表達完整語義）。

NLP專業術語

oracle專業術語

EDA專業術語

CS專業術語

NLP專業術語

oracle專業術語

EDA專業術語

CS專業術語

相關推薦