NLP專業術語

2021-07-24 12:43:29 字數 2018 閱讀 8200

hyper-parameters:在訓練模型時,有些引數是需要手動設定的,每個引數有乙個可選的範圍或者列表可供訓練,可以呼叫sklearn的gridsearchcv函式來自動統計搜尋。

development set:在*****中也簡寫成dev。一般在訓練模型時需要用到交叉驗證,這部分用來交叉驗證訓練的樣本成為dev set

交叉驗證:在統計模型的**準確率時,一般將樣本分成10份,其中乙份用作測試集合,另外9份作為訓練集合;這樣的組合有10種,每一種組合都對應乙個準確率,最終的準確率是10個準確率的平均值。也可通過sklearn的gridsearchcv函式實現。傳入乙個cv值就代表將資料分為幾份。

evaluation set:訓練完後,用來驗證模型的樣本集合。

bio scheme:在aspect-extract裡「b-term」indicates thestart of an aspect term, 「i-term」 indicates the continuation of an aspect term, and 「o」indicates not an aspect term.

向量的距離:兩個向量a,b的距離為|a-b|,向量的長度為向量裡的每個元素平方和開根號。

the brown clustering

可用的工具為

假設我們現在有乙個分類器,可以把每個詞分配到乙個類裡面,一共有k個類:

1 到wt

為輸入文字中的詞序列,v是所有詞組成的列表.第乙個概率公式中使用到了 p(

w2|w

1)=e

(c2|

c1)×

p(w2

|c2)

後面兩個量在一次分類結束後可以從文字中統計得出.如何評價乙個分類結果的優越是通過最大化下面的式子:

′)是指兩個連續的詞相應的類別,這些量都是可以從結果中統計出來的。分別如下:

′)表示所有兩個連著的詞的數量。

演算法操作流程如下:輸入為乙個文字,輸出為文字中每個詞的bit string. 假如取bit string中的前n位,則只考慮2的n次方個分類。

假如分類總數為m,比如m=1000,我們按照詞彙出現的頻率對其進行排序然後把頻率最高的m個詞各自分到乙個類中,對於剩下的|v|-m個詞進行如下迴圈:

1.找出剩下詞中頻率最高的乙個詞作為第m+1個詞,

2.從這m+1個類中選擇最好的兩個詞合併為乙個類,合併要能最大程度增加quality(c)。下面會具體講到quality(c)的含義。

最後我們剩下m個類,然後我們再做m-1詞合併,這樣就得到了一顆完整的樹。

class imbalance problem:

參考就是在訓練集合中,不同類別的數量相差很大。

semantic role labeling: 又稱淺層語義分析(shallow semantic parsing),指的是分析句子的論元結構,即標記出句子中某個動詞的所有論元,屬於語義分析任務。參考

隨機梯度下降(stochastic gradient descent)和 批量梯度下降(batch gradient descent )的公式對比、實現對比

詞幹提取(stemming)和詞形還原(lemmatization):

1、詞形還原(lemmatization),是把衍生詞彙還原為一般形式(能表達完整語義)

2、而詞幹提取(stemming)是抽取詞的詞幹或詞根形式(不一定能夠表達完整語義)。

oracle專業術語

entity實體 data 資料 attribute屬性 attribute set實體集 database資料庫 database management system,dbsm資料庫管理系統 information system 資訊系統 relational database managemen...

EDA專業術語

eda 電子設計自動化 eda,electronic design automation hdl 硬體描述語言 hdl,hardware description language vlsi 超大規模積體電路 vlsi,very large scale integration dfm rule 可製造...

CS專業術語

資料是列表時 import csv 導入庫 with open data.csv w as fp writer csv.writer fp,delimiter delimiter只能是乙個位元組的字元 writer.writerow id name age 寫入 writer.writerow 10...