NLP常見問題彙總

2021-09-19 10:10:48 字數 1329 閱讀 4231

q:怎麼標註訓練資料? a:

您需要把您要訓練的資料分為正向和負向的,標註的標準可以按照實際業務場景來判斷。

a. 正向語料:對所描述事物表達肯定、滿意、喜歡等態度。如:這個手機的功能強大,國產機的春天到了!

b. 負向語料:對所描述事物表達否定、不滿、不喜歡等態度。如:超級不耐用,系統也爛,怎麼說呢,反正我是不會再買了!

q:模型訓練需要上傳多少資料? a:

需自定義的語料分為正向語料(positive)和負向語料(negative),分別上傳即可。每行一條資料,每種語料的數量需大於100 條,才可開始訓練。為保證定製化效果,每種訓練語料最好大於1000 條。當然,語料越多,模型的精度會越高。

注:建議您上傳的正負語料的數量比例盡量均衡(1:1)。

q:為什麼不需要上傳中性語料? a:

只上傳正負語料可以讓模型把分類邊界更加明確 。目前來說,中性的標準很難界定,且目前二分類和三分類效果持平,為了不增加使用者標註負擔,暫時不支援三分類定製。我們也在持續迭代更新後端演算法,如果三分類有明顯的增益會另外再開放中性語料訓練,給予使用者更多場景選擇。

q:模型是怎麼進行訓練和自動評估的? a:

情感傾向分析的定製化在技術上的步驟包括4 個階段:1). 資料預處理;2). 資料切分; 3). 特徵提取及格式轉換; 4).訓練、驗證及測試等階段。

其中:資料預處理:包括對配檔案進行檢查、對使用者上傳正負向語料打上標籤、並完成切詞和詞性標註。

資料切分: 先從訓練語料中按模取十分之一的資料作為測試集。測試集用於評估定製化前後的效果;接著對剩下的資料進行打亂,按9:1 的比例切分成訓練集和驗證集;其中,訓練集用於模型的訓練,驗證集用於從已經訓練好的模型中幫您篩選效果最好的模型。

特徵提取和格式轉換:生成訓練詞典,將訓練集、驗證集、測試集轉換成相應的格式,供訓練使用。

訓練、驗證及測試:使用訓練工具進行訓練,從訓練的模型中挑選效果最好的模型,並在測試集上評估定製化前後的準確率。

自動評估:在第2 步的時候自動從訓練資料裡選取十分之一的資料,並在模型訓練完成後自動對模型進行評估,分別評估出模型訓練前後的準確率。

評估結果會包含四列:

l 第1列是使用者原始訓練資料,就是定製化訓練資料切分的時候,按模取1/10 的資料。

l 第2列原始訓練資料的label,使用者上傳的正向語料和負向語料,我們處理的時候會打上label,2表示正向,0 表示負向。

l 第3列是定製化前的通用模型得到的結果:2 表示正向,1 代表中性,0 表示負向。

l 第4列是定製化後的模型得到的結果:2 表示正向,1 代表中性,0 表示負向。

q:模型訓練失敗的常見原因有哪些? a:

a. 編碼錯誤

b. 資料行為空

c. 網路錯誤

Oracle常見問題彙總

1 如果建立了多個oracle例項,那麼訪問em的時候預設訪問的是第乙個例項的,如何訪問第二個呢?看下這個檔案就會明白了 oracle home install portlist.ini enterprise manager console http 埠 shili1 1158 enterprise...

ab常見問題彙總

測試伺服器ab 被測試伺服器apache apache版本2.2.25 問題一 socket too many open files 24 解決 在測試伺服器操作 1 檢視當前系統設定 open files n 1024為1024 root localhost ulimit a core file ...

knn常見問題彙總

knn演算法又稱為k最近鄰 k nearest neighbor class ification 分類演算法。所謂的k最近鄰,就是指最接近的k個鄰居 資料 即每個樣本都可以由它的k個鄰居來表達。knn演算法的核心思想是,在乙個含未知樣本的空間,可以根據離這個樣本最鄰近的k個樣本的資料型別來確定樣本的...