NLP常見問題彙總

q：怎麼標註訓練資料？ a：

您需要把您要訓練的資料分為正向和負向的，標註的標準可以按照實際業務場景來判斷。

a. 正向語料：對所描述事物表達肯定、滿意、喜歡等態度。如：這個手機的功能強大，國產機的春天到了！

b. 負向語料：對所描述事物表達否定、不滿、不喜歡等態度。如：超級不耐用，系統也爛，怎麼說呢，反正我是不會再買了！

q：模型訓練需要上傳多少資料？ a：

需自定義的語料分為正向語料（positive）和負向語料（negative），分別上傳即可。每行一條資料，每種語料的數量需大於100 條，才可開始訓練。為保證定製化效果，每種訓練語料最好大於1000 條。當然，語料越多，模型的精度會越高。

注：建議您上傳的正負語料的數量比例盡量均衡（1：1）。

q：為什麼不需要上傳中性語料？ a：

只上傳正負語料可以讓模型把分類邊界更加明確。目前來說，中性的標準很難界定，且目前二分類和三分類效果持平，為了不增加使用者標註負擔，暫時不支援三分類定製。我們也在持續迭代更新後端演算法，如果三分類有明顯的增益會另外再開放中性語料訓練，給予使用者更多場景選擇。

q：模型是怎麼進行訓練和自動評估的？ a：

情感傾向分析的定製化在技術上的步驟包括4 個階段：1). 資料預處理；2). 資料切分； 3). 特徵提取及格式轉換; 4).訓練、驗證及測試等階段。

其中：資料預處理：包括對配檔案進行檢查、對使用者上傳正負向語料打上標籤、並完成切詞和詞性標註。

資料切分：先從訓練語料中按模取十分之一的資料作為測試集。測試集用於評估定製化前後的效果；接著對剩下的資料進行打亂，按9:1 的比例切分成訓練集和驗證集；其中，訓練集用於模型的訓練，驗證集用於從已經訓練好的模型中幫您篩選效果最好的模型。

特徵提取和格式轉換：生成訓練詞典，將訓練集、驗證集、測試集轉換成相應的格式，供訓練使用。

訓練、驗證及測試：使用訓練工具進行訓練，從訓練的模型中挑選效果最好的模型，並在測試集上評估定製化前後的準確率。

自動評估：在第2 步的時候自動從訓練資料裡選取十分之一的資料，並在模型訓練完成後自動對模型進行評估，分別評估出模型訓練前後的準確率。

評估結果會包含四列：

l 第1列是使用者原始訓練資料，就是定製化訓練資料切分的時候，按模取1/10 的資料。

l 第2列原始訓練資料的label，使用者上傳的正向語料和負向語料，我們處理的時候會打上label，2表示正向，0 表示負向。

l 第3列是定製化前的通用模型得到的結果：2 表示正向，1 代表中性，0 表示負向。

l 第4列是定製化後的模型得到的結果：2 表示正向，1 代表中性，0 表示負向。

q：模型訓練失敗的常見原因有哪些？ a：

a. 編碼錯誤

b. 資料行為空

c. 網路錯誤