中文標準標註語料的標註中的幾個問題

想讓機器能夠跟人一些樣非常智慧型地處理自然語言，一直是我們的夢想。實現這個理想涉及到很多領域的技術，不管如何設計，自然語言處理（nlp）技術是必備的一環。

而自然語言處理中，想要訓練乙個好的模型，語料是繞不過去的門檻。沒有語料，**來的模型？而且語料標註規則是否統

一、自洽是訓練自動處理模型的關鍵。不管專案大小，擁有相當規模的語料就成了關鍵。

語料從何而來？尋求**商當然是最快最便捷的方法。然而**商的技術、標註管理水平決定了交付語料的質量。雖然代價和風險不小，但仍然很少有人願意花時間自己標註乙份語料。語料的標註涉及到很多問題。中文語料也相對更難一些。

中文標註與其他語言不同，中文詞彙間不存在明顯的間隔指示（類似語言還有很多種），由此產生了很多奇妙的語言現象。所謂『明句讀』就是指學習的時候需要明白如何分句，分詞。不同的切分方法也產生個各種型別的歧義。

如何做好中文語料的標註，是乙個古老且成熟的話題。然而，隨著模型的逐漸發展和成熟，很多基礎的標註方法也還有很多優化空間。對於我們來講，所有的切分、實體識別、事件提取、等等或簡單或複雜的問題都可以轉換為標註問題。

乙個好的標註方法和平台可以讓中文標註更加高效。我們在標註平台的開發和使用過程中，遇到了很多問題，總結如下：

1，標註規範及標籤集的建設。

設計建造一套可以適用於本行業本領域的標籤難度很高。標籤間的自洽，標籤層級等問題，會涉及到標註成本，後期模型訓練模型訓練成本，識別效率等。

標籤設計粗放，標籤集小，標註難度較低，訓練效率高成本低；標籤集大，標註難度高，訓練效率低，標籤記憶成本高，誤標和主觀分類問題多。設計一套完美解決所有問題的標籤難度很高。

2，標註的準確性問題。

標註者（員）對中文標註目標的主觀判斷非常容易干擾結果。

雖然語言是建立在群體共識基礎上的社會現象，但不同的標註人員生活所在族群的文化特點，教育背景，行業知識，行為習慣及認知都會產生對語言的表達方式和理解方式的差異。

再加上其他的環境或者身體狀態干擾所產生的標註錯誤的影響（誤讀，誤寫）

3，標註的一致性問題。

相同的標註者，在不同的狀態下對同一標註任務也能呈現不同的標註結果。綜合各種不同的標註狀態，產生眾多的標註結果時，標註的一致性檢查就相當重要了。

標註的一致性還與標籤集的設計、標註規範相關，標註的一致性影響到語料的標註質量，也影響到識別模型的訓練。

一致性的預警和自動糾正是各個標註平台的關注重點之一。

4，輔助粗標模型的準確性問題。

利用粗標工具對語料進行預標註，然後人工檢查的方法是可以提高標註效率的方式之一。

自動標註的演算法和工具很多，根據不同的應用場景各有長短。

粗標模型輸出的結果如何評價，並標註高風險的標註區間是後期人工檢查的指引和關鍵。不同的平台都有自己的處理方法。

5，標註任務的眾包分配和標註結果評價問題。

在有限的時間內完成大規模的語料標註，首先要考慮的就是任務分配，任務同步，標註結果**和準確性和效率的評價，錯誤回溯機制。乙個好的協作平台，可以將任務無縫的分配給無數多個標註員，並能完成工作實**估，重分配，橫向對比等工作。

6，標註爭議問題。