自然語言處理文字標註工具 Doccano介紹

2021-10-02 17:03:19 字數 560 閱讀 6477

最近公司有專案用到了自然語言處理技術,利用google 發布的bert框架和tensorflow,我們可以快速對模型進行訓練與發布。但是在這個過程中,有一項看起來「技術含量稍低」但卻非常重要的工作卻不太容易實現,那就是文字標註了。

為了解決文字標註的問題,我先在網上搜尋了一輪,發現市場上有一些(不多)文字標註類產品,例如tagtog/lighttag。但是這類產品一來需要收費,二來只能做名字分類、命名實體識別類任務的標註,因此並不太適合我們使用。

後來在github上找到doccano專案。

doccano是一款開源的自然語言標註工具,已內建了

文字分類

語句間關係

序列標註

等標註功能。

前端:vue.js+nuxt.js+vuetify.js

後端:django

資料庫:postgresql+sqlite

本地部署 or docker

後面有時間會再詳細介紹我們針對三元組標的開發

自然語言處理(1) 詞彙標註

如何進行詞彙標註呢?首先進行資料預處理,例如如果給定的是句子,先要對句子進行分割 最簡單的標註器,可以給定詞彙使用得最頻繁的詞性作為標註器中該詞彙的詞性,但是由於詞彙存在二義性,使得這種標註準確度受限,通過上下文語境,可以在一定程度上解決這個問題,可以採用n gram標註器,此外,brill標註器具...

自然語言處理之詞性標註

詞性標註作為nlp領域的一項基本任務,其與分詞任務同等重要,是很多任務的基礎,比如句法分析,命名實體識別等。命名實體識別在一定程度上也屬於標註任務,不過,難度相比一般的詞性標註而言,上公升了不少。對於詞性標註而言,不論是中文還是英文,其難點在於對於不同的語境,詞性的多變化 另一方面,隨著社會的發展,...

自然語言處理 詞性標註(北大,賓州)

詞性標註在中文領域暫無統一的標註標準,最常見較為主流的是北大和賓州詞性標註集。詞性編碼 詞性名稱 註解ag 形語素形容詞語素。形容詞 為a,語素 為g前面置以a a形容詞 取英語形容詞adjective的第1個字母 ad副形詞 直接作狀語的形容詞。形容詞 a和副詞 d並在一起 an名形詞 具有名詞功...