講人話系列企業中的文字分類

新型深度模型天天刷屏刷榜，模型日新月異，做演算法的不免感到焦慮。發現自己看**的速度已經趕不上他們**文的速度了。在此啟發下，想寫一寫自己工作的思考，面對乙個領域，我們如何進行技術選型，這個系列我會結合著自己的工作，幫助大家選擇乙個好的baseline模型。可能這也是我的困惑，大家模型介紹的歡天喜地，並沒有指出哪些適合做baseline，到頭還得自己乙個乙個試，希望我的經驗能幫助大家節省一點點時間。我就很滿足了。技術更新太快，自己並不是專家，您看到這篇文章的時候，可能已經有點過時，擇優享用吧。

技術側劃分

**label:乙個、多個（同時滿足）

label數量

技術價值：該技術非常的實用，一方面可以幫助公司節省一些人力標註成本，另一方面，可以賦能業務，讓業務做一些之前無法做到的分析、運營。

本文不一一對比各個模型的原理，參看用深度學習（cnn rnn attention）解決大規模文字分類問題 - 綜述和實踐即可。這裡我一句話介紹一下模型的區別。

一句話模型總結:

好了，模型介紹到此結束。

這裡，我來說一下，具體應用場景下我們一般關注什麼樣的問題。以及我們有哪些解決對策。個人做的應用偏向於短文本，所以trick也會偏向短文本。

思考1：訓練資料量、標籤量。

業務標註：人工標註，需要一定的人力成本，可以提供好用的工具幫助業務快速標註。

無標註抽取：通常我們有大量無標註的資料，這些資料是真實的，所以要好好利用這部分，正則、規則、模型預訓練抽取都是能有非常大提公升的地方。

思考3：評估與調整

作為一項基礎技術，文字分類服務很多業務。人力有限的情況下，很難做一些定製化的優化。所以模型的更新一定是有較大提公升的，即在效能無影響的情況下，所有場景都能比較穩步提公升。當然這並不容易。但是可以嘗試做出一些新東西，更貼近業務或者其他更易用的模型。

模型提公升點：

流程提公升點：資料為王的模型下，如何讓打標的人更快的達標也是個技術活

講人話系列企業中的文字分類

FastText文字分類中的n grams

高效的文字分類

文字分類任務中tf idf的理解

講人話系列 企業中的文字分類

FastText文字分類中的n grams

高效的文字分類

文字分類任務中tf idf的理解

相關推薦

講人話系列企業中的文字分類