講人話系列 企業中的文字分類

2021-09-18 06:55:43 字數 929 閱讀 1658

新型深度模型天天刷屏刷榜,模型日新月異,做演算法的不免感到焦慮。發現自己看**的速度已經趕不上他們**文的速度了。在此啟發下,想寫一寫自己工作的思考,面對乙個領域,我們如何進行技術選型,這個系列我會結合著自己的工作,幫助大家選擇乙個好的baseline模型。可能這也是我的困惑,大家模型介紹的歡天喜地,並沒有指出哪些適合做baseline,到頭還得自己乙個乙個試,希望我的經驗能幫助大家節省一點點時間。我就很滿足了。技術更新太快,自己並不是專家,您看到這篇文章的時候,可能已經有點過時,擇優享用吧。

技術側劃分

**label:乙個、多個(同時滿足)

label數量

技術價值:該技術非常的實用,一方面可以幫助公司節省一些人力標註成本,另一方面,可以賦能業務,讓業務做一些之前無法做到的分析、運營。

本文不一一對比各個模型的原理,參看用深度學習(cnn rnn attention)解決大規模文字分類問題 - 綜述和實踐即可。這裡我一句話介紹一下模型的區別。

一句話模型總結:

好了,模型介紹到此結束。

這裡,我來說一下,具體應用場景下我們一般關注什麼樣的問題。以及我們有哪些解決對策。個人做的應用偏向於短文本,所以trick也會偏向短文本。

思考1:訓練資料量、標籤量。

業務標註:人工標註,需要一定的人力成本,可以提供好用的工具幫助業務快速標註。

無標註抽取:通常我們有大量無標註的資料,這些資料是真實的,所以要好好利用這部分,正則、規則、模型預訓練抽取都是能有非常大提公升的地方。

思考3:評估與調整

作為一項基礎技術,文字分類服務很多業務。人力有限的情況下,很難做一些定製化的優化。所以模型的更新一定是有較大提公升的,即在效能無影響的情況下,所有場景都能比較穩步提公升。當然這並不容易。但是可以嘗試做出一些新東西,更貼近業務或者其他更易用的模型。

模型提公升點:

流程提公升點:資料為王的模型下,如何讓打標的人更快的達標也是個技術活

FastText文字分類中的n grams

fasttext是facebook tomas mikolov提出的,也是在其word2vec的cbow模型的衍生物,該模型僅用乙個隱層 僅僅求了平均,並未使用啟用函式的非線性變換,故在word2vec模型中其實被叫做投影層project layer 乙個分層的softmax,可以媲美深度神經網路,...

高效的文字分類

文字分類任務是自然語言處理中重要的任務之一,近來,神經網路的使用變得更為普遍,神經網路在文字分類任務中表現更好,但是在訓練和測試時間比較慢,限制了在大型語料庫中的使用。與此同時,線性分類器在文字分類器中被認為是一種很好的baseline,儘管他們很簡單,但當正確的特徵被使用時,經常能夠得到很好的表現...

文字分類任務中tf idf的理解

維基百科給的定義式 tf idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。tf idf加權的各種形式常被搜尋引擎應用,作為檔案與使用者查詢之間相關程度的度量或評級。...