全球AI挑戰賽 細粒度情感分析賽道

2021-08-31 19:09:29 字數 1646 閱讀 5810

這是我全力參加的第乙個資料模擬賽,成績不談,重在過程。很感謝比賽中幫助我的各位前輩們,寫這個總結的目的主要是為了整理下過去二十多天所跑的思路想法,方便以後查閱,如有錯誤,希望大家能指正。

首先是標點符號啥的是否要去的問題,在這個比賽中,我所做的實驗中不去標點要比去標點效果要差一點點,大概是1乙個百分比點,用自向量進行的測試 , 去除標點程式

去除標點之後就是停用詞的問題了,停用詞的選取對結果的影響很大,網上有很多停用詞庫,一開始我直接copy下來就用了,結果效果很差,對於這個比賽,我在使用bigru進行訓練時,使用較少停用詞或者不用停用詞效果比較好。停用詞去除

處理完上面那兩部之後就要考慮資料不平衡問題,對於這個資料集,我們可以發現label2的0指標,以及label19的-2指標很難學到。通過網上查閱資料,對於nlp資料不平衡方法,主要有以下方法。

上取樣和下取樣,即較多的類剪去幾份,較少的類多拷貝幾份,比較推薦將較少的類多拷貝幾份,因為這樣不會減少訓練資料集,這個的確在validation的時候會體現出來,但是在提交的時候沒有很大的提公升,不知道是不是我實驗次數太少的緣故

focal loss 在訓練時候改變loss函式, 這個嘗試後對於這次比賽沒有太大的提公升。focal loss keras

以同義詞替換來增加資料比較少的類,較之上取樣效果會好一年(to do)

以句子為單位來隨機打亂順序(to do )

資料增強方法

在這次比賽中,我們主要採用的就是將val集和自己模型**出來的test集都丟入到訓練集中再去做訓練,在val集上效果很突出,高出了將近兩個百分點,但是提交上去之後並沒有太大的提公升,下次再進行相關比賽的時候會直接考慮kv(即將所有資料分成k份,k-1份訓練,1份驗證,同樣的模型跑k次),以前一直以為k折一般都在機器學習中用,即使是深度學習也只是用來調參,沒想到還能這麼用。。。。。

上面提到的不平衡也是一種資料增強

將中文翻譯成英文,再翻譯成中文,以此來增加資料集

置換句子順序來擴充訓練集

embedding技巧

向量主要分為字向量和詞向量,訓練演算法有fasttext,word2vec,glove,字向量比詞向量訓練的要快,並且簡單一些,word2vec比glove訓練時間要長一些。(訓練程式)[

在這個比賽中我主要嘗試了下word2vec的字向量和詞向量,結果顯示字向量會比詞向量f1高出大約乙個百分點。

筆畫向量,有人說這個效果很比前面的好一些(to do)

融合(主要都是加權融合)

glove,word2vec, fasttext訓練的融合下

利用cv將不同訓練集訓練出來的模型融合

單模型和多模型融合\

模型

模型我主要看的是比賽中大佬開源的模型,

1.多模bigru

2. 單模bigru

3. 多模capsule

4. 單模capsule

5. 達觀top1 hybrid

6. **

比賽中的一些資源

![picture]

以後可以照著這張來考慮模型搭建,當然,現在又出了乙個bert,這個有機會也是會接觸的。

天池FashionAI全球挑戰賽小小嘗試

前些天從實驗室了解到天池的fashionai全球挑戰賽,題目和資料都挺有意思,於是花了點時間稍微嘗試了下。目前比賽還在初賽階段,題目有兩個,分別是服裝屬性標籤識別和服飾關鍵點定位。服裝屬性標籤識別是指識別出領 袖 衣 裙 褲等部位的設計屬性,對應多個多分類問題,例如以下的例子。服飾關鍵點定位是指定位...

2016華為挑戰賽 尋路 賽題分析

題意 在有向圖中,給定起點和終點,求經過所有必經點集合的最短路徑。圖中所有的點最多只能經過一次 限制 點數 600,必經點數 50,每個結點的最大出度為8 這是乙個np問題,是哈密頓迴路和tsp問題的變種。分析 對於這個問題最直接的想法就是採用深度優先暴力搜尋,暴力搜尋演算法的時間複雜度太大 2 n...

方言種類識別AI挑戰賽 官方原始碼測試

平台 ubuntu17 工具 docker step1 安裝docker step 2 此過程所需時間較長 step3 在本地建立 dataset inference 目錄 aichallenge 中的train解壓在 infererce目錄 評測目錄結構 dataset 測試資料目錄,評測 必須遍...