kaggle 鳥聲識別競賽學習筆記

2021-10-09 14:16:07 字數 1949 閱讀 3201

優勝解決方案思路分析

自身提公升方向

題外話是次kaggle比賽英文名叫為"cornell birdcall identification",沒有官方中文名稱,大概是鳥聲識別競賽。這是本人第一次的kaggle獎金比賽(除了只抄baseline然後啥都沒幹的比賽 ),也是第一次接觸音訊識別的資料分析競賽。結果只是top15%,不算理想。因此,本文將記錄賽後覆盤優秀解決方案,分析優秀選手的思路和提分技巧,同時理解自身需要提公升的地方。

注意學習筆記,不是賽後講解,所以詳細的比賽規則和資料集的型別等我就不一一詳細論述。

此部分為自己遇上的困難:

按照baseline訓練模型,並加入競賽要求的評判標準改善訓練結果,反而公開排行榜(public leaderboard,下稱lb)分數較低。

聚合不同模型時,結果比單一模型lb分數差

不能靈活修改模型和訓練過程,如:pytorch模型定義格式改為tensorflow的模型定義格式

4.自定義的音訊處理特徵工程效果不明顯

以下為綜合部分top10選手的notebook/kernel後的共同點,為本人的淺見,。

為什麼我先說後處理(post process)呢?是次比賽特別的地方在於**結果需要按場景作調整,如: 標籤為site3 和 標籤為site1和site2的音訊不能作相同的處理,也就是說一般訓練模型標籤音訊型別後,還要作後處理去改善**結果。

舉個例子,乙個比賽的baseline只是用了基於概率總和和鳥聲出現數作後處理,就已經把比賽結束前公開排行榜的分數從0.568提公升到0.585分,比賽結束後分數為0.596,接近top10%(銅牌)的水平。

由此可見,對於我這種小白,除了特徵工程,後處理也是日後競賽要注意的地方。

以下為已公開的優秀kernel裡的模型:

第一名:

『pannsdense121att』 (多個不同加權權重)

第二名:

『resnet50』,『efficientnet-b0』,『efficientnet-b0』,『efficientnet-b0』,『efficientnet-b0』,『resnet50』

第三名:

「resnest50_fast_1s1x64d」,「resnest101」

第六名:

「resnest」(多個不同加權權重),」efficientnet「(多個不同加權權重)

由此可見,即使使用相同的模型,但分開訓練及加權blending後就能提公升**能力。

在是次比賽的討論區中,官方表明別要爬取xeno-canto**的音訊資料。無可否認,能訓練的資料太少,而且private leaderboard公布後,許多選手的排名有變動,有的上公升了500多名,有的下降了70多名,可見結果的測試集分布與訓練集的資料分布不一樣。

日後有機會也會去了解爬蟲,爬蟲有用的資料集作訓練,比用gan生成的靠譜吧。

了解相同型別模型,但不同深度的應用場景和區別

了解如何自定義神經網路結構及每一層的原理

嘗試逐行理解以往相類似競賽的解決方案,並應用在日後競賽中

不要盲目過度訓練baseline,選手放出來的就留一手。

閱讀pytorch和tensorflow開發文件,熟悉整個資料探勘的流程。

推薦電視劇集"黑袍糾察隊",目前到第二季。

可能年紀大了,我厭倦了用魔法對抗魔法的劇情,裡面的除了社會現象的對映,大家去不妨從人物的心理角度去分析,也挺有意思。希望最後不是the boys主角團的普通人在極度憤怒的情況下,發現自己擁有同型別超能力,或者撿到蟲箭(狗頭)。

Kaggle競賽記錄

比賽 planet understanding the amazon from space這個比賽是乙個遙感影象識別,但是主辦方也提供了jpg,由於對遙感影象識別不熟悉,而且遙感影象資料太大不好處理,所以本次比賽使用的是jpg資料。這個比賽是乙個多標籤的分類問題,一共有17個類別,每張可以有乙個或者...

kaggle競賽入門整理

1 bike sharing demand kaggle 目的 根據日期 時間 天氣 溫度等特徵,自行車的租借量 處理 1 將日期 含年月日時分秒 提取出年,月,星期幾,以及小時 2 season,weather都是類別標記的,利用啞變數編碼 演算法模型選取 回歸問題 1 randomforestr...

kaggle三個入門競賽教程

1.titanic 泰坦尼克之災 中文教程 邏輯回歸應用之kaggle泰坦尼克之災 英文教程 an interactive data science tutorial 2.house prices advanced regression techniques 房價 中文教程 kaggle競賽 201...