小樣本資料集介紹

2021-09-29 10:02:25 字數 1545 閱讀 2740

本篇對小樣本學習常用資料集進行介紹,由於本人理解問題,可能還存在誤差。

1、omniglot

相當於1623個類,每類20個樣本。對於one shot來說,support_num_per_class = 1,query_num_per_class = 19。

每個影象都與筆畫資料配對, 座標序列為 [x, y, t][x,y,t], 且時間 (t)(t) 以毫秒為單位。筆畫資料僅在matlab/檔案中可用。

資料集的引用: lake, b. m., salakhutdinov, r., and tenenbaum, j. b. (2015). human-level concept learning through probabilistic program induction.

science, 350(6266), 1332-1338.

omniglot 資料集總共包含 50 個字母。我們通常將這些分成一組包含 30個字母的背景(background)集和一組包含 20 個字母的評估(evaluation)集。

更具挑戰性的表示學習任務是使用較小的背景集 「background small 1」 和 「background small 2」。每乙個都只包含 5 個字母, 更類似於乙個成年人在學習一般的字元時可能遇到的經驗。

#!/usr/bin/env bash

datadir=data/omniglot/data

mkdir -p $datadir

wget -o images_background.zip

wget -o images_evaluation.zip

unzip images_background.zip -d $datadir

unzip images_evaluation.zip -d $datadir

mv $datadir/images_background/* $datadir/

mv $datadir/images_evaluation/* $datadir/

rmdir $datadir/images_background

rmdir $datadir/images_evaluation

2、miniimagenet

miniimagenet取自imagenet中,包含100個類別,每個類別中包含600個樣本資料。其中64個類別資料作為訓練集,16個類別資料作為驗證集,20個類別資料作為測試集。由於類別較少,一般只做5 way的,不做20way的。

其中原型網路方法分別使用30-way的episode對1-shot類和20-way的episode對5-shot的樣本資料進行訓練。在訓練和測試時保持shot數目一致,query查詢點的個數為每個類別15個。

參考文獻:

3、cub

cub一般用於zero shot。

cub資料集包含訓練集包含100個類別,驗證集包含50個類別,測試集包含50個類別。對於312維度的元向量,模型對鳥類的種類、顏色、羽毛等屬性進行編碼得到。

其中原型網路方法訓練episode的類別為50,每個類別的查詢點為10個。

參考文獻:

小樣本點雲深度學習庫 小樣本學習 資料層面的方法

網際網路大資料處理技術與應用 的相關教學資源 網路爬蟲的完整技術體系 我的資料誰做主?充足的標註樣本是保證分類器成功的主要因素,然而現實中由於隱私 代價等許多問題,樣本不足是經常遇到的問題。而人類可以從很少的中抽象出乙個新的概念,甚至可以不看就可以得到新的概念,比如告訴小孩帶條紋的馬叫做斑馬,當他今...

機器學習樣本資料集,訓練正負樣本

1 caltech 101 資料庫 該資料庫在2003年被發布,包括101類目標影象和1類背景影象,共102類,彩色影象較多,有部分灰度影象。總共影象數為9145 除去背景後總數為8677 每類影象數大約在31 800之間,影象大小為300 200。此資料庫的特點是 每個影象只含有乙個目標,且目標大...

MySQL Sakila樣本資料庫

sakila樣本資料庫介紹 sakila樣本資料庫是mysql官方提供的乙個模擬 租賃資訊管理的資料庫,提供了乙個標準模式,可作為書中例子,教程 文章 樣品,等等,對學習測試來說是個不錯的選擇。mysql other mysql documentation example databases sak...