雙流卷積網路閱讀筆記

2.光流疊加：將l個連續幀的光流通道堆疊，形成2l個輸入通道，表示了一系列幀之間的運動。任意幀的卷積網路輸入卷可構造為：

輸入卷的第三項堆疊了l幀序列的水平和垂直向量場。

3.軌跡堆疊：受基於軌跡的描述符的啟發，用沿運動軌跡取樣的光流替換在多個幀相同位置取樣的光流。構造輸入卷形式如下：

pk表示了沿軌跡的第k個點，假設軌跡的第乙個點從幀τ中位置（u,v）開始，pk可遞迴定義為：

4.兩種光流疊加/堆疊方式的比較

5.雙向光流：通過計算另一組相反的位移場獲得。

6.平均流減法：通過從每個位移場d中減去其平均向量，補償攝像機的運動。換個說法就是對網路輸入進行零中心化，因為乙個方向的運動和另乙個方向的運動一樣有可能。

7.計算光流：文章中通過使用opencv工具箱實現，並且在訓練前預先計算光流，將流的水平和垂直分量線性地重新縮放到[0:255]範圍，並用jpeg壓縮（解壓縮後，將流重新縮放回其原始範圍）。這將ucf-101資料集的流大小從1.5tb減少的27gb。

四、空間流卷積網路

本質上是一種影象分類架構。在文中通過使用與時空卷積網路相同的訓練和測試資料增強方式在imagenet ilsvrc-2012上進行預訓練，然後在預訓練好的卷積網路上訓練最後一層（dropout率=0.5）可以達到最理想的效能。

五、時間流卷積網路

1.輸入配置：由於卷積網路需要固定大小輸入，故從單個卷iτ中抽取乙個224×224×2l大小的子捲作為輸入傳遞到網路。

2.網路配置：與空間網路基本相同。如架構圖所示，對應於cnn-m-2048架構。所有隱藏層權重均用relu啟用功能；maxpooling在3x3空間視窗以步長2執行。空間和時間卷積網路配置之間的唯一區別是，我們從後者刪除了第二個標準化（normalization）層，以減少記憶體消耗。

3.光流配置

①經過評估得出結論，在輸入中疊加多個位移場有益（l=10較佳）；②採用平均流減法補償攝像機運動對效能有一定提公升；

③光流疊加比軌跡堆疊效能更好；

④在時間流網路中採用雙流光流僅略優於單向正向流，但在雙流網路融合後，雙向光流效能反而不如單向正向流。

六、多工學習

由於ucf-101和hmdb-51資料集大小比較小，通過多工學習的方法組合兩個資料集，增強訓練結果。經過評估，多工學習表現效能更佳。

2、在空間網訓練中，從選定的幀中隨機裁剪224×224子影象，然後進行隨機水平翻轉和rgb抖動。（子影象數從整個幀取樣，而不是幀中心）

3、在時間網路訓練中，我們計算所選訓練幀的光流卷中取樣的224×224輸入，並隨機裁剪和翻轉。

4、學習率最初設定為0.01，經過50k次迭代後，學習率變為0.001，經過70k次迭代後，學習率變為0.0001，經過80k次迭代後停止訓練。在微調場景中，經過14k次迭代後，該速率變為0.001，並且在20k次迭代後停止訓練。