概要

Second-Order Response Transform (SORT)

SORT

内部が2-stream構成で、$y_1 + y_2 + y_1 \odot y_2$を出力とするモジュール

この方が学習が安定する。 $F_1$ 側のbackpropの計算は $F_2$ 側の出力に依存するため、学習がサチりにくい。

非線形性が高く、表現力が向上するから。

様々な変換における非線形性の比較。 $x_* = ReLU \left( x \right) = max \left( x, 0 \right)$。一番右下がSORT。

非線形性

既存のモデル(AlexNet, ResNet)にSORTを組み込んで色々な画像認識タスクで比較。CIFAR-10, SVHN(町並みの画像から家の数を当てるタスク), ImageNet。

結果、どれも精度が僅かに向上

CNN特徴量の共分散を取るモジュールが効果があると言う話もあったがそれもこの論文の結果に内包されるのか
- こっちの論文では、一次と二次の項を足し合わせているが、あちらの論文では、別々の出力にしているという違いがある。どちらが良い？