Is Second-order Information Helpful for Large-scale Visual Recognition?
タグ: CNN classification
概要
[1703.08050] Is Second-order Information Helpful for Large-scale Visual Recognition?
- 大規模画像データのクラスタリングに共分散特徴量を使う話
- 通常のpoolingの代わりに、covariance poolingを使う
- ImageNetについて、ResNet50にcovariance poolingを導入したらResNet152と同等、ResNet101より良い精度となった
Matrix Power Normarized Covariance (MPN-Cov)
- N個のd次元特徴ベクトルからなる特徴量行列$ \mathbf{X} \in \mathbb{R}^{N \times d}$
- 共分散行列$ \mathbf{P} = \mathbf{X} \mathbf{I}’ \mathbf{X}^T $
- P を固有値分解 : $ \mathbf{P} = \mathbf{U} \mathbf{\Lambda} \mathbf{U}^T, \mathbf{\Lambda} = diag \left( \lambda_1, \dots, \lambda_N \right) $
- 固有値$ \lambda_i $をPのノルムmで正規化する : $f \left( \lambda_i \right) = \dfrac{\lambda_i}{m} $
- 使用するノルムによるバリエーションあり
- 行列ノルム(スペクトルノルム)
- フロベニウスノルム
- ノルムの次数 $ \alpha $はハイパーパラメータ
- 使用するノルムによるバリエーションあり
- 正規化された固有値で共分散行列を再構築する : $ \mathbf{Q} = \mathbf{U} \mathbf{F} \left( \mathbf{\Lambda} \right) \mathbf{U}^T $
- この$ \mathbf{Q} $がMPN-Covの最終的な出力となる
Normarizeする理由
固有値の大きい特徴量は大きなバイアスとなるらしい。小さな固有値ならロバスト性が向上する。
計算量を減らす工夫と近似
- 内積計算をリーマン計量でやると半端ないことになるからPow-E計量というものを使うらしい。
- 詳しく理解していないけど、対数空間で、乗法を加法で扱うことで簡単にしようという話っぽい
- しかしこのPow-E計量は近似的にしか求められない
実験結果
- AlexNet
- MPN-COV有りでは、無いモデルよりtop1-errorが7%ほど下がった
- その他のSecond-Orderな特徴量を使うモデルよりも精度向上
- Matrix Power Normarizationが効いている
- VGG-16
- 精度3%向上
- ResNet
- ResNet50+MPN-COVで、ResNet152と同等の精度
思ったこと
- これはpoolingではないのでは
- 実時間の比較はないが、共分散や固有値計算の部分など、計算量がヤバそう