GitHub

Is Second-order Information Helpful for Large-scale Visual Recognition?

タグ: CNN classification

概要

[1703.08050] Is Second-order Information Helpful for Large-scale Visual Recognition?

  • 大規模画像データのクラスタリングに共分散特徴量を使う話
  • 通常のpoolingの代わりに、covariance poolingを使う
  • ImageNetについて、ResNet50にcovariance poolingを導入したらResNet152と同等、ResNet101より良い精度となった

Matrix Power Normarized Covariance (MPN-Cov)

  • N個のd次元特徴ベクトルからなる特徴量行列$ \mathbf{X} \in \mathbb{R}^{N \times d}$
  • 共分散行列$ \mathbf{P} = \mathbf{X} \mathbf{I}’ \mathbf{X}^T $
  • P を固有値分解 : $ \mathbf{P} = \mathbf{U} \mathbf{\Lambda} \mathbf{U}^T, \mathbf{\Lambda} = diag \left( \lambda_1, \dots, \lambda_N \right) $
  • 固有値$ \lambda_i $をPのノルムmで正規化する : $f \left( \lambda_i \right) = \dfrac{\lambda_i}{m} $
    • 使用するノルムによるバリエーションあり
      • 行列ノルム(スペクトルノルム)
      • フロベニウスノルム
    • ノルムの次数 $ \alpha $はハイパーパラメータ
  • 正規化された固有値で共分散行列を再構築する : $ \mathbf{Q} = \mathbf{U} \mathbf{F} \left( \mathbf{\Lambda} \right) \mathbf{U}^T $
  • この$ \mathbf{Q} $がMPN-Covの最終的な出力となる

Normarizeする理由

固有値の大きい特徴量は大きなバイアスとなるらしい。小さな固有値ならロバスト性が向上する。

計算量を減らす工夫と近似

  • 内積計算をリーマン計量でやると半端ないことになるからPow-E計量というものを使うらしい。
  • 詳しく理解していないけど、対数空間で、乗法を加法で扱うことで簡単にしようという話っぽい
  • しかしこのPow-E計量は近似的にしか求められない

実験結果

  • AlexNet
    • MPN-COV有りでは、無いモデルよりtop1-errorが7%ほど下がった
    • その他のSecond-Orderな特徴量を使うモデルよりも精度向上
      • Matrix Power Normarizationが効いている
  • VGG-16
    • 精度3%向上
  • ResNet
    • ResNet50+MPN-COVで、ResNet152と同等の精度

思ったこと

  • これはpoolingではないのでは
  • 実時間の比較はないが、共分散や固有値計算の部分など、計算量がヤバそう