概要

手法

3つのunitによって構成される。

(上図右)

VGG16のモデルで初め人を識別させ、これをVGG-16 Visual CNNと呼び、この重みは固定する
VGGの”drop7”の後に512unitsのfc層を二つ足し、512次元のVisual Units( $ v = [ v_1 , \dots ,v_{512} ]^T $ )を出力
このvisual unitsは全体の学習の中で自動的に人の外観のパターンを表していくようにする。

(上図真ん中)

文と写真のaffinityを計算したいので、単語ごとでVisual Unitsのどこにattentionを向けるかを学習

※例　”white scarf”といったらそれに一致するVisual Unitsに重きを置いてほしい。

文章の各単語をembedding feature $ x_w^t $に変換し、上と同様にして得られたvisual feature $ x_v $をconcatし、LSTMに入力
LSTMの隠れ状態$ h_t $を2層のfc層に通し、softmaxをかけて512次元のベクトル$ A_t $を出力する
Visual Unitsのどこに重きを置くかを$ a_t = A_t \cdot v $により計算

(上図左)

単語によって重みも変えるべき

※例　”this” と “white” では単語の重要度が違う

$\hat{a} = \sum_{t=1}^{T} \hat{a_t}$

文が対応していればaffinityの教師データ $ y^i $を1、対応していなければ0として、

クロスエントロピーで、

$E = - \frac{1} {N} \sum_{i=1}^{N} [ y_i log \hat{a}^i + (1 - y^i) log (1 - \hat{a}^i) ]$

によって学習