Parallel Multi Channel Convolution using General Matrix Multiplication
タグ: acceleration CNN
http://arxiv.org/abs/1704.04428
概要
- convolution2dの速度・メモリ消費改善手法の提案
- $k \times k$ カーネルを $k^2$ 個の $1 \times 1$カーネルの和と考えて並列処理
- im2colと比較して、余計なメモリ消費なし、速度向上などの改善が見られた
感想
- ベースラインであるim2colがおそすぎる気がする
- 比較方法は妥当か?独自実装ではなく、デファクトスタンダードであるcuDNNやIntelMKLと比較すべきでは?