DEJIMA: A Novel Large-scale Japanese Dataset for Image Captioning and Visual Question Answering

Toshiki Katsube1, Taiga Fukuhara1, Kenichiro Ando2,1, Yusuke Mukuta1,2, Kohei Uehara1, Tatsuya Harada1,2,
1The University of Tokyo, 2RIKEN
DEJIMA dataset example images.

Example image-text pair from the DEJIMA dataset.

Abstract

This work addresses the scarcity of high-quality, large-scale resources for Japanese Vision-and-Language (V&L) modeling.

We present a scalable and reproducible pipeline that integrates large-scale web collection with rigorous filtering/deduplication, object-detection-driven evidence extraction, and Large Language Model (LLM)-based refinement under grounding constraints. Using this pipeline, we build two resources: an image–caption dataset (DEJIMA-Cap) and a VQA dataset (DEJIMA-VQA), each containing 3.88M image–text pairs, far exceeding the size of existing Japanese V&L datasets.

Human evaluations demonstrate that DEJIMA achieves substantially higher Japaneseness and linguistic naturalness than datasets constructed via translation or manual annotation, while maintaining factual correctness at a level comparable to human-annotated corpora. Quantitative analyses of image feature distributions further confirm that DEJIMA broadly covers diverse visual domains characteristic of Japan, complementing its linguistic and cultural representativeness. Models trained on DEJIMA exhibit consistent improvements across multiple Japanese multimodal benchmarks, confirming that culturally grounded, large-scale resources play a key role in enhancing model performance.

All data sources and modules in our pipeline are licensed for commercial use, and we publicly release the resulting dataset and metadata to encourage further research and industrial applications in Japanese V&L modeling.

Pipeline

DEJIMA dataset construction pipeline.

Dataset Variants

We prepare multiple dataset variants to isolate the contributions of each component in our pipeline.

Captioning:

  • DEJIMA-Cap-Simple: filtered raw image–alt-text pairs (simple captions).
  • DEJIMA-Cap-Refined: only LLM-refined alt-texts.
  • DEJIMA-Cap-Detection: captions generated by the LLM from detection tags only.
  • DEJIMA-Cap-All: integrates both alt-texts and detection tags as inputs to the LLM.

VQA:

  • DEJIMA-VQA-Refined, DEJIMA-VQA-Detection, and DEJIMA-VQA-All.

Dataset

Statistical Comparison

Statistical comparison of Japanese V&L Datasets.
Dataset Type # Images # Texts Avg. # Chars Vocabulary Size
Caption
STAIR Captions Human-annotated 123,287 616,435 23.80 30,195
MS COCO Translation Machine-translated 123,287 616,767 22.41 32,960
DEJIMA-Cap-Simple (Ours) Alt 3,884,632 3,884,632 18.21 336,924
DEJIMA-Cap-Refined (Ours) Alt + LLM 3,884,629 3,884,629 38.03 314,900
DEJIMA-Cap-Detection (Ours) Detection + LLM 3,884,632 3,884,632 49.55 30,674
DEJIMA-Cap-All (Ours) Alt + Detection + LLM 3,884,632 3,884,632 79.62 287,434
VQA
Japanese Visual Genome Human-annotated 99,208 793,664 19.50 20,797
GQA Translation Machine-translated 71,067 3,999,765 22.58 11,856
DEJIMA-VQA-Refined (Ours) Alt + LLM 3,875,343 3,875,343 56.62 321,720
DEJIMA-VQA-Detection (Ours) Detection + LLM 3,883,943 3,883,943 77.00 31,929
DEJIMA-VQA-All (Ours) Alt + Detection + LLM 3,882,892 3,882,892 108.86 278,860

Table: Statistical comparison of Japanese V&L datasets (counts, averages, and vocabulary sizes).


Representational Coverage

To examine DEJIMA’s representational coverage relative to existing datasets, we analyzed 2D feature distributions by applying PCA to CLIP image embeddings. All datasets were jointly projected into a shared 2D space and discretized on a common 60×60 grid (with 2% padding) to obtain probability maps pd(i,j).

For each dataset, we computed two measures: (1) the asymmetric coverage rate Coverage(P|Q)=∑b∈occQ pP(b), quantifying how much probability mass of P lies in bins occupied by Q; and (2) the bidirectional KL divergences KL(P||Q) and KL(Q||P) (with ε=1e−12) to capture overlap and distributional divergence in the shared space.

Using the domestic dataset recruit-jp as the reference target, DEJIMA achieved the highest coverage Coverage(target|DEJIMA)=0.785, exceeding Japanese Visual Genome (0.435), STAIR Captions (0.430), MS COCO (0.406), and GQA (0.342). This indicates DEJIMA spans about 79% of the visual domain occupied by real Japanese imagery. Conversely, for Coverage(dataset|target), Japanese Visual Genome was highest (0.534), followed by MS COCO (0.502) and STAIR (0.492), while DEJIMA was lower (0.192), suggesting broader support beyond the domestic domain.

KL divergences showed a consistent pattern: KL(recruit-jp||DEJIMA)=6.03 (lowest), Japanese Visual Genome (≈12.2), STAIR (≈12.3), MS COCO (≈12.8), GQA (≈14.2). In reverse, KL(DEJIMA||recruit-jp)=16.4, indicating DEJIMA includes regions not present in recruit-jp.

PCA projection of CLIP image embeddings

PCA projection of CLIP image embeddings: DEJIMA covers the domestic region (recruit-jp) and extends smoothly toward broader global contexts.


Human Evaluation

We evaluated caption and VQA quality via pairwise human comparisons (150 samples per dataset, randomized order, 80 crowd workers). We inserted control items for quality and removed inconsistent annotations; final sample sizes (n) are shown in each table.

Caption metrics: Japaneseness of image, Japaneseness of text, Naturalness of text, Image–text consistency, Coverage, Expressiveness. VQA metrics: Japaneseness (image/text), Naturalness of text, Q–A relevance, Q–image consistency, Answer correctness.

Significance was tested with two-sided binomial tests against 50%, using the 5% level with Holm–Bonferroni correction. A * indicates significance at 5%.

Caption: Pairwise preference of DEJIMA-Cap-All vs. baselines.
Compared Dataset n Japaneseness of image Japaneseness of text Naturalness of text Image-text consistency Coverage Expressiveness
MS COCO Translation 105 82.86* 87.62* 86.67* 20.00* 39.05* 92.38*
STAIR Captions 135 74.07* 77.78* 62.22* 20.74* 43.70 68.89*
DEJIMA-Cap-Refined 105 -- 86.67* 64.76* 52.38 61.90* 91.43*
DEJIMA-Cap-Detection 135 -- 76.30* 65.93* 62.96* 70.37* 81.48*

Caption: Pairwise preference of DEJIMA-Cap-All vs. baselines. * indicates significance at 5%.

VQA: Pairwise preference of DEJIMA-VQA-All vs. baselines.
Compared Dataset n Japaneseness of image Japaneseness of text Naturalness of text Q-A relevance Q-Image consistency Answer correctness
GQA Translation 105 91.43* 92.38* 89.52* 41.90 51.43 41.90
Japanese Visual Genome 135 92.59* 87.41* 78.52* 31.85* 38.52* 34.81*
DEJIMA-VQA-Refined 90 -- 76.67* 74.44* 57.78 56.67 57.78
DEJIMA-VQA-Detection 120 -- 79.17* 72.50* 61.67* 65.83* 63.33*

VQA: Pairwise preference of DEJIMA-VQA-All vs. baselines. * indicates significance at 5%.

VLM Training Results (LLaVA)

Benchmark Results

Evaluation on the learned model using Japanese V&L benchmarks.
Stage 1 Stage 2 JA-VLM-Bench-In-the-Wild
(LLM-as-a-Judge ↑)
Heron-bench
(LLM-as-a-Judge ↑)
STAIR Captions Japanese Visual Genome 3.04 31.57
STAIR Captions GQA Translation 1.58 20.54
MS COCO Translation Japanese Visual Genome 2.88 33.94
DEJIMA-Cap-Simple DEJIMA-VQA-Refined 3.12 44.82
DEJIMA-Cap-Refined DEJIMA-VQA-Refined 1.96 15.89
DEJIMA-Cap-Detection DEJIMA-VQA-Detection 1.36 21.95
DEJIMA-Cap-All DEJIMA-VQA-All 2.48 52.26

Table: Evaluation on the learned model using Japanese V&L benchmarks.

VLM output example

Figure: Sample output from the trained VLM (LLaVA).


Human Evaluation of VLM Outputs (Heron-bench)

In addition to automatic evaluations, we conducted human evaluations of VLM outputs on Heron-bench. All outputs for 103 questions were assessed following the same protocol as the dataset-level evaluation. Each question’s pair of model outputs (randomized order) was compared by one Japanese-speaking worker. In total, 412 samples (103 × 4 comparisons) were evaluated by 28 workers. One control item per worker was used; inconsistent workers (≈21.4%) were excluded. The effective sample size (n) for each comparison is shown below.

Metrics: Japaneseness of text, Naturalness of text, Q–A relevance, Answer correctness. Significance was tested with two-sided binomial tests against 50%, at the 5% level with Holm–Bonferroni correction. * indicates significance at 5%.

VLM output: pairwise preference vs. DEJIMA-Cap-All & DEJIMA-VQA-All pipeline.
Compared Pipeline n Japaneseness of text Naturalness of text Q-A relevance Answer correctness
MS COCO Translation & Japanese Visual Genome 75 97.33* 92.00* 61.33 77.33*
DEJIMA-Cap-Simple & DEJIMA-VQA-Refined 88 79.55* 79.55* 53.41 50.00
DEJIMA-Cap-Detection & DEJIMA-VQA-Detection 73 89.04* 87.67* 84.93* 90.41*
DEJIMA-Cap-Refined & DEJIMA-VQA-Refined 88 63.64* 97.73* 77.27* 70.45*

VLM output: pairwise preference vs. DEJIMA-Cap-All & DEJIMA-VQA-All pipeline. * indicates significance at 5%.

Dataset Examples

Examples of image, caption, and VQA (Q/A)

Example 001708131

Captioning Variants

DEJIMA-Cap-Simple (filtered alt-text)
【平等院鳳凰堂】平等院鳳凰堂は、平安時代後期から保持されてきた建造物や寺宝が現存する唯一の史跡です。

DEJIMA-Cap-Refined (LLM-refined)
平等院鳳凰堂は平安時代後期から現存する史跡で、当時の建造物や寺宝が保存されている。

DEJIMA-Cap-Detection (from detection tags)
宮殿が画面中央よりやや右側に大きく描かれており、建物の詳細な装飾が目立つ。

DEJIMA-Cap-All (alt-text + tags)
朱色の楼門が鮮やかに輝く平等院鳳凰堂。国宝の建築物が中央に立ち、屋根の金箔が陽光を反射してきらめいている。平安時代の風格を今に伝える荘厳な姿が、緑豊かな庭園に映える。

VQA Variants

DEJIMA-VQA-Refined
Q: 平等院鳳凰堂はどのような歴史的価値がありますか?
A: 平等院鳳凰堂は、平安時代後期から現存する建造物や寺宝が残る唯一の史跡であり、日本の建築と美術の貴重な遺産です。

DEJIMA-VQA-Detection
Q: 画面のどの部分に宮殿が写っていますか?
A: 宮殿は画面の右側中央部に大きく写っています。その位置は縦方向中央よりやや下側、横方向では中央から右端に向かう領域に存在します。

DEJIMA-VQA-All
Q: 平等院鳳凰堂はどのような時代に建造されましたか?
A: 平等院鳳凰堂は平安時代後期(11世紀前半)に建立され、当時の建築様式や装飾が現在まで保存されています。この建造物は、歴史的に貴重な建造物や寺宝を現存させる唯一の史跡として知られています。

Example 003115115

Captioning Variants

DEJIMA-Cap-Simple (filtered alt-text)
東海道五拾三次『袋井 出茶屋ノ図』(歌川広重)

DEJIMA-Cap-Refined (LLM-refined)
歌川広重作の浮世絵『東海道五拾三次 袋井 出茶屋ノ図』。旅人らが茶屋で休憩し、遠景には木々が描かれた江戸時代の名所絵です。

DEJIMA-Cap-Detection (from detection tags)
男性が木の前で立ち、ポストカードが地面に置かれている。ポストカードは画面中央下部にあり、木はその左前方に位置する。

DEJIMA-Cap-All (alt-text + tags)
歌川広重の「袋井 出茶屋ノ図」で、茶屋前で休む男性や枝ぶりの立派な老松が描かれる。画面右下の絵葉書風枠内に作品が収められ、人物たちの和服姿が江戸時代の雰囲気を漂わせる。

VQA Variants

DEJIMA-VQA-Refined
Q: この浮世絵のタイトルは何か?
A: 『袋井 出茶屋ノ図』(歌川広重)です。東海道五拾三次シリーズの一枚です。

DEJIMA-VQA-Detection
Q: ポストカードはどこにありますか?
A: ポストカードは画像の右下に位置し、画面の中央より少し下部に配置されています。周囲には他の人物や木が存在せず、独立して配置されていることが確認できます。

DEJIMA-VQA-All
Q: 絵の中の人物は何人いますか?
A: 浮世絵『袋井 出茶屋ノ図』には、男性1人と別の人物2人が描かれています。男性は左下に立ち、他の2人は中央より右側に配置されています。これら3人の人物は、江戸時代の旅籠(はたご)の情景を背景に、それぞれ異なる姿勢で描かれています。

Example 003406021

Captioning Variants

DEJIMA-Cap-Simple (filtered alt-text)
平和記念公園を訪問したオバマ米大統領と握手する長崎市の中学生。左は安倍首相=2016年5月27日、広島市中区、代表撮影

DEJIMA-Cap-Refined (LLM-refined)
オバマ米大統領が長崎市の中学生と握手し、安倍首相と共に平和記念公園を訪問=2016年5月27日、広島市中区

DEJIMA-Cap-Detection (from detection tags)
少年が首元にネクタイを着け、手を胸元に当てる姿勢で立っている。ネクタイは少年の左肩近くに、手は体の中央付近に位置している。

DEJIMA-Cap-All (alt-text + tags)
オバマ元大統領が紺色のネクタイ姿で手を差し出し、右側で中学生が握り返している。後方には黒色スーツの安倍首相が立ち、平和記念公園の緑地が背景に広がる。

VQA Variants

DEJIMA-VQA-Refined
Q: 写真中央で握手しているのは誰ですか?
A: 写真中央で握手しているのは、オバマ米大統領と長崎市の中学生です。

DEJIMA-VQA-Detection
Q: 少年はどのような服を着ていますか?
A: 少年はネクタイを締めています。ネクタイは首元に整然と結ばれており、フォーマルな服装を想像させる要素です。

DEJIMA-VQA-All
Q: 写真中央で握手をしている人物は誰ですか?
A: 平和記念公園を訪れたオバマ米大統領と長崎市の中学生が握手しています。大統領は左側に位置する安倍首相と共に訪れており、この瞬間は歴史的な場面として記録されています。

Example 008363129

Captioning Variants

DEJIMA-Cap-Simple (filtered alt-text)
白川郷の雪景色(82)

DEJIMA-Cap-Refined (LLM-refined)
白川郷の冬景色が広がり、合掌造りの民家が雪に覆われた静寂な風景を映している。

DEJIMA-Cap-Detection (from detection tags)
冬景色の中、家の外壁の前に枯れ木が立っている。家は画面中央に配置され、木は左前方に斜めに傾いている。

DEJIMA-Cap-All (alt-text + tags)
白川郷の冬景色で、茅葺き屋根の民家が雪に覆われた森の中に佇んでいる。白銀の世界に黒い樹木がアクセントとなり、遠景には積雪した山並みが広がる。

VQA Variants

DEJIMA-VQA-Refined
Q: 白川郷の写真にはどのような季節の特徴が写っていますか?
A: 白川郷の雪景色が写っており、冬の季節であることが分かります。

DEJIMA-VQA-Detection
Q: 家の外観の隣に何がありますか?
A: 家の外観の隣には木が植えられています。木は家の左側に位置し、冬景色の中に静かに佇んでいます。

DEJIMA-VQA-All
Q: 白川郷の雪景色の中で、最も目立つ建造物はどのような特徴がありますか?
A: 画面中央に位置する白川郷の民家は、伝統的な合掌造りの外観を持ち、屋根の雪に覆われた姿が特徴的です。雪化粧をした黒い梁や傾斜した茅葺き屋根が調和し、冬の厳しさを象徴する風景を形成しています。

Example 010438219

Captioning Variants

DEJIMA-Cap-Simple (filtered alt-text)
コロナ禍の新たな公演の形 歌舞伎俳優 市川海老蔵さん

DEJIMA-Cap-Refined (LLM-refined)
市川海老蔵さんがコロナ禍の新たな公演形で舞台に立つ姿。

DEJIMA-Cap-Detection (from detection tags)
人物が剣を構え、床の上で立ち去ろうとしている。剣は左斜め前方に向けられ、顔は右側上方に位置している。

DEJIMA-Cap-All (alt-text + tags)
歌舞伎俳優の市川海老蔵さんが黒紋付姿で床に立つ。左肩に刀を携え、正面を向いた表情は凛々しく、舞台の床面がコロナ禍の新たな公演スタイルを暗示している。

VQA Variants

DEJIMA-VQA-Refined
Q: 公演の様子をどのような条件下で撮影されていますか?
A: コロナ禍の新たな公演の形として、歌舞伎俳優の市川海老蔵さんが出演する公演の様子が撮影されています。

DEJIMA-VQA-Detection
Q: 人物の手元には何がありますか?
A: 人物の手元には剣が握られています。剣は横向きに構えられており、人物の前方を指すような姿勢で保持されています。

DEJIMA-VQA-All
Q: 市川海老蔵さんはどのような衣装で登場していますか?
A: 市川海老蔵さんは歌舞伎俳優として伝統的な衣装をまとめており、特に刀(sword)を手に持っており、舞台の床(floor)の上に立っています。顔(face)は濃厚な化粧が施され、歌舞伎の特徴的な表現が見受けられます。

Example 012597520

Captioning Variants

DEJIMA-Cap-Simple (filtered alt-text)
新幹線と富士山 写真素材

DEJIMA-Cap-Refined (LLM-refined)
新幹線が富士山の雄大な景色を背景に走る写真。

DEJIMA-Cap-Detection (from detection tags)
歩道橋の下を新幹線が走っており、列車は橋脚の間に位置している。

DEJIMA-Cap-All (alt-text + tags)
新幹線が駅の跨線橋の下を通過し、背景には白銀の富士山がそびえ立つ。跨線橋は右半分に横たわり、新幹線は右斜め前方へ高速で走行中。

VQA Variants

DEJIMA-VQA-Refined
Q: 写真の背景にある山はどの山ですか?
A: 背景にある山は富士山です。

DEJIMA-VQA-Detection
Q: 歩道橋の下を何が通過していますか?
A: 歩道橋の下を新幹線が通過しています。新幹線は歩道橋の支柱の間を高速で走行しており、その姿がはっきりと確認できます。

DEJIMA-VQA-All
Q: 写真に写っている交通機関は何ですか?
A: 画面中央に新幹線( bullet train )が写っており、その速度感あふれるデザインが特徴的です。背景には人道橋が前景に配置されており、鉄道と富士山を連想させる構図となっています。

BibTeX

If you use DEJIMA in your research, please cite our paper (to appear).


@misc{katsube2025dejimanovellargescalejapanese,
  title={DEJIMA: A Novel Large-scale Japanese Dataset for Image Captioning and Visual Question Answering},
  author={Toshiki Katsube and Taiga Fukuhara and Kenichiro Ando and Yusuke Mukuta and Kohei Uehara and Tatsuya Harada},
  year={2025},
  eprint={2512.00773},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2512.00773},
}