Yongil Kim

LG AI Research

Articles by category: Vision-and-Language

Transformer Dialogue Diffusion LLM PLM Hallucination Retrieval

2024

[EMNLP2021 best paper] Visually Grounded Reasoning across Languages and Cultures » 22 Mar 2024

[EMNLP2023] CLAIR: Evaluating Image Captions with Large Language Models » 26 Feb 2024

2023

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen image Encoders and Large Language Models » 27 Feb 2023

2022

[ICML2022] Data Determinces Distributional Robustness in Contrastive Language-Image Pre-training (CLIP) » 14 Nov 2022

[ICML2022] Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts » 05 Nov 2022

[ICML2022] VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix » 31 Oct 2022

[BEIT-3] Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks » 06 Sep 2022