Yongil Kim

Seoul National University

[EMNLP2023] CLAIR: Evaluating Image Captions with Large Language Models

26 Feb 2024 » Vision-and-Language, LLM, PLM

[pdf][github]

David M. Chan, Suzanne Petryk, Joseph E. Gonzalez, Trevor Darrell, John Canny
University of California, Berkeley  

image

Abstract

  • (Image CaptioningMetric) Image caption model 을 평가하는 metric 은 semantic relevance, visual structure, object interactions, caption diversity, specificity 등의 요소를 고려해야 한다.
  • ( CLAIR ) 본 논문에서는 Large Language Model (LLM)의 zero-shot capability 를 leverage 하여 새로운 image captioning metric 을 제시한다.
  • (Experiment) CLAIR 는 높은 human correlation 을 보이는데, SPICE 보다 39.6%, RefCLIP-S 보다 18.3% 높은 human correlation 을 보인다.

1. Introduction & Background

▶ Image Captioning Metric
Image caption model 을 평가하는 metric 은 semantic relevance, visual structure, object interactions, caption diversity, specificity 등의 요소를 고려해야 하므로 challenging 하다. 기존에 n-gram 기반의 metric 들인 BLEU, CIDEr, SPICE 등이 제시되었고, 이후 모델을 기반으로 한 CLIPSCore, TIFA, SeeTrue, VPEval, 이환희 박사님의 연구인 UMIC 나 내 연구인 PR-MCS 등도 제시되었다. 그러나 기존의 metric 들은 낮은 human correlation 을 보이거나, 혹은 너무 costly 하여 metric 으로 활용하기 어려운 점이 있었다.

▶ CLAIR
최근 Large Language Model (LLM) 이 등장하면서, 매우 강력한 성능을 보인다. 이 연구에서는 이 LLM 의 강력한 “judge” 능력을 leverage 하여 CLAIR(Criterion using LAnguage models for Image caption Rating) 을 제안한다. 이는 단순하게 LLM 으로 하여금 caption 들에 대한 numeric rating 을 생성하게 한다. 저자들은 semantic text quality 를 LLM 에게 직접적으로 측정하게 하는 최초의 연구라고 주장한다.

MS-COCO, Flickr8k, PASCAL-50S 등의 대표적인 image captioning metric 들에 대한 실험 결과, CLAIR 가 아주 놀라울 정도로 강력한 human correlation 을 보인다. 또한, CLIAR_E 라는 Ensemble 모델이 더 높은 성능을 가진 metric 임을 실험적으로 보인다. 이 논문이 가지는 contribution 을 아래와 같다.

  • (1) Language-only model 로 vision-language task 를 평가할 수 있는 metric 을 제시한 점.
  • (2) LLM 이 단순 scalar rating 을 잘하는 것을 넘어, reasoning 을 기반으로 rating 을 할 수 있다는 점.
  • (3) LLM 이 image caption 을 평가하기 위한 여러 기준(criteria) 들에 대해서 대부분 다 반영할 수 있다는 것을 보인 점.

2. CLAIR: LLMs for Caption Evaluation

image

CLAIR 는 Image Captioning Metric 을 위해 text-only model 인 LLM 을 사용하기 때문에, human-readable text completion task 로의 전환을 시도한다. 위의 Figure 에 나와있는 Prompt 를 이용하여 text completion task 로 score 를 내뱉게 하며, temperature 를 0 으로 하여 (greedy) 재현성(reproductability)를 확보한다. 그리고 재현성을 위해, API 의 default inference parameter 에 zero-shot 으로 실험을 진행한다.

Backbone model 로는 GPT-3.5 (ChatGPT), Claude, PaLM 을 사용하고, Koala, Vicuna 와 같은 open-source model 을 사용하여 보았지만 이 open-source model 은 매우 나쁜 human correlation 을 보였다고 한다. Baseline metric 으로는 BLEU, ROUGE, METEOR, CIDEr 그리고 CLIP-Score 를 비교한다.

3. Evaluation & Discussion

몇 개의 Qualitative Results 는 아래의 그림과 같다. CLAIR 는 높은 human correlation 을 보일 뿐 아니라, 점수에 대한 근거(reasoning)까지 얻어낼 수 있다.

image

3.1. Sample-level human correlation

우선 sample-level 로 CLAIR 의 우수성을 보이기 위해, COMPOSITE, Flickr8K-Expert, MS-COCO 에 대한 실험을 짆애한 결과는 아래와 같다.

image

  • (1) CLAIR 가 n-gram 기반 metric 뿐 아니라 CLIPScore 에 비해서도 압도적으로 좋은 성능을 보인다.
  • (2) CLAIR_E 의 경우, inter-human agreement 와 0.1 정도밖에 차이가 나지 않는다.

3.2. System-level human correlation

System-level 로 CLAIR 의 우수성을 보이기 위해, 저자들은 5 개의 모델이 내뱉은 output 과 human eval 과의 correlation 을 측정 비교한다.

image

3.3 Decision making

image

3.4. Groups of Captions

image

4. Limitations

CLAIR 가 높은 human correlation 을 보이는 metric 임에는 분명하지만 아래의 네 가지 단점이 보인다.

  • Non-Determinism and Parsing Errors : LLM 이 output 을 하다보니 “As an AI language model, I cannot see, and thus, cannot determine if the image captions match the references” 와 같은 답변을 한다던지, malformed JSON output 을 내뱉기도 한다.

  • Increased Cost : 매우 비싸다. MS-COCO 의 경우 226 토큰 정도가 평균으로 쓰였고, GPT-4 로 할 경우, 하나에 $0.0067 을 소모한다.

  • Hallucination : 근거에 hallucination 이 발생한다. LLM 으로 생성하기 때문에 당연한 문제이다.

Conclusion

This work introduces CLAIR, an LLM-based evaluation measure for image captioning. CLAIR’s superior performance compared to highlyengineered measures indicates a remarkable fact: LLMs are well aligned with human judgments of caption quality, even more so than some measures designed specifically for semantic similarity. CLAIR is only a glimpse into how LLMs can be used for evaluation tasks, and image captioning is only the beginning. We hope that our work will inspire further exploration of similar measures in other vision and language domains, such as visual storytelling (Huang et al., 2016), where human evaluation of generated text remains a challenging task.