Yongil Kim

Seoul National University

[NeurIPS2023] Meta-in-context learning in large language models

10 Jan 2024 » LLM

[pdf] [github]

Julian Coda-Forno 1,2,∗, Marcel Binz 1, Zeynep Akata 2, Matthew Botvinick 3, Jane X. Wang 3, Eric Schulz 1
1 Max Planck Institute for Biological Cybernetics, 2 University of Tübingen - Tübingen, Germany 3 Google DeepMind - London, United-Kingdom  

image

Abstract

  • (Meta in-context learning) in-context leraning 능력이 in-context learning 자신을 통해 recursive 하게 발전되는 방법론인 meta in-context learning 을 소개한다.
  • (Idealized Domain) Regression task 와 two-armed bandit task 를 통해, meta-in-context learning 이 large language model 의 prior 의 expected task 에 adaptively reshape 한다.
  • (Experiment) real-world regression problem 과 다양한 NLP task 에 대해, 기존의 learning 알고리즘과 비교하여 경쟁적인 성능을 보인다.

Introduction

LLM 은 in-context learning 을 통해 additional training 없이도 대학수준의 수학 문제를 푼다던지, 어려운 reasoning task 를 해결할 수 있다. 이러한 것은 in-context learning (or few-shot prompting or few-shot learning) 이라 불리는 능력으로 알려져 있는데, downstream task 에 finetuning 을 진행하는 traditional 한 방식과는 차이를 보인다.

본 연구에서 저자는 whether the learning algorithm implemented through in-context learning can be improved through in-context learning itself 에 대한 질문을 한다. 이를 본 논문에서는 meta-in-context learning 이라고 칭한다.

세 개의 세팅에서, in-context learning 능력이 in-context learning 을 통해 발전된다는 evidence 를 찾는다. 우선 artifical domain 으로써, 하나의 regression task 와 하나의 two-armed bandit task 를 풀어본 결과, LLM 에게 sequential 하게 multiple learning problem 을 주는 것이 in-context learning 능력을 발전시키는 것을 확인할 수 있다. 이후, idealized domain 의 실험에서, meta-in-context learning 이 latent variable 의 prior 를 수정하여, 환경의 true statistics 에 유사하게 바뀐다는 것을 발견한다. 추가적으로, LLM 의 leraning strategy 자체를 reshaping 하는 것도 발견한다.

image

위의 그림이 meta-in-context learning 의 high-level overview 이다. Task 를 점진적으로 부여함으로써, 이전의 in-context learning 이 다음 in-context learning 에 영향을 주는 것이 meta-in-context learning 이다.

Experimental Setup

  • GPT-3 (text-davinci-002)
  • temperature 0 for deterministic response

Learning one-dimensional functions

우선 첫 실험 세팅으로, one-dimensional regression task 를 선택한다.

(1) Method

image

위의 예시처럼, 5 개의 task 에 대해서, T 개의 pair 들이 들어가고, 마지막 pair 의 y 값을 맞추는 task 이다. 모든 pair 는 x 와 y 의 noise $\epsilon$이 추가된 linear function (y = a*x + b + $\epsilon$) 이다.

(2) Results

우선, 기존의 preliminary simulation 에서, GPT-3 는 increasing positive function 에 strong bias 가 되어있음을 발견한다. 따라서, 저자들은 a ~ N(-2,1), b ~ N(-100,1) 로, negative slope 과 negative intercept 이 sample 되게 하였다. 실험 결과는 아래와 같다.

image

GPT-3 does in-context learning: meta-in-context learning 없이 우선, GPT-3 가 이 task 를 잘 푸는 지 확인한다. 뒤의 네 task 는 무시하고, 첫 번째 task 에 대한 실험만 진행한다. </span> Fiugre A 에서 파란색 solid line 에서 볼 수 있듯이, GPT-3 는 in-context learning 이 Bayseian linear regression (BLR) 보다 더 좋은 성능을 보여, 이 task 를 해결할 수 있음을 보인다.

GPT-3 does meta-in-context learning: meta-in-context learning 방식으로 점진적으로 5 번째 task 까지 가르쳤을 때 (Figure A 에서 solid vs dashed) 더 좋은 성능을 보인다. Figure B 에서 meta-in-context learning 방식이 task 증가에 따라 점진적으로 좋아짐을 볼 수 있다. Figure C 에서 한 task 안에서의 trial 증가와, task 자체의 증가에 따른 통계적 검증에서, GPT-3 가 in-context learning 과 meta-in-context learning 모두 할 능력이 있음을 보인다.

Meta-in-context learning is driven by adaptation of priors: GPT-3 가 meta-in-context learning 을 하는 동안 true environmental statistics 로 prior 를 바꾸는 것을 검증한다. 우선, GPT-3 의 temp 를 1로 바꾸고, sample 하게 한 다음, 그 sample 을 feedback 하여 다시 생성하게 하여 반복하였더니, 10,000 이상의 값을 내놓는 것을 확인한다. 이를 통해 GPT-3 의 regression 능력이 increasing positive function 으로 strong bias 되어 있는 것을 확인한다. 하지만, Figure D 에서 보듯이 meta-in-context learning 을 통해 2번 정도만 task 를 보여줘도, 순식간에 bias 를 negative 로 변경하는 것을 볼 수 있다. 이를 통해 in-context learning 이 in-context learning 자체를 발전시킨다고 볼 수 있다.

Meta-in-context learning is an emergent phenomenon: GPT-3 davinci 의 하위 모델인 text-ada, text-cabbage, text-curie 에서는 이 meta-in-context learning 능력을 볼 수 없다. 따라서, text-dvainci-002 정도의 크기가 되었을 때 새로 나타나는 emergent ability 이다.

Meta-in-context learning with non-linear functions: nen-linear function 인 quadratic function 에 대해서도 같은 경향성의 실험 결과를 보인다. (부록 참고하라는데, 부록이 없다…)

Experiments on two-armed bandit tasks

위의 regression task 와 완전히 같은 경향성을 보이며, 새로 가져갈 포인트는 없다. ※ 자세한 내용은 논문 참조.

Regression on real-world data and MMLU benchmark

60 개의 different real-world dataset 을 포함하는 multi-dimensional regression benchmark 에 대한 실험 결과이다. 실험 결과 역시, artifical regression task 와 경향성이 같다.

또한, Real-world natural language processing benchmark 로 MMLU 를 선택하여 실험을 진행하는데, 그 중 STEM supercategory task 에집중하여 실험을 진행한다. 실험 결과 meta-in-context learning 이 좋으며, 자세한 결과는 부록에 제시되어있지만, 부록을 찾을 수 없다.. ※ 자세한 내용은 논문 참조.

Conclusion and Discussion

Conclusion

We have demonstrated that LLMs can improve their in-context learning abilities via in-context learning itself, i.e., that they are capable of meta-in-context learning. Meta-in-context learning was not only able to overwrite an LLM’s priors but also changed its learning strategies, as demonstrated in two artificial domains. Finally, we applied our approach to two benchmarks. First, a real-world benchmark of regression tasks where we found that meta-in-context learning leads to algorithms that are competitive with standard learning algorithms. Then, we verified the applicability of our results in an NLP benchmark, providing further evidence of the versatility and effectiveness of our approach across diverse contexts.

Discussion
저자들의 시뮬레이션의 가장 중요한 단점은 소수의 관찰만으로 모두 학습 과제에 의존했다는 것이다. 이 한계는 주로 meta-in-context learning 의 빠른 prompt length 증가와 결합된 limited window context 의 현실적인 제약 때문이다. 허용된 context length 내에서 (아마 돈문제) 실험을 진행하기 위해 이러한 설계 선택을 해야 했을 것이다. 그럼에도 이런 simulation 은 meta-in-context learning 의 가능성을 설명하기에 충분하다고 생각한다. Longer context length 와 lower inference cost 에 대한 연구로 이어질 수 있다고 생각한다.