Wenhao Yu♦, Meng Jiang♣, Peter Clark♠, Ashish Sabharwal♠
♦ Tecent AI Seattle Lab ♣ University of Notre Dame ♠ Allen Institute for AI
Abstract
- (lack of counterfactual QA dataset) counterfactual reasoning 이 매우 중요하지만, large-scale counterfactual open-domain question answering (QA) dataset 이 부족하여, model 을 평가하기 힘들다.
- ( IfQA ) 모든 question 이 ‘if’ 를 통한 counterfactual presupposition 에 기반한 IfQA 벤치마크를 introduce 한다. 이 Question 들은 parameter 속의 진실과 반대되는 imagined situation 에 대해서도 right information 을 identify 할 수 있어야한다.
- (Experiment) supervised retrieve-then-read pipeline 모델들에 대하여, 낮은 점수를 보이며, ChatGPT 를 활용한 Chain-of-Thought 을 활용해도 여전히 challenging 한 open-domain QA benchmark 이다.
1. Introduction
▶Counterfactual reasoning
Counterfactual reasoning 은 실제 일어났거나 factually true 와 반대되는 어떠한 일들의 연속에 대해 possible alternative 를 imagine 하는 human tendency 를 뜻한다. 예를 들어, business area 의 corporate leader 들은 alternative investment strategy 를 취했을 때의 potential ripple effect 를 고려하여 의사결정을 하는데, 이러한 가정이 counterfactual reasoning 이다. AI 모델이 이러한 반대되는 가정을 할 수 있는 능력을 갖추는 것은 매우 중요하지만, 현재 open-domain QA Task 에서 이러한 counterfactual 가정을 다루는 task 는 전무하다. 대부분의 open-domain QA 는 internet 등의 global resource 에서 정보를 취득할 수 있는 question 을 푸는 것에 집중할 뿐이다.
그러나, counterfactual presupposition 은 causal intervention 으로 해석될 수 있는데, given presupposition 에 대해 human reader 들 사이의 shared background knowledge 를 따라야만 하기 때문이다. 모델들은 이러한 imagined situation 에 대해서도 정확한 정보를 retrieve 한 후 해석을 할 수 있는 능력을 갖추어야 한다.
▶ IfQA
몇몇의 연구에서 counterfacutal evidence 가 주어졌을 때, 이것을 인지(identify)하고 수정(correct)하려는 시도의 연구가 있었지만, open-domain QA scenario 에서 counterfactual reasoning capability 를 발전시키고 평가하려는 시도 자체가 없었다. 이에 저자들은, IfQA 라 불리는 3,800 개의 질문들로 이뤄진 counterfactual presupposition benchmark dataset 을 만들어제안한다.
위의 Figure 에서 예시를 볼 수 있다. IfQA 는 causal inference question 을, factual text sources 와 결합한다.
IfQA 는 retrieval 과 reading 에서 새로운 challenge 를 제안한다. 예를 들어, 위의 figure 의 2번째 예시에서, search-reasoning 과정은 네 개의 스텝으로 나뉜다. (i) [search] 에베레스트 산의 현재 높이 (8848M) , (ii) [calculate] 8848-300 = 8548, (iii) [retrieve] second-heighst mountain K2’s 현재 높이 (8611M), (iv) [compare] 두 산 중 높은 산의 높이를 generate : K2
▶ Experiment
IfQA 에서 inital performance level 을 확립하기 위해, 즉 baseline 성능을 제시하기 위해, 저자들은 state-of-the-art close-book and open-book model 을 평가한다. Closed-book model 로는 ChatGPT 의 CoT 능력을 활용하고, open-book model 로는 RAG 와 FiD 와 같은 retrieve-then-generate 모델을 활용한다.
실험 결과, IfQA가 retrieval 과 reading 에서 모두 challenging 한 dataset 임을 보인다. 특히 몇 가지 특별한 발견을 하는데, (1) retireval 에서 semantic matching 을 기반으로하는 전통적인 dense retrieval method 는 counterfactual presupopsition 과 실제 factual evidence 사이의 discrepancy 를 잘 capture 할 수 었었으며, (2) FiD 와 같은 state-of-the-art reader model 들은 gold passage 가 주어져도 50% 정도의 F1 score 를 기록할 정도로 어려워했다. 또한, (3) closed-book CoT reasoning 은 end-QA performance 를 향상시킬 수 있었지만, 여전히 open-book model 보다 성능이 매우 뒤쳐진다. 마지막으로, (4) passage retreival 과 large model reasoner 를 결합하는 것이 가장 좋은 성능을 보인다는 것을 보인다.
2. IfQA : Task and Dataset
2.1. Dataset Collection
모든 dataset collection 은 Amazon Mechanical Turk (AMT) 를 활용하여 이뤄졌다. ※ 자세한 크라우드소싱 관련 내용은 논문 참고.
Annotation protocol 은 아래의 세 가지 과정으로 이뤄진다. 우선, (i) counterfactual qeustion 을 수정할 수 있을 것 같은 Wikipedia 로 부터 passage 를 extract 한다. (ii) 이후, 크라우드소싱을 활용하여 counterfactual reasoning 을 만들고 (iii) additonal worker 를 통해 correctness 와 quality 를 평가한다. Annotation 을 위한 task form 은 아래와 같다.
(1) Question and Answer Annotation
Passage Selection 우선, Wikipedia 에서 causal event 와 관련된 passage 만 filter out 하여 남긴다. Specifically, “lead to, cause, becuase, due to, originally, initially” 와 같은 causality keyword 를 활용하여 filtering 을 진행한다. Randomly selected passage 와 비교하여, 이러한 filtering 기법이 question annotation 의 difficulty 를 압도적으로 낮춰준다고 주장한다.
Question Annotation Human Intelligence Task (HIT) 의 question annotation process 에서 유연성을 확보하기 위하여, worker 들은 20 개의 Wikipedia passage 중 10개의 passage 를 골라서 question 을 annotate 할 수 있다. (Worker 들에게 몇 개의 example 이 제공될 때 question 의 quality 가 좋으며, 유연하게 다양한 example 이 주어지면 더 좋은 quality 의 question 이 생성되었다고 한다) Diverse 한 question example 이 주어지지 않으면 worker 들이 기존의 question 을 mimic 하려고만 하는 경향이 있어서, annotation task 의 example 을 다양하게 만들어서 그 중 5개 정도를 보여주었다고 한다. 또한, free-form 으로 question 을 작성하게하여, template 에 국한되지 않게끔 유도하였으며, 20.6% 정도의 question 이 free-form 으로 생성되었다고 한다.
Answer Annotation 마지막으로, 생성된 question 에 대하여 appropriate 한 경우에 한하여 valid answer 를 작성하게 한다.
(2) Question and Answer Verification
Quetion verification 은 아래의 세 가지 질문을 통해 이뤄진다.
Q1: Is this a readable, passage-related question?
Q2: Is the question not well-defined without the Wikipedia passage?
Q3: Is the given answer correct? If not, could you provide the correct answer to the question?
(3) Answer Post-processing
Question 과 Answer 가 free-form 으로 작성되었기 때문에 Formalize 등의 post-processing 과정을 거친다. 예를 들어, “USA”, “U.S.A” 등 다양한 alias 경우를 “United States of America” 로 통일하거나, “5” 를 “five” 로, “30” 을 “thrity” 로 통일하는 등의 간단한 후처리 작업을 진행한다.
2.2. Dataset Analysis
Answer Type and Length
IfQA Benchmark 는 Answer 를 기준으로 네 가지 type 으로 나뉜다 : entity(49.7%), datae (14.5%), number(15.9%), others (19.9%) 아래의 표에서 예시들을 볼 수 있다. Answer 들은 평균 1.82 words 정도의 짧은 답변으로 이뤄진다 (NQ (2.35 words), TriviaQA (2.46 words), and HotpotQA (2.46 words) 에 비해 짧은 answer)
Question Type and Length
Question type : what(51.7%), who(14.6%), wh en(5.1%), which(10.1%), where(3.5%), how many/much (12.0%) 의 7 가지 type 으로 나뉜다. Question 평균 길이는 23.2 words 로 NQ (9.1 words), TriviaQA (13.9 words), HotpotQA (15.7 words) 등의 기존 open-domain QA 에 비해 counterfactual presupposition clause 를 포함하고 있어 더욱 길다.
Span vs. Non-span Answer
근거가 대부분 Wikipedia 에 있기 때문에, 75.1% 에 해당하는 답변들이 passage 속의 span 이고, mathematical reasoning 과 같은 (위 table 의 두 번째 예시) 경우나 passage 속의 여러 span 들을 합쳐야 하는 경우( 위 talbe 의 세 번째 예시) 등의 경우에서 Non-span answer 를 볼 수 있다.
2.3. Dataset Splits
저자들은 Datset 을 두 개의 official split 으로 나누어 제공한다. 하나는 supervised learning (IfQA-S) 로 일빤쩎인 SPLIT 이다. (train-dev-test : 2400-700-700) 또한, LLM 의 최근 성능을 확인하기 위해 few-shot setting 이 중요해져, 이러한 모델들이 counterfactual presupposition 을 학습할 수 있게 natural test bed 를 제공할 필요성이 증가하였다. 따라서 저자들은, few-shot learning 을 위한 another split (IfQA-F) 를 만들어, train 에 600 개만 투자하고, 나머지 dev-test 에 1600 개씩을 투자하는 split 도 제공한다.
3. Experiments
3.1. Retrieval Corpus
2022-05-01 기준의 Wikipedia dump 를 활용하며, 이는 6,394,390 page 를 가진다. 100 word 이하 passage 등을 제거하는 기존 연구들의 과정을 따라하여, 최종적으로 27,572,699 million passage 를 얻는다.
3.2. Comparison Systems
Closed-book models Codex 와 ChatGPT 를 활용하며, given question 을 encode 한 후, 어떠한 external knowledge 도 활용하지 않고 답한다. Direct answering 대신 Chain-of-Thought (COoT) 를 활용하여 final answer 를 얻는다.
Open-book models BM25 와 DPR retrieve 를 활용하여 Wikipidea 정보를 Retrieve 해온 뒤, FiD, RAG 같은 state-of-the-art retriver 에 T5 를 통해 answer 를 생성한다.
3.3. Evaluation Metrics
- Retrieval performance : Recall@K (R@K)
- End-QA performance : EM, F1
3.4. Implementation Details
※ 논문참고
3.5. Results and Discussion
(1) Retrieval in IfQA is challenging.
Recall@20 에서 60% 정도를 얻어, 40% 의 question 에 대해서는 supprotive evidence 를 얻지 못하였다. IfQA benchmark 는 몇몇 unique feature 를 보인다. 하나로는, 다른 QA dataset 에 비해 더 긴 question 을 가진다는 것이고, 이러한 긴 question 은 BM25 등의 keyword matching 기반 retrieval method 에는 좋은 소식이지만, DPR 같은 semantic matching 기반 method 에는 좋지 않은 소식이다. 다른 하나로는, counterfactual presupposition 과 factual evicdence 사이의 discrepancy 로 semantic matching 이 좋지 않은 검색 결과를 보인다. 예를 들어, “해수면이 빠르게 높아지만 가장 먼저 submerge 되는 국가는 어디인가?” 라는 질문에는, “가장 고도가 낮게 위치한 국가가 어디인가”를 검색해와야 하지만, “해수면”, “상승”, “submerge” 등의 단어에 집중하여 검색해오는 경향이 있다.
(2) Reading and reasoning in IfQA are challenging.
Retrieval 과 별개로 Reading 에서도 model 들이 힘들어하는 것을 볼 수 있다. 위 그림에서 오른쪽 글미과 같이, FiD 같은 state-of-the-art reader model 역시 strugle 하며, golden passage 가 주어진 겨웅에도 40% 정도의 정확도를 보인다. 따라서, FiD 가 대부분의 open-domain QA benchmark 에서 state-of-the-art 성능을 보이더라도, IfQA 에서의 reasoning module 을 poor performance 를 보인다고 해석할 수 있다. 또한, numeriacl reasoning 과 같은 complex reasoning 에서 더욱 낮은 성능 (32%) 을 보이는 것을 볼 수 있다.
(3) Chain-of-thought improves LLMs’ counterfactual reasoning.
Complex reasoning task 에서 강점을 보이는 Chain-of-Thought method 답게, CoT 가 LLM 의 counterfactual reasoning 성능을 크게 끌어올린다. 그러나, 여전히 non-parametric knowledge 에 대한 정보가 부족하기 때문에, state-of-the-art retrieve-then-generate model 인 FiD 등에 비하면, closed-book 은 CoT 를 붙인 LLM 이어도 여전히 부족하다.
(4) Passage retriever + Large model reasoner performs the best on IfQA.
따라서 마지막으로, BM25 나 DPR 같은 retriever 를 활용한 뒤 LLM (ChatGPT) 에 few-shot 으로 했을 때, 큰 성능향상을 보였고, FiD 등의 기존 SOTA retrieve-then-generate 모델을 상회하였다.
(5) Case Study
Conclusion
We introduce IfQA, a novel dataset with 3,800 questions, each of which is based on a counterfactual presupposition and has an “if” clause. Our empirical analysis reveals that IfQA is challenging for existing open-domain QA methods in both retrieval and reasoning process. It thus forms a valuable resource to push open-domain QA research on both retrieval and counterfactual reasoning fronts.
Limitations
The main limitation of IfQA dataset is that it only covers event-based questions, due to the nature of creating counterfactual presuppositions. Therefore, our dataset is not intended for training general opendomain QA models or evaluate their capabilities. For data collection, we relied heavily on human annotators, both for question annotation and verification. Despite our efforts to mitigate annotator bias by providing explicit instructions and examples and by sampling annotators from diverse populations, it is not possible to completely remove this bias. Besides, we use heuristic rules to select only a small portion of Wikipedia passages and then present them to human annotators, which might lead to pattern-oriented bias in the annotated data.
초록색볼드체
초록색배경 빨간색배경