Yoonjoo Lee 1*, Kyungjae Lee 2*, Sunghyun Park 2, Dasol Hwang 2, Jaehyeon Kim 2, Hong-in Lee 3, Moontae Lee 2,4
1 KAIST (Work done at LG AI Research) 2 LG AI Research 3 Yonsei University 4 University of Illinois Chicago. Correspondence to: Moontae Lee moontae.lee@lgresearch.ai.
Abstract
- (Motivation) Intellectual thinking 의 필수불가결한 요소인 Reasoning 에 대해, Question Answering (QA) 이 하나의 방법일 수 있다. 그러나 현재 대부분의 QA 는 deeper understanding 없이 shallow QA 를 풀거나 짧은 factoid 를 푸는데 그친다.
- (Associative Thinking) 복수의 연구에서, 인간은 연합 사고 (associative thinking) 를 통해 관련 지식의 조각들을 모은 후, grounding 한다.
- (QASA) 저자들은 세 타입 : surface, testing, deep question 으로 구성된, AI/ML field scentific article 에 대한 1,798 개의 full stack reasoning dataset 인 QASA 를 제안한다.
- (Experimental Results) QASA 를 활용하여 LLM 을 학습시켰을 때, InstructGPT 를 big margin 으로 outperform 한다.
Introduction
1974년 부터 이어진 인지과학 연구에서, 인간은 Dual process 로 reasoning 을 진행한다는 연구가 있었다. 첫 Step 은 연합 사고(associative thinking) 이고, 다음 step 은 logical reasoning 이다. QA 의 context 로 본다면, 첫 번째는 lexical matching 등을 통한 knowledge piece 를 모으는 것이고, 두 번째는 답변을 하기 위한 evidential retionale 을 찾는 과정일 것이다.
Reading Comprehension (RC) 은 다양한 QA 를 형상화한 하나의 reasoning task 이다. SQuAD, NewsQA, DROP, Natural Questions 등의 task 가 제안되었다. 이러한 것들이 모델의 성능을 많이 발전시키는데 큰 역할을 한 것은 맞지만, 대부분의 QA 가 짧은 factoid QA 로, “what”,”when”,”where”,”who” 등의 질문이 많고, “how”, “why” 는 거의 존재하지 않는다.
최근 Open-domain QA 에서는 Retrieve-then-read 의 방식으로 relevant document 를 추출하고, 정답을 도출해내는 two stage 방법을 표방한 task 를 푼다. 그러나, 역시 대부분 짧은 factoid QA 에 국한 되어 있거나, jointly both stage 를 활용한다기보다는, 첫 번째 stage 에 relying 하는 경우가 대부분 이다.
저자들의 Think-aloud Study 에서, scientific article 을 읽고 full-stack reasoning 을 하는데는, surface question 에 추가적으로 testing 과 deep question 이 필요로 하다는 것을 드러낸다. 특히, surface question 에 대한 답을 하기 위해서는 첫 번째와 두 번쨰 stage reasoning 이 필요로함이 드러난다. 이를 위해 저자들은, Question Answering on Scientific Articles (QASA) benchmark 를 제안한다. 이 dataset 은 reader 와 author 에게 단편적인 단락만 읽게 하는게 아니라, whole paper 를 읽은 뒤 question 을 생성하게 한다. 추가적으로, multi-faceted long-form answer 로 답변하게 한다.
QASA 의 예시는 위의 그림에서 볼 수 있다. QASA 는 AI/ML paper 에서 1,798 개의 QA 를 포함하고 있으며, 위의 question schema 를 통해 deep reasoning level question 을 39.4\% 정도 보유한다.
실험은 세 가지로 진행한다. 위에서 언급한 두 개의 stage 에 대한 각각의 평가인, associative selection, evidential rationale-generation 과 두 stage 를 모두 함께 잘하는 지 확인하는 systematic composition 이다. 각각의 subtask 를 pretrained LLM 에 모델링하였을 때, InstructGPT (text-davinci-003) 을 ROUGE-1 기준 5.11 point 나 앞섰다.
Related Work
- QASPER 는 QA for Academic Research Paper task 의 benchmark 로, question annotator 가 title 과 abstract 만 읽고 질문을 생성하였기 때문에, shallow question 으로 이뤄져있고, 70\% 정도의 질문이 yes/no 대답이나 small extractive word span 같은 간단한 대답으로 이뤄져있다.
- ELI5 와 ASQA 는 Open-domain Long-form QA benchmark 이다. ELI5 는 reddit 기반의 데이터셋인데, 대부분이 supporting paragraph 가 존재하여 지식의 조각을 모아야하는 associative selection 을 요하지 않는다. ASQA 는 multi-passage 에 흩어진 sub-question 들을 모두 답할 수 있어야 한다. 그러나 이들은 associative selection 을 진행하지 않고, QASA 는 단순히 sub-question 에 대한 답만 하는 것이 아니라 evidential rationale generation 을 요한다.
- AQuaMuSe 는 Query-focused Multi-Document Summarization(qMDS) task 의 benchmark 이다. qMDS 역시 multi-document 에서 정보를 추출하여 summarization 을 진행한다는 측면은 비슷하지만, 이들은 lexical matching 을 통해 automatic generated passage 를 사용해야 하지만 (annotation 이 없기 때문에), QASA 는 particular paragraph 에 대한 human-annotated evidence 가 align 되어있다.
Proposed Task
Scientific article 을 기반한 QA 라는 새로운 task 를 제안한다. Long research paper 전반에 걸쳐있는 multiple evidence 를 기반으로 question 에 답해야 하는 challenging task 이다. Q 와 A 그리고 paragraph 들의 모은 P 에 대하여, 하나의 방법은 Long-Former 등을 이용하여 한 번에 paragraph 를 처리하는 것이다. 그러나 QASA task 에서는 각 qeustion 이 paper 로 부터 rationale 을 연결하는 능력이 필요하다. 따라서 저자들은 (1) associative selection, (2) evidential rationalegeneration, (3) systematic composition 세 step 으로 문제를 design 한다.
Associative Selection
Given paragraph $P=(p_1, …, p_N)$ 에 대하여, answer 혹은 rationale 을 담고 있는 $\hat{P}=(\hat{p_1}, …, \hat{p_k})$ where $k«N$ 을 추출하는 sub-task 이다. 기존의 answerability classification 은 각 paragraph 가 정답을 담고 있느냐만 보았다면, QASA task 는 main answer 를 포함하여 multiple rationale 을 담고 있는지도 본다. 따라서 기존 answerability classification 의 super-task 라고 할 수 있다.
Evidential Rationale-Generation
Selected paragraph 기반으로 Long-form answer 의 기반이 되는 evidential rationale 을 생성하는 단계이다. Evidential rationale 은 (1) main answer 가 될 수 있고, (2) elaboration (i.e., sentences which elaborate on the main answer), (3) auxiliary information (i.e., background knowledge that could be helpful to the user) 이 될 수 있다. $\hat{P}=(\hat{p_1}, …, \hat{p_k})$ 에서 rationale set $(e_1, e_2,…, e_k)$ 를 추출한다.
Systematic Composition
Evidential rationale set $(e_1, e_2,…, e_k)$ 를 single context 로 하여 answer a 를 추출한다.
Building the QASA Dataset
(1) Question types
Paper 를 읽을 때 raise 되는 question 의 type 에 대한 고찰로, different levels of reasoning 에 대한 다양한 question 생성 schema 를 활용한다. Question type 은 아래와 같다.
- Surface questions aim to verify and understand basic concepts in the content. The answer content is directly related to the words in the question and immediate context. This type includes verification, distinctive, concept completion questions.
- Testing questions are focused on meaning-making and forming alignment with readers’ prior knowledge. These questions aim to find similar examples (example), quantify variables (quantification), and find meaning and make comparisons across concepts (comparison).
- Deep questions ask about the connections among the concepts in the content and elicit advanced reasoning in logical, causal, or goal-oriented systems. This type includes causal antecedent, causal consequence, goal orientation, instrumental/procedural, rationale, expectation questions.
(2) Papers
open-aceess paper 의 machine readable full-text 의 collection 인 S2ORC 와 arXiv paper collection 를 활용한다. arXiv 에서는 cs.AI domain 을 활용하고, S2ORC 의 경우, 2015 년 이후 출판된 것 중 100개 인용 이상된 논문만 활용한다.
(3) Data collection
Reader session 과 Author session 으로 나눠서, reader 는 general reader 가 생성하는 QA, author 는 optimal annotated question 을 생성하는 역할로 나눴다. 두 session 모두 AI/CS 분야에서 일하는 annotator 를 섭외하였고, answering quality 를 위해 exam 도 보았다고 한다. ※ 자세한 question/answer 생성 방법은 논문 참고
(4) QASA Analysis
Representative examples
세 question 타입중 39.4\% 는 deep questions, 30.0\% 는 testing, 30.7\% 는 surface-level 이다. Deep question 중에는 instrumental sub-type 이 가장 많고, testing 에서는 comparison sub-type 이, surface 에서는 concept completion 이 가장 많다.
12\% 정도의 question 은 rationale 이 없는 unasnwerable question 이고, answerable question 중에는 평균적으로 1.67 개의 eveidential rationale 을 갖고 있다. 반절 정도의 답변들은 compose 를 위하여 annotator 를 필요로 하고, 나머지는 반절은 redundant rationale 을 simplifiying 하는 것만 요구한다.
QASA Approach
앞서 말한 세 가지 sub-task 인 (1) associative selection, (2) evidential rationalegeneration, (3) systematic composition 에 대해 실험을 진행한다. Associative selection 의 경우, search space 를 narrow down 하기 위해 pre-trained retrieval model 을 활용하여 question 에 대한 top-10 paragraph 를 뽑아서 whole paper 를 대체한다.
LLM 을 instruction tuning 하여 세 가지 sub-task 를 학습하며, sequential 하게 이전 step 의 output 이 다음 step 의 input 이 된다. Instruction prompt 는 아래와 같다.
모델은 T5, T0, FLAN-T5, GALACTICA 를 활용한다.
Training data 는 아래와 같다.
Experiment
Evaluation of Subtasks and Full-stack QA
Associative selection 의 경우, human annotated paragraph 를 positive 로, 나머지 top-10 paragraph 를 negative 로 하여 classification 을 진행하고, preicision, Recall, F1 score 로 평가한다. Rationale-generation 의 경우, gold positive paragraph 로 부터 evidential rationale generation 을 ROUGE 로 평가한다. Answer composition 의 경우, gold evidential rationale list 로 부터 answer 를 generation 하는 것으로 역시 ROUGE 로 평가한다.
Main Results
아래에서 세 개의 sub-task 와 Full-stack QA 에 대한 성능을 볼 수 있다.
Which pretrained LM is best?
Pretrained LM 중에서는 InstructGPT (175B) 가 가장 좋았다. 특히, rationale-generation task 에 대해 best performance 를 보였다. T5-based LM 중에서는 FLAN-T5 > T0 > T5 로 성능을 보여, downstream task 를 배운 수가 significant impact 를 보였다.
Which finetuned LM is best?
T0, T5, FLAN-T5 다 three subtask 에 대해서는 비슷비슷한 성능을 보였지만, ful-stack QA 에 대해서는 FLAN-T5 가 강점을 보인다. 심지어, InstructGPT 보다도 훨씬 좋은 성능을 보인다.
Does our task indeed need rationale-generation?
아래 table (full-stack QA result) 에서 w/o Rationale Gen 의 성능이 크게 저하 됨으로써, rationale generation 이 full-stack QA 를 위해 crucial step 임을 알 수 있다.
The failure of Galactica
Galactica 가 large-sclae research paper 를 배웠음에도 불구하고, 저조한 성능을 보인다. 특히 ‘yes’ 나 ‘no’ 로만 대답하는 성향이 강해, ROUGE score 가 매우 낮은 것을 볼 수 있다.
Human Evaluation
ASQA 논문을 기반으로 Human evaluation 을 진행한다. QASA 의 Full-stack 방법으로 QA 를 푸는 것이, instructGPT 에게 question 을 던져주고 answer 를 얻는 것보다 Groundness, Completeness, Specificity 측면에서 모두 좋은 모습을 보였다. 반면 Fluency 측면에서는, InstructGPT가 좋은 모습을 보였다.
Conclusion
Conventional information search requires a series of nontrivial efforts from retrieving and reranking relevant information to manually reading and restructuring the selected information. Due to growing volumes of scientific papers and professional articles, the traditional process is no longer feasible, urging an innovation in knowledge processing and reasoning. Generative QA would be a promising alternative, but it lacks appropriate benchmark and principled methodologies that are focused on human intellectual capabilities: full-stack reasoning.
In this paper, we propose the QASA: a novel benchmark dataset and a computational approach. Our QASA benchmark guides expert readers and paper authors to generate various types of questions and answers from surface to testing and deep levels. Our QASA approach decomposes the full-stack reasoning process into three reasoning subtasks: associative selection, evidential rationale-generation, and systematic composition. By modeling each subtask by pretrained LM, we show that FLAN-T5 finetuned on public and synthetic data could serve as the best test-bed for our QASA, proposing a new horizon of full-stack cognitive reasoning on scientific articles such as research papers and manuscripts.