Yongil Kim

Seoul National University

[EMNLP2023] Retrieval-Generation Alignment for End-to-End Task-Oriented Diaogue System

24 Jan 2024 » Retrieval, Dialogue

[pdf][github]

Weizhou Shen1, Yingqi Gao1, Canbin Huang1, Fanqi Wan1, Xiaojun Quan1*, Wei Bi2*
1 School of Computer Science and Engineering, Sun Yat-sen University, China 2 Tencent AI Lab  

image

Abstract

  • (Retrieval for TOD) Localized and specialized task 를 효과적으로 처리하기 위해, Task-Oriented Dialogue(TOD)은 Knowledge Base (KB) 에서 정보를 Retrieval 해온다.
  • (Retrieval Error) 그러나, ChatGPT 나 T5 등의 generative model 이 KB record 에서 retrieved 된 정보를 처리할 때, 사소한 차이점으로 인한 잘못된 결과를 생성해낸다.
  • (Proposed Method) 이 논문에서는 maximal marginal likelihood 를 사용하여, response generation 으로부터의 signal 을 통해 perceptive retriever 를 학습시킨다.
  • (Experiment) 이 방법으로 학습된 retriever 를 T5 와 ChatGPT 를 backbone 으로 하여 싫머을 진행하였을 떄, high-quality 의 knowledge record 로 부터, 좋은 response 를 generate 하는 것을 검증한다.

1.Introduction

image

TOD : Task-Oriented Dialogue System
Task-Oriented Dialogue System (TOD)은 기차 예약, 스케쥴 조정 등 특정한 목표를 수행을 돕는 시스템이다. 보통 TOD 는 pipeline 과 End2End 형식으로 나뉘는데, DST, Policy 등의 모듈이 나눠져 파이프라인 형식으로 진행이 되거나, 중간 개입 없이 한 번에 response 를 generate 하는 방식이 각각 그것들이다. Pipeline 모델과 그 각 모듈들에 대한 연구가 성행하다가, 최근 Large Language Model (LLM) 의 출현 덕분에, End2End 모델에 대한 관심도가 급증 하고 있다.

RAG : Retrieval-augmented generation
Retrieval-augmented generation (RAG) 은 result 를 generate 하기 위해 외부 지식을 retrieval 하여 활용하는 것을 말한다. Q-TOD 에서는 E2E-TOD 에 RAG 방법을 적용하여 기존의 방법들을 훨씬 뛰어넘는 성능을 보였다. 하지만 저자들의 preliminary study 에 따르면, knowledge retriver 의 perofrmance 와 reponse generator 의 performance 사이의 correlation 은 상당히 약하며, 이 것은 retriever 을 imporve 한다고 해서 전체적인 generation 성능이 좋아지는 것은 아니라는 것을 의미한다. 저자들은 이 현상을 misalignment between retireval and generation 이라고 명명한다. 이 현상이 최근 E2E-TOD 의 발목을 잡는 bottleneck 이다.

Qualitative analysis
Qualitative analysis 로, 저자들은 이 misalignment 는 homegeneity of retreived knowledge entity 때문이라고 가정한다. 위의 Figure 1 과 같이, retrieved 되어 온 entity 들은 약간의 차이점을 제외하고, 높은 수준의 유사성을 보인다. 결과적으로, reponse generator 는 knowledge-related token 보다, 학습된 language token 에 predominant 하게 반응하여 결과를 생성해낸다고 본다.

MK-TOD : Meta Knowledge for TOD
이에 저자들은 Meta Knowledge for end-to-end Task-Oriented Dialogue system (MK-TOD) 을 제안한다. MK-TOD 는 언급된 misalignment 를 해결하는 것을 목표로 한다. 우선, maximal marginal likelihood 방법을 통해 retriever 가 학습 과정 내내 progressive 하게 학습되도록 하였고, response generator 가 entity 들을 잘 구분하게 하기 위하여, meta knowledge 를 사용할 수 있는 능력을 갖추게 한다. 여기서, meta knowledge 는 retrieval 에 관련된 추가 정보로, retrieval order, retrieval confidence, co-occurrence rate 으로 이뤄진다. Meta knowledge 는 세 가지 접근법을 통해 학습을 진행해 보는데, (1) special prefix token 을 추가, (2) prompt 활용, (3) contrastive learning 적용이다. 또 추가적으로 generator 가 discriminative ability 를 갖게 하기 위하여, negative knowledge 를 사용하는 방법도 실험한다.

Experiments
MK-TOD 를 T5 와 ChatGPT 모델을 backbone 으로 하여 적용한뒤, 다른 E2E-TOD system 과 비교실험을 진행한다. SMD, CamRest, Woz 같은 benchmark dataset 에 대하여 제안된 system 이 기존의 SOTA 를 뛰어넘는 성능을 보인다. 또한, MK-TOD 를 통해 ChatGPT의 in-context learning 을 효과적으로 향상시킬 수 있음을 보인다. 추가적인 분석으로, meta-knowledge 의 학습이 misalingment 개선에 큰 도움이 되는 것을 보인다.

2. Methodology : MK-TOD

image

MK-TOD 방법에 대한 개요는 Figure 2 에 나와있다. 각 turn 을 생성하는데 있어, retirever 가 relevant entity 를 추출해 온 후, meta knowledge 와 결합하여 reponse generator 에 주어진다. reponse generator 는 이 정보들을 활용하여 한 문장씩 생성하며, normal text generation likelihood 과 marginal likelihood 를 모두 높인다.

2.1. Notations

  • Dialog $D = (u_1,r_1, …, u_T,r_T)$ with $T$ turns where $u_t$ and $r_t$ are the $t$-th turn user and system utterances.
  • Context $c_t = (u_1,r_1, …, u_t)$
  • External KB $K = (e_1, e_2, …, e_B)$ with knowledge base size $B$
  • $r_t$를 생성하기 위해, $c_t$ 와 $K$ 를 입력으로 받는다.

2.2. System Overview

Retrieve module 속의 context encoder 가 context 를 embedding 한 후, 그 embedded vector 를 eneity encoder 가 encode 한 KB 속의 knowledge vector 들과 score 를 매겨, Top-K 를 뽑아온다. 이후, 이 Top-K entity 들은 Meta Knowledge 과 concate 하여 response generator 에 주어진다.

image

Response generator 는 위의 식을 통해 각각 entity $\epsilon_t$ 에 따른 response 의 prob 을 생성한다. 이후 negative log-likelihood (NLL) 를 통해 text generation 을 학습한다.

image

2.3. Maximum Marginal Likelihood

학습과정에서 Retrieval label 이 없기 때문에, generator 로부터의 supervision signal 을 활용하여 retriever 를 학습한다. 그러나, 위의 NLL loss 를 backpropagate 하는 것은 불가능하기 때문에, Maximum Maringal Likelihood (MML) 를 활용한다.

image

Knowledge base 속의 entity 의 likelihood 를 모두 통합하여 knowledge 전체의 Bayesian perspective 를 제공한다. $\pi$는 retriever 의 parameter 고, $q$는 entity 하나 에 대한 retrieval prob 이다. 이 때, 모든 entity 에 대한 $q$ 계산이 cost 가 들기 때문에, EMDR 의 방법과 마찬가지로, retrieved 된 Top-K $\epsilon$ entity 로 대체한다. 따라서 아래처럼 $K$ 대신 $\epsilon$ 으로 식이 변경된다.

image

이에 따라, MML loss 는 아래와 같으며,

image

최종적으로 hyperparam $\alpha$ 와 $\beta$ 를 통해 아래의 최종 loss 로 합쳐진다.

image

2.4. Meta Knowledge

Generator 가 올바른 entity 를 선택하도록 guide 하여, misalignment 를 해결하기 위해 meta knowledge 를 도입한다. Meta knowledge 는 다음 세 가지로 이뤄진다 : (1) Retrieval order, (2)Retreival confidence, (3)Co-occurrence Retrieval confidence 는 hyper param 을 기준으로 세 가지 (high, middle, low-confidence) 로 나눠 구성되고, Co-occurence 는 이전의 context 에서 나왔던 entity 에 대해 그 정보를 기록한다.

앞 서 말했듯 이 meta knowledge 를 적용하기 위해 세 가지 approach 를 design 한다.

(1) Prefix
Special token 을 활용한 mapping function 이다. 예를 들어, second ranking - middle confidence - not yet mentioned in the context entity 라면, <2nd-entity>, , 이렇게 mapping 한다.

(2) Prompt
“This is the top-1 recalled entity with low confidence” 와 같은 형식으로 prompt 를 추가하는 방법이다.

(3) Contrastive Learning
Retriever 로 부터 추출된 $\epsilon$ entity 들을 활용한 contrastive learning 형식으로 generator 를 학습할 수 있다. ※ Contrastive learning 에 대한 자세한 내용은 논문 참고.

2.5. Negative Entity

Information Retrieval 에서의 negative sampling 기법과 같이, $K$ 에서 가장 낮은 score 를 보이는 entity 하나를 nagative neity 로 하여, special negative meta knowledge 와 함께 학습에 활용한다.

3. Experimental Settings

3.1. Datasets and Metrics

Datasets

  • MultiWOZ 2.1 (MWOZ)
  • CamRest
  • Stanford Multi-Domain (SMD)

KB 는 session-level 일 수도 있고, dataset 전반에 걸쳐 공통으로 사용되는 것일 수도 있다.

Metrics

  • BLEU
  • Entity F1
  • Recall@K

3.2. Implementation Details

  • Retriever : BERT
  • Generator : T5, ChatGPT (in-context learning) ※ ChatGPT : Retriever 는 T5 를 이용하여 학습된 retriever 를 활용한 inference 만 진행

3.3. Basline Methods

Implicit Retrieval

  • DF-NET
  • EER
  • FG2Seq
  • CDNET
  • GPT-kE

Explicit Retrieval

  • Q-TOD
  • DialoKG
  • MAKER

LLM

  • ChatGPT (gpt-3.5-turbo)

4. Results and Anlaysis

4.1. Overall Results with Large-Scale KBs

image

MK-TOD 가 적용된 같은 scale 의 generator model 은 모두 그렇지 않은 generator 를 능가한다. Q-TOD 의 경우 Recall@K 에서 강점을 보여 좋은 retriever 를 갖고 있는 것을 보이지만, BLUE 와 Entity F1 에서 제안된 방법이 앞서, MK-TOD 를 활용한 방법이 retireved 된 knolwedge 를 더 잘 활용한다는 것을 검증한다. CamRest 의 경우, T5-Base 가 T5-Large 보다 성능이 좋은데, 이는 CamRest 의 training data size 가 작기 때문이라고 추정한다.

아래 쪽의 ChatGPT 결과를 보면, relying solely on in-context learning does not enable ChatGPT to perform as well as the fine-tunable methods in the context of E2E-TOD 라는 해석을 얻을 수 있다.

4.2. Overall Results with Condensed KBs

image

Condensed KB 에 대한 결과는 위의 Table 과 같다. 앞선 결과와 비슷한 경향의 결과를 보인다.

4.3. Retrieval-Generation Misalignment

image

Section 4.1. 의 baseline 들로 misalignment 에 대한 분석을 진행한다. Solid line 을 통해 retriever performance 의 증가가 generator 의 performance 증가로 이어지지 않는 것을 볼 수 있다. 특히, oracle entity 를 활용한 결과가 오히려 weak retriever 보다 안좋은 경우도 보인다. 이러한 misalignment 에 대하여, dahsed line 을 보면, MK-TOD 를 적용한 방법은 이 현상이 보이지 않는다.

4.4 Ablation Study

Maximum Marginal Likelihood
image

세 가지 approach 에서 MML 은 항상 중요한 요소이다.

Types of Meta Knowledge
image

세 가지 type 을 모두 쓰는 것과 single type 을 쓰는 것이 큰 차이를 보이지는 않는다.

Negative Samples
image

Negative Sample 을 학습 과정에 사용하는 것이 T5-Base 의 성능을 증가시킨다. 그러나 ChatGPT 에 적용 되었을 때는 negative sample 이 contribute 하지 않는다.

4.5. Behavior of Generator

image

MK-TOD를 활용하여 학습된 Generator 는 retrieval order 와 confidence 가 높은 것을 최대한 활용하려 하는 경향성을 보인다. 이를 통해 Meta knowledge 가 entity 를 prioritize 하는 inductive bias 를 통해 좋은 성능을 이끌어내는 것을 볼 수 있다.

5. Conclusion

This paper aims to address the retrieval-generation misalignment in end-to-end task-oriented dialogue systems by introducing maximal marginal likelihood to train a perceptive retriever that leverages signals from response generation. To enable the response generator to better distinguish between entities, we explore several methods for incorporating retrieval-related meta knowledge. We also propose to incorporate negative entities to enhance the discriminative capability. Experimental results demonstrate that when combined with meta knowledge, the response generator effectively leverages high-quality retrieval knowledge, leading to enhanced quality in the generated responses. Through analysis, we observe that previous retrieval-augmented generator models suffer from severe retrieval-generation misalignment, while our method mitigates this misalignment.