Yongil Kim

Seoul National University

[EMNLP2023] EtiCor: Corpus for Analyzing LLMs for Etiquettes

27 Mar 2024 » LLM

[pdf][github]

Ashutosh Dwivedi, Pradhyumna Lavania, Ashutosh Modi
Indian Institute of Technology Kanpur (IIT Kanpur)  

image

Abstract

  • (Etiquette) 에티켓은 상호작용에서 가장 중요한 요소이고, region-specific 한 특성을 가진다.
  • ( EtiCor ) 이 연구에서는 Etiquettes Corpus 인 EtiCor 를 제안한다. Eticor는 전세계의 다 섯가지 지역에서 social norm 을 담고 있는 corpus 이다. 이것은 LLM 을 평가하기 위한 test bed 로 사용될 수 있다.
  • (Etiquette Sensitivitiy) 이에 더불어, Etiquette Sensitivity 라는 task 를 제시하여, Delphi, Falcon40B, GPT-3.5 등의 State-of-the-Art LLM 으로 실험한 baseline 을 제시한다. 그 결과 LLM 들이 non-Western 지역의 에티켓을 잘 이해하지 못함을 보인다.

1. Introduction

▶ Etiquettes
에티켓(Etiquettes)은 사회적인 행동에 대한 rule 과 convention 을 정의한다. 따라서 에티켓은 regional implication 을 담는 매우 중요한 요소이다. 몇 가지 social norm 은 전세계적으로 common 한 특성을 갖지만, 대부분의 지역에서 society-specific 한 norm 이 있으며 이 들은 다른 사회의 norm 과 충돌하는 것이 대부분이다. 만약 다른 지역이나 문화를 방문할 일이 있을 때, 이 사회적 norm 에 반하는 행동을 하지 않도록 유의하는 것이 필요하다.

최근 디지털 시대에 들어서면서 책보다는 web search 나 PDA (Personal digital assistant) 등의 도움으로 다른 사회의 norm 을 익힌다. 그러나, 과연 LLM 은 social norms-specific information 을 갖추고 있을까? 거의 대부분의 LLM 은 Western culture 에 skewed 되어 학습이 되어 있으며, 특히 Wikipedia 같은 primary data source 를 학습한다. 그러나, 아래의 테이블에서 볼 수 있는 것처럼 Wikipedia page 통계를 보면, 대부분의 content 가 English content 이며, 제작자들 역시 북미와 유럽 등의 Western society 임을 알 수 있다.

image

▶ EtiCor (Etiquettes Corpus)
이에 저자들은 LLM 이 다른 지역의 문화와 에티켓에 대한 지식 수준을 얼마나 잘 이해하는 지 파악하고, 또 generative langauge model 이 특정한 culturl norm 에 반하는 skewed 된 generation 을 하는지 확인하기 위하여 새로운 corpus 인 Eticor 를 소개한다. Eticor는 여러 지역에 걸쳐 social norm 을 포함하고 있다. Corpus 는 영어로 되어 있지만, 미래에 multi-lingual 로 만들 계획이다.

Eticor 의 필요성을 점검하면, 우선 LLM 이 다른 사회적 norm 을 잘 이해하고 생성하는지 판단할 수 있으며, 추후에 AI system 이 문화적 차이를 반영하는데 필수불가결하게 쓰일 가능성이 있다. 이를 위해 Etiquette Sensitivity 라는 새로운 task 를 제안한다.

2. EtiCor: Corpus for Etiquettes

EtiCor 제작을 위해 etiquette 의 사전적 정의와 social norm 의 set 을 정의한다. Etiquette 은 region-specific 하고 social and professional behavior 를 dictate 하며 subjective 하다. EtiCor 는 East Asia (EA), India (IN), Middle East and Africa(MEA), North America and Europe (NA), Latin America (LA) 다섯 가지 지역을 cover 한다. 아래의 Table 에서 각각 지역의 예시를 볼 수 있다.

image

EtiCor는 kitchen manner, food routine 등의 day-to-day data 를 모은다. EtiCor는 아래의 4 가지 타입을 대표적으로 구성하고 있다.

  1. Dining and Festivals, 2. Visits and Social Interactions, 3. Travel, and 4. Business. 아래의 그림에서 각 타입에 대한 distribution 을 볼 수 있다.

image

EtiCor Creation
Government-aided wiebsete 같은 authentic 하면서 publicly available source 에서 정보를 모은다. 이러한 source 에는 regional etiquettes, tour guide points and pamphlets, etiquette information channels, and tweets and magazines on etiquettes 등이 포함된다. 모인 정보는 전처리 과정을 거쳐 정제된다.

Labeling

  • label +1 : acceptable (positive) classgeneral eetiquette of the region
  • label -1 : non-acceptable (negative) class

3. Etiquette Sensitivity

Task Definition
LLM 이 region-specific societal etiquette 을 이해하는지 testing 하기 위한 task 를 제안한다. Etiquette Sensitivity 라는 이 태스크는 statement 가 해당 지역에서 appropriate 한지 predict 하는 것이 목표이다.

Experiments

  • Model : Delphi (11B), Falcon-40B, GPT-3.5 Turbo
  • Metric : F1-score

Results
image

  • 예상대로 North America-Europe (NE) 이 다른 지역보다 훨씬 높은 점수를 보인다. 또한 abstention(기권) 수도 가장 적다.
  • 이를 통해 LLM 이 western culture 에 bias 가 있음을 확인할 수 있다.
  • GPT-3.5 가 가장 나쁜 성능을 보이지만, 한편으로는 가장 적은 기권(abstention)을 보인다.

Wrong Predictions

image

  • Travel and Business etiquette 같은 global etiquette 은 잘한다.
  • Dining and Visits etiquette 같은 region-specific etiquette 에서 wrong prediction 비율이 높다.

Conclusion

In this paper, we presented EtiCor, a corpus of etiquettes covering major world regions. We further evaluated the performance of LLMs on the task of Etiquette Sensitivity and the results indicate a significant gap in knowledge and understanding of LLMs. In the future, we plan to develop regionspecific Adapters and integrate them into an LLM via a mixture of expert

Limitations

In this paper, we proposed a new corpus and experimented on the task of Etiquette Sensitivity in a limited set of few LLMs. We do not develop any new model and leave it for future work. This resource paper aims to introduce the corpus and the task and show the limitations of LLMs when it comes to region-specific etiquettes. The work is a first step towards making more sophisticated etiquette-sensitive models.