AI

[논문리뷰] Summarization is (Almost) Dead; 요약 (거의) 죽음

Bingli 2023. 9. 29. 19:36

Summarization is (Almost) Dead

  • 논문 발표일 : 2023년 9월 18일
  • Peking University, Wangxuan Institute of Computer Technology
  • Xiao Pu, Mingqi Gao, Xiaojun Wan

Abstract

  • LLM(대형 언어 모델) 요약 생성에 대한 평가
  • 새로운 데이터 셋을 개발, 사람이 평가하는 실험을 진행
  • Zero-shot 생성능력을 다섯가지 다른 요약 작업을 통해 평가한다.
  • 결과: LLM이 생성한 요약이 인간이 작성한 요약/세밀하게 튜닝된 모델이 생성한 요약보다 명확하게 선호됨
  • LLM이 생성한 요약은 일관성이 뛰어나며 extrinsic hallucinations 인스턴스도 적다.
  • 요약 작업에서 성능이 만족스럽게 나왔고 텍스트 요약 분야에서 더이상의 작업이 필요하지 않다.
  • 더 높은 품질과 평가 방법을 가진 새로운 데이터셋을 만드는 등 아직 탐구해야 할 몇 가지 방향이 있다.

1 Introduction

  • 텍스트 요약 : 자연어 생성(NLG) 작업 → 뉴스 기사, 소스 코드, 다국어 텍스트 등 다양한 콘텐츠를 간결하게 요약하고 압축하는 것을 목표로 한다.
  • 기존의 방법 : 특정 데이터셋에 대한 Fine-tuning을 통해서 사용했음
  • LLM의 등장 → 제로샷 생성 능력에 주목하게 됨.
  • LLM 성능 평가 : 사람이 작성한 평가 데이터 셋을 사용하여 다양한 요약 작업(단일 뉴스, 다중 뉴스, 대화, 소스 코드, 다국어 요약)을 진행
  • LLM 요약은 평가자에게 매우 선호되었고 더 높은 사실성을 나타내었다.
  • 더 높은 지표 점수를 가진 텍스트 요약 모델의 추가적인 개선이 필요한지에 대해 의문을 제기한다.
  • 지난 3년간 ACL, EMNLP, NAACL 및 COLING에서 발표된 100개의 요약 관련 논문을 샘플링하고 조사한 결과, 약 70%의 논문이 표준 데이터셋에서의 요약 접근 방식의 효과를 검증하였다.
  • 그러므로 “요약은 (거의) 죽었다”고 주장한다.

2 Experimental Settings

2번에서는 평가에 사용된 데이터셋과 모델의 개요, 실험 과정과 세부사항에 대해 설명한다.

2.1 Datasets

  • LLM이 훈련되지 않은 데이터로 평가하기 위해 최신 데이터를 사용하여 데이터셋 구축
  • 각 데이터셋은 50개의 샘플로 구성
  • 단일 뉴스, 다중 뉴스, 대화 데이터의 요약 작업을 진행할 때 CNN/DailyMail, Multi-News, Mediasum이 사용한 데이터셋 구축 방법을 모방하여 실험을 위한 데이터셋을 구축
  • Cross-lingual summarization: 영어로 된 단일 뉴스 데이터셋의 요약을 Google 번역을 사용하여 중국어로 번역한 후 후처리 과정을 거친다.
  • 코드 요약: 데이터셋을 구성 → Bahrami et al. (2021)의 방법론을 채택

2.2 Models

  • LLM의 대표로 GPT-3, GPT-3.5, GPT-4를 선택
  • 추가적으로 1-2개의 작은 모델을 활용
    • 단일 뉴스: BART, T5
    • 다중 뉴스: Pegasus, BART
    • 대화 요약: T5, BART
    • 크로스 언어: MT5, MBART
    • 소스 코드: Codet5

2.3 Experimental process and details

  • 사람 평가 시험 진행
  • 각 작업당 두 명의 annotator(주석자), 한 작업당 50개 질문 할당
  • 각 질문마다 원문 기사와 요약본을 비교하도록 제시, 요약본을 짝지어 비교
  • 작업에 총 n개의 시스템이 있다면, 각 주석 작업자는 한 질문에 대해   $$C_{n}^{2}$$ 개의 비교를 수행
  • 전체적인 Cohen의 카파 계수를 계산하고, 주석 작업자 간 합의가 0.558인 수준으로 적절하다고 판단

3 Experiment Results

3.1 Experiment 1: Comparing the overall quality of summaries

  • 다양한 요약의 전반적인 품질을 비교 → 시스템M과 시스템N을 비교할 때 평가자들이 시스템M을 얼마나 선호하는지를 나타내는 $$WinRate_{M}^{N}$$를 계산
  • 서로 다른 시스템 간의 승률을 비교하면서 시스템들의 상대적인 품질에 대한 인사이트를 얻을 수 있다.
  • 그림 1: LLM에 의해 생성된 요약은 모든 작업에서 사람 or 파인튜닝된 모델에 의해 생성된 요약보다 일관되게 성능이 우수함.

표 1: 5가지 작업에 걸쳐 다른 시스템 간의 승률(%). 시스템 M(가로축)이 시스템 N(세로축)보다 선호되는 비율을 나타낸다. 빨간색은 50%보다 큰 이기는 비율을 나타내며, 이는 M 시스템의 선호를 나타냄. 파란색은 50%보다 작은 비율을 나타내며, N 시스템의 선호를 나타낸다. 색상이 짙을수록 두 시스템 간의 이기는 비율 차이가 더 크다. 사람들이 LLMs를 매우 선호한다는 것을 발견할 수 있다.

  • LLM은 왜 인간이 작성한 요약보다 우수한 성능을 내는가
  • 또한, 인간이 작성한 자료의 특정한 한계를 조사하도록 유도한다.
  • 초기 관찰 결과 → LLM이 생성한 요약은 높은 유창성과 일관성을 가지고 있다.
  • 하지만 LLM 요약은 인간이 작성한 요약 사이의 상대적인 사실에 기반한 일관성은 불확실함.
  • 다음 실험에서 사실에 기반한 일관성의 측면을 탐구하는데 초점을 둔다.

3.2 Experiment 2: Comparing the factual consistency of summaries

표 1: GPT-4와 인간이 작성한 요약문에서 발견된 환각의 수 (문장 단위). 상당히 큰 숫자를 강조.
표 2: GPT-4와 인간이 작성한 요약에서 외재적 환각의 비율

  • 인간과 LLM이 만든 요약에서 hallucination(환각)을 식별하기 위해 Annotation을 추가
  • LLM으로 GPT-4를 선택
  • 표 1: 인간이 작성한 요약은 GPT-4와 비교했을 때 동등하거나 더 많은 환각을 보임.
  • 오류의 유형을 추가로 조사 → 내재적 환각, 외재적 환각
  • 내재적 환각(intrinsic hallucination): 요약에서의 정보와 원본 텍스트 사이의 불일치를 의미
  • 외재적 환각(extrinsic hallucination): 존재하지 않는 특성 정보가 포함
  • 표 2: 인간이 작성한 요약문이 (사실적인 일관성이 부족한 task에서) 외재적 환각이 더 높은 빈도로 발생
  • 따라서, 불충분한 사실적 일관성이 인간의 요약문에서 관찰되는 근본적인 원인이다.

3.3 Comparative Analysis

LLM 요약의 특정 강점을 인간 및 세밀 조정된 요약과 비교하여 분석

그림 2: 사람이 작성한 요약문과 GPT-4 요약을 비교한 연구. 사람이 작성한 요약에서 문제점을 더 잘 이해하기 위해 다음과 같이 색상을 부여함: 불완전한 정보- 주황색, 문법 오류- 파란색, 환각-초록색

Reference summaries vs. LLM summaries

  • 문제 1: 유창성의 부재
    • 그림 2(a)에서 보여지는 것처럼, 인간이 작성한 요약은 정보가 불완전하게 표현됨
  • 문제 2: 인간이 작성한 요약에 환각이 존재한다

Summaries generated by fine-tuned models vs. LLM summaries In comparison to LLM

  • 파인튜닝된 모델에 의해 생성된 요약
    • 길이: 고정적이고 제한적임
    • 여러 주제가 포함된 경우 : 좁은 범위
  • LLM
    • 길이 : 입력의 정보의 양에 따라 출력 길이 조정
    • 여러 주제가 포함된 경우 : 모든 주제를 포착

그림 3: 파인튜닝된 요약과 GPT-4 요약을 비교하는 연구. 대화는 네 가지 주제가 논의되는 뉴스 프로그램의 대본. 소스 텍스트에는 대화 주제 간의 전환을 빨간색으로 표시.

4 The Changing Landscape of Summarization: Seeking New Horizons

  • 미래의 LLM은 지속적으로 개선됨에 따라 요약 능력이 더욱 향상될 것이다~
  • 요약 연구의 70%가 더 이상 의미가 없다!
  • 그러나 앞으로 어떤 탐구를 하면 좋을지 제시해보겠다!

4.1 Summarization Datasets

  • 데이터셋의 역할 : 모델 훈련에서 테스트로 변화. 고품질의 요약이 필요하다!
  • 전문가의 주석이 필요함
  • 대부분의 요약 데이터셋은 영어로 되어있고, 출처 문서들은 비교적 짧다.
  • 다양한 장르의 데이터와 다른 언어를 통합하는 것이 필수적!
  • 책과 같은 더 긴 문서도 데이터셋에 포함되어야 한다.

4.2 Summarization Approaches

  • LLM의 도움을 받아 응용 지향적 요약 접근법
  • Customized Summarization
    • 사용자의 선호도, 독서 기록, 전문 지식과 일치하는 요약을 생성하기 위해 사용자 정의를 할 수 있다.
    • 이를 통해 요약 과정을 개인화할 수 있다.
  • Real-time Summarization
    • 실시간으로 정보를 압축하는 능력
      • 라이브 스트림, 주식 시장 변동 또는 소셜 미디어 모니터링과 같은 다양한 곳에서 중요한 역할
    • LLM의 신속성과 효율성을 향상시키는 데 집중할 수 있다.
  • Interactive Summarization
    • 사용자와 상호 작용하여 명확화 또는 피드백을 요청할 수 있는 모델 개발
    • 요약의 정확성과 관련성을 향상시키는 데 유망

4.3 Summarization Evaluation

  • 과거의 ROUGE 와 같은 구식의 평가 지표를 작별하는 것이 중요
  • 이러한 지표는 요약 분야의 변화하는 풍경과 더 이상 조화를 이루지 못함
  • 생성된 요약문의 실용성과 적용 가능성에 대한 고려
  • Extrinsic Evaluation
    • 요약의 효과를 측정하기 위해 다른 작업에 입력으로 사용하여 중요한 정보가 유지되었는지 확인

5 Related Work

  • LLM의 요약 능력 평가.
    • Goyal et al. (2023)는 GPT-3에 의해 생성된 뉴스 요약이 파인튜닝된 모델에 의해 생성된 요약과 비교하여 인간들에게 압도적으로 선호된다는 것을 보여준다.
    • Zhang et al. (2023)은 LLM에 의해 생성된 뉴스 요약이 인간이 작성한 요약과 비슷하게 평가된다는 것을 발견했다.
    • 일부 연구는 ChatGPT와 같은 LLM의 성능을 자동 평가를 통해 다양한 측면의 요약 및 언어간 요약에 대해 탐구했다.
    • 본 연구는 GPT-3.5와 GPT-4를 대상으로 하며, 훈련되지 않은 다양한 데이터에 대해 사람 평가를 수행

6 Conclusion

  • 본 연구를 통해 LLM으로 생성된 요약이 인간이 작성한 요약문 or 파인튜닝된 모델이 생성한 요약문과 비교했을 대 놀라운 성능을 보여주었다.
  • 특히 LLM 요약은 뛰어난 유창성과 사실성, 유연성을 포함하고 있다.
  • 연구 결과 : LLM의 발전으로 텍스트 요약에 대한 이전의 접근법들의 의미를 상실하였다.
  • 희망편 : (offer an outlook on the tasks worth exploring in the field of text summarization) 앞으로는 데이터셋, 방법, 평가 이 세 가지 측면에 집중하여 연구해보라고 함.
  • We also offer an outlook on the tasks worth exploring in the field of text summarization in the future, focusing on three aspects: datasets, methods, and evaluation.