[논문리뷰] Summarization is (Almost) Dead; 요약 (거의) 죽음

Bingli 2023. 9. 29. 19:36

Summarization is (Almost) Dead

논문 발표일 : 2023년 9월 18일
Peking University, Wangxuan Institute of Computer Technology
Xiao Pu, Mingqi Gao, Xiaojun Wan

Abstract

LLM(대형 언어 모델) 요약 생성에 대한 평가
새로운 데이터 셋을 개발, 사람이 평가하는 실험을 진행
Zero-shot 생성능력을 다섯가지 다른 요약 작업을 통해 평가한다.
결과: LLM이 생성한 요약이 인간이 작성한 요약/세밀하게 튜닝된 모델이 생성한 요약보다 명확하게 선호됨
LLM이 생성한 요약은 일관성이 뛰어나며 extrinsic hallucinations 인스턴스도 적다.
요약 작업에서 성능이 만족스럽게 나왔고 텍스트 요약 분야에서 더이상의 작업이 필요하지 않다.
더 높은 품질과 평가 방법을 가진 새로운 데이터셋을 만드는 등 아직 탐구해야 할 몇 가지 방향이 있다.

1 Introduction

텍스트 요약 : 자연어 생성(NLG) 작업 → 뉴스 기사, 소스 코드, 다국어 텍스트 등 다양한 콘텐츠를 간결하게 요약하고 압축하는 것을 목표로 한다.
기존의 방법 : 특정 데이터셋에 대한 Fine-tuning을 통해서 사용했음
LLM의 등장 → 제로샷 생성 능력에 주목하게 됨.
LLM 성능 평가 : 사람이 작성한 평가 데이터 셋을 사용하여 다양한 요약 작업(단일 뉴스, 다중 뉴스, 대화, 소스 코드, 다국어 요약)을 진행
LLM 요약은 평가자에게 매우 선호되었고 더 높은 사실성을 나타내었다.
더 높은 지표 점수를 가진 텍스트 요약 모델의 추가적인 개선이 필요한지에 대해 의문을 제기한다.
지난 3년간 ACL, EMNLP, NAACL 및 COLING에서 발표된 100개의 요약 관련 논문을 샘플링하고 조사한 결과, 약 70%의 논문이 표준 데이터셋에서의 요약 접근 방식의 효과를 검증하였다.
그러므로 “요약은 (거의) 죽었다”고 주장한다.

2 Experimental Settings

2번에서는 평가에 사용된 데이터셋과 모델의 개요, 실험 과정과 세부사항에 대해 설명한다.

2.1 Datasets

LLM이 훈련되지 않은 데이터로 평가하기 위해 최신 데이터를 사용하여 데이터셋 구축
각 데이터셋은 50개의 샘플로 구성
단일 뉴스, 다중 뉴스, 대화 데이터의 요약 작업을 진행할 때 CNN/DailyMail, Multi-News, Mediasum이 사용한 데이터셋 구축 방법을 모방하여 실험을 위한 데이터셋을 구축
Cross-lingual summarization: 영어로 된 단일 뉴스 데이터셋의 요약을 Google 번역을 사용하여 중국어로 번역한 후 후처리 과정을 거친다.
코드 요약: 데이터셋을 구성 → Bahrami et al. (2021)의 방법론을 채택

2.2 Models

LLM의 대표로 GPT-3, GPT-3.5, GPT-4를 선택
추가적으로 1-2개의 작은 모델을 활용
- 단일 뉴스: BART, T5
- 다중 뉴스: Pegasus, BART
- 대화 요약: T5, BART
- 크로스 언어: MT5, MBART
- 소스 코드: Codet5

2.3 Experimental process and details

사람 평가 시험 진행
각 작업당 두 명의 annotator(주석자), 한 작업당 50개 질문 할당
각 질문마다 원문 기사와 요약본을 비교하도록 제시, 요약본을 짝지어 비교
작업에 총 n개의 시스템이 있다면, 각 주석 작업자는 한 질문에 대해 $$C_{n}^{2}$$ 개의 비교를 수행
전체적인 Cohen의 카파 계수를 계산하고, 주석 작업자 간 합의가 0.558인 수준으로 적절하다고 판단

3 Experiment Results

3.1 Experiment 1: Comparing the overall quality of summaries

다양한 요약의 전반적인 품질을 비교 → 시스템M과 시스템N을 비교할 때 평가자들이 시스템M을 얼마나 선호하는지를 나타내는 $$WinRate_{M}^{N}$$를 계산
서로 다른 시스템 간의 승률을 비교하면서 시스템들의 상대적인 품질에 대한 인사이트를 얻을 수 있다.
그림 1: LLM에 의해 생성된 요약은 모든 작업에서 사람 or 파인튜닝된 모델에 의해 생성된 요약보다 일관되게 성능이 우수함.

표 1: 5가지 작업에 걸쳐 다른 시스템 간의 승률(%). 시스템 M(가로축)이 시스템 N(세로축)보다 선호되는 비율을 나타낸다. 빨간색은 50%보다 큰 이기는 비율을 나타내며, 이는 M 시스템의 선호를 나타냄. 파란색은 50%보다 작은 비율을 나타내며, N 시스템의 선호를 나타낸다. 색상이 짙을수록 두 시스템 간의 이기는 비율 차이가 더 크다. 사람들이 LLMs를 매우 선호한다는 것을 발견할 수 있다.

LLM은 왜 인간이 작성한 요약보다 우수한 성능을 내는가
또한, 인간이 작성한 자료의 특정한 한계를 조사하도록 유도한다.
초기 관찰 결과 → LLM이 생성한 요약은 높은 유창성과 일관성을 가지고 있다.
하지만 LLM 요약은 인간이 작성한 요약 사이의 상대적인 사실에 기반한 일관성은 불확실함.
다음 실험에서 사실에 기반한 일관성의 측면을 탐구하는데 초점을 둔다.

3.2 Experiment 2: Comparing the factual consistency of summaries

표 1: GPT-4와 인간이 작성한 요약문에서 발견된 환각의 수 (문장 단위). 상당히 큰 숫자를 강조.

인간과 LLM이 만든 요약에서 hallucination(환각)을 식별하기 위해 Annotation을 추가
LLM으로 GPT-4를 선택
표 1: 인간이 작성한 요약은 GPT-4와 비교했을 때 동등하거나 더 많은 환각을 보임.
오류의 유형을 추가로 조사 → 내재적 환각, 외재적 환각
내재적 환각(intrinsic hallucination): 요약에서의 정보와 원본 텍스트 사이의 불일치를 의미
외재적 환각(extrinsic hallucination): 존재하지 않는 특성 정보가 포함
표 2: 인간이 작성한 요약문이 (사실적인 일관성이 부족한 task에서) 외재적 환각이 더 높은 빈도로 발생
따라서, 불충분한 사실적 일관성이 인간의 요약문에서 관찰되는 근본적인 원인이다.

3.3 Comparative Analysis

LLM 요약의 특정 강점을 인간 및 세밀 조정된 요약과 비교하여 분석

그림 2: 사람이 작성한 요약문과 GPT-4 요약을 비교한 연구. 사람이 작성한 요약에서 문제점을 더 잘 이해하기 위해 다음과 같이 색상을 부여함: 불완전한 정보- 주황색, 문법 오류- 파란색, 환각-초록색

Reference summaries vs. LLM summaries

문제 1: 유창성의 부재
- 그림 2(a)에서 보여지는 것처럼, 인간이 작성한 요약은 정보가 불완전하게 표현됨
문제 2: 인간이 작성한 요약에 환각이 존재한다

Summaries generated by fine-tuned models vs. LLM summaries In comparison to LLM

파인튜닝된 모델에 의해 생성된 요약
- 길이: 고정적이고 제한적임
- 여러 주제가 포함된 경우 : 좁은 범위
LLM
- 길이 : 입력의 정보의 양에 따라 출력 길이 조정
- 여러 주제가 포함된 경우 : 모든 주제를 포착

그림 3: 파인튜닝된 요약과 GPT-4 요약을 비교하는 연구. 대화는 네 가지 주제가 논의되는 뉴스 프로그램의 대본. 소스 텍스트에는 대화 주제 간의 전환을 빨간색으로 표시.

4 The Changing Landscape of Summarization: Seeking New Horizons

미래의 LLM은 지속적으로 개선됨에 따라 요약 능력이 더욱 향상될 것이다~
요약 연구의 70%가 더 이상 의미가 없다!
그러나 앞으로 어떤 탐구를 하면 좋을지 제시해보겠다!

4.1 Summarization Datasets

데이터셋의 역할 : 모델 훈련에서 테스트로 변화. 고품질의 요약이 필요하다!
전문가의 주석이 필요함
대부분의 요약 데이터셋은 영어로 되어있고, 출처 문서들은 비교적 짧다.
다양한 장르의 데이터와 다른 언어를 통합하는 것이 필수적!
책과 같은 더 긴 문서도 데이터셋에 포함되어야 한다.

4.2 Summarization Approaches

LLM의 도움을 받아 응용 지향적 요약 접근법
Customized Summarization
- 사용자의 선호도, 독서 기록, 전문 지식과 일치하는 요약을 생성하기 위해 사용자 정의를 할 수 있다.
- 이를 통해 요약 과정을 개인화할 수 있다.
Real-time Summarization
- 실시간으로 정보를 압축하는 능력
  - 라이브 스트림, 주식 시장 변동 또는 소셜 미디어 모니터링과 같은 다양한 곳에서 중요한 역할
- LLM의 신속성과 효율성을 향상시키는 데 집중할 수 있다.
Interactive Summarization
- 사용자와 상호 작용하여 명확화 또는 피드백을 요청할 수 있는 모델 개발
- 요약의 정확성과 관련성을 향상시키는 데 유망

4.3 Summarization Evaluation

과거의 ROUGE 와 같은 구식의 평가 지표를 작별하는 것이 중요
이러한 지표는 요약 분야의 변화하는 풍경과 더 이상 조화를 이루지 못함
생성된 요약문의 실용성과 적용 가능성에 대한 고려
Extrinsic Evaluation
- 요약의 효과를 측정하기 위해 다른 작업에 입력으로 사용하여 중요한 정보가 유지되었는지 확인

5 Related Work

LLM의 요약 능력 평가.
- Goyal et al. (2023)는 GPT-3에 의해 생성된 뉴스 요약이 파인튜닝된 모델에 의해 생성된 요약과 비교하여 인간들에게 압도적으로 선호된다는 것을 보여준다.
- Zhang et al. (2023)은 LLM에 의해 생성된 뉴스 요약이 인간이 작성한 요약과 비슷하게 평가된다는 것을 발견했다.
- 일부 연구는 ChatGPT와 같은 LLM의 성능을 자동 평가를 통해 다양한 측면의 요약 및 언어간 요약에 대해 탐구했다.
- 본 연구는 GPT-3.5와 GPT-4를 대상으로 하며, 훈련되지 않은 다양한 데이터에 대해 사람 평가를 수행

6 Conclusion

본 연구를 통해 LLM으로 생성된 요약이 인간이 작성한 요약문 or 파인튜닝된 모델이 생성한 요약문과 비교했을 대 놀라운 성능을 보여주었다.
특히 LLM 요약은 뛰어난 유창성과 사실성, 유연성을 포함하고 있다.
연구 결과 : LLM의 발전으로 텍스트 요약에 대한 이전의 접근법들의 의미를 상실하였다.
희망편 : (offer an outlook on the tasks worth exploring in the field of text summarization) 앞으로는 데이터셋, 방법, 평가 이 세 가지 측면에 집중하여 연구해보라고 함.
We also offer an outlook on the tasks worth exploring in the field of text summarization in the future, focusing on three aspects: datasets, methods, and evaluation.

저작자표시 비영리 변경금지

'AI' 카테고리의 다른 글

[논문읽기-2] ChatGPT is fun, but it is not funny! Humor is still challenging Large Language Models (0)	2023.06.13
[논문읽기-1] OCR-free Document Understanding Transformer - 번역 (3)	2023.06.06
[텍스트 생성 요약] BART 알아보기 (0)	2023.04.27
[텍스트 생성 요약] Pointer Generator 모델에 대해 알아보기 (0)	2023.04.25
[Text Extraction] NLP for Indian Languages - 인도 언어를 위한 NLP 라이브러리 (0)	2023.03.03

현재글[논문리뷰] Summarization is (Almost) Dead; 요약 (거의) 죽음

인공지능(자연어처리) 개발자 / AI(NLP) Developer

Today :
Yesterday :

Bini-log

[논문리뷰] Summarization is (Almost) Dead; 요약 (거의) 죽음

Summarization is (Almost) Dead

Abstract

1 Introduction

2 Experimental Settings

2.1 Datasets

2.2 Models

2.3 Experimental process and details

3 Experiment Results

3.1 Experiment 1: Comparing the overall quality of summaries

3.2 Experiment 2: Comparing the factual consistency of summaries

3.3 Comparative Analysis

4 The Changing Landscape of Summarization: Seeking New Horizons

4.1 Summarization Datasets

4.2 Summarization Approaches

4.3 Summarization Evaluation

5 Related Work

6 Conclusion

'AI' 카테고리의 다른 글

'AI'의 다른글

티스토리툴바

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

[논문리뷰] Summarization is (Almost) Dead; 요약 (거의) 죽음

Summarization is (Almost) Dead

Abstract

1 Introduction

2 Experimental Settings

2.1 Datasets

2.2 Models

2.3 Experimental process and details

3 Experiment Results

3.1 Experiment 1: Comparing the overall quality of summaries

3.2 Experiment 2: Comparing the factual consistency of summaries

3.3 Comparative Analysis

4 The Changing Landscape of Summarization: Seeking New Horizons

4.1 Summarization Datasets

4.2 Summarization Approaches

4.3 Summarization Evaluation

5 Related Work

6 Conclusion

'AI' 카테고리의 다른 글

'AI'의 다른글

관련글

티스토리툴바

'AI' 카테고리의 다른 글

'AI'의 다른글