Summarization is (Almost) Dead
- 논문 발표일 : 2023년 9월 18일
- Peking University, Wangxuan Institute of Computer Technology
- Xiao Pu, Mingqi Gao, Xiaojun Wan
Abstract
- LLM(대형 언어 모델) 요약 생성에 대한 평가
- 새로운 데이터 셋을 개발, 사람이 평가하는 실험을 진행
- Zero-shot 생성능력을 다섯가지 다른 요약 작업을 통해 평가한다.
- 결과: LLM이 생성한 요약이 인간이 작성한 요약/세밀하게 튜닝된 모델이 생성한 요약보다 명확하게 선호됨
- LLM이 생성한 요약은 일관성이 뛰어나며 extrinsic hallucinations 인스턴스도 적다.
- 요약 작업에서 성능이 만족스럽게 나왔고 텍스트 요약 분야에서 더이상의 작업이 필요하지 않다.
- 더 높은 품질과 평가 방법을 가진 새로운 데이터셋을 만드는 등 아직 탐구해야 할 몇 가지 방향이 있다.
1 Introduction
- 텍스트 요약 : 자연어 생성(NLG) 작업 → 뉴스 기사, 소스 코드, 다국어 텍스트 등 다양한 콘텐츠를 간결하게 요약하고 압축하는 것을 목표로 한다.
- 기존의 방법 : 특정 데이터셋에 대한 Fine-tuning을 통해서 사용했음
- LLM의 등장 → 제로샷 생성 능력에 주목하게 됨.
- LLM 성능 평가 : 사람이 작성한 평가 데이터 셋을 사용하여 다양한 요약 작업(단일 뉴스, 다중 뉴스, 대화, 소스 코드, 다국어 요약)을 진행
- LLM 요약은 평가자에게 매우 선호되었고 더 높은 사실성을 나타내었다.
- 더 높은 지표 점수를 가진 텍스트 요약 모델의 추가적인 개선이 필요한지에 대해 의문을 제기한다.
- 지난 3년간 ACL, EMNLP, NAACL 및 COLING에서 발표된 100개의 요약 관련 논문을 샘플링하고 조사한 결과, 약 70%의 논문이 표준 데이터셋에서의 요약 접근 방식의 효과를 검증하였다.
- 그러므로 “요약은 (거의) 죽었다”고 주장한다.
2 Experimental Settings
2번에서는 평가에 사용된 데이터셋과 모델의 개요, 실험 과정과 세부사항에 대해 설명한다.
2.1 Datasets
- LLM이 훈련되지 않은 데이터로 평가하기 위해 최신 데이터를 사용하여 데이터셋 구축
- 각 데이터셋은 50개의 샘플로 구성
- 단일 뉴스, 다중 뉴스, 대화 데이터의 요약 작업을 진행할 때 CNN/DailyMail, Multi-News, Mediasum이 사용한 데이터셋 구축 방법을 모방하여 실험을 위한 데이터셋을 구축
- Cross-lingual summarization: 영어로 된 단일 뉴스 데이터셋의 요약을 Google 번역을 사용하여 중국어로 번역한 후 후처리 과정을 거친다.
- 코드 요약: 데이터셋을 구성 → Bahrami et al. (2021)의 방법론을 채택
2.2 Models
- LLM의 대표로 GPT-3, GPT-3.5, GPT-4를 선택
- 추가적으로 1-2개의 작은 모델을 활용
- 단일 뉴스: BART, T5
- 다중 뉴스: Pegasus, BART
- 대화 요약: T5, BART
- 크로스 언어: MT5, MBART
- 소스 코드: Codet5
2.3 Experimental process and details
- 사람 평가 시험 진행
- 각 작업당 두 명의 annotator(주석자), 한 작업당 50개 질문 할당
- 각 질문마다 원문 기사와 요약본을 비교하도록 제시, 요약본을 짝지어 비교
- 작업에 총 n개의 시스템이 있다면, 각 주석 작업자는 한 질문에 대해 $$C_{n}^{2}$$ 개의 비교를 수행
- 전체적인 Cohen의 카파 계수를 계산하고, 주석 작업자 간 합의가 0.558인 수준으로 적절하다고 판단
3 Experiment Results
3.1 Experiment 1: Comparing the overall quality of summaries
- 다양한 요약의 전반적인 품질을 비교 → 시스템M과 시스템N을 비교할 때 평가자들이 시스템M을 얼마나 선호하는지를 나타내는 $$WinRate_{M}^{N}$$를 계산
- 서로 다른 시스템 간의 승률을 비교하면서 시스템들의 상대적인 품질에 대한 인사이트를 얻을 수 있다.
- 그림 1: LLM에 의해 생성된 요약은 모든 작업에서 사람 or 파인튜닝된 모델에 의해 생성된 요약보다 일관되게 성능이 우수함.
- LLM은 왜 인간이 작성한 요약보다 우수한 성능을 내는가
- 또한, 인간이 작성한 자료의 특정한 한계를 조사하도록 유도한다.
- 초기 관찰 결과 → LLM이 생성한 요약은 높은 유창성과 일관성을 가지고 있다.
- 하지만 LLM 요약은 인간이 작성한 요약 사이의 상대적인 사실에 기반한 일관성은 불확실함.
- 다음 실험에서 사실에 기반한 일관성의 측면을 탐구하는데 초점을 둔다.
3.2 Experiment 2: Comparing the factual consistency of summaries
- 인간과 LLM이 만든 요약에서 hallucination(환각)을 식별하기 위해 Annotation을 추가
- LLM으로 GPT-4를 선택
- 표 1: 인간이 작성한 요약은 GPT-4와 비교했을 때 동등하거나 더 많은 환각을 보임.
- 오류의 유형을 추가로 조사 → 내재적 환각, 외재적 환각
- 내재적 환각(intrinsic hallucination): 요약에서의 정보와 원본 텍스트 사이의 불일치를 의미
- 외재적 환각(extrinsic hallucination): 존재하지 않는 특성 정보가 포함
- 표 2: 인간이 작성한 요약문이 (사실적인 일관성이 부족한 task에서) 외재적 환각이 더 높은 빈도로 발생
- 따라서, 불충분한 사실적 일관성이 인간의 요약문에서 관찰되는 근본적인 원인이다.
3.3 Comparative Analysis
LLM 요약의 특정 강점을 인간 및 세밀 조정된 요약과 비교하여 분석
Reference summaries vs. LLM summaries
- 문제 1: 유창성의 부재
- 그림 2(a)에서 보여지는 것처럼, 인간이 작성한 요약은 정보가 불완전하게 표현됨
- 문제 2: 인간이 작성한 요약에 환각이 존재한다
Summaries generated by fine-tuned models vs. LLM summaries In comparison to LLM
- 파인튜닝된 모델에 의해 생성된 요약
- 길이: 고정적이고 제한적임
- 여러 주제가 포함된 경우 : 좁은 범위
- LLM
- 길이 : 입력의 정보의 양에 따라 출력 길이 조정
- 여러 주제가 포함된 경우 : 모든 주제를 포착
4 The Changing Landscape of Summarization: Seeking New Horizons
- 미래의 LLM은 지속적으로 개선됨에 따라 요약 능력이 더욱 향상될 것이다~
- 요약 연구의 70%가 더 이상 의미가 없다!
- 그러나 앞으로 어떤 탐구를 하면 좋을지 제시해보겠다!
4.1 Summarization Datasets
- 데이터셋의 역할 : 모델 훈련에서 테스트로 변화. 고품질의 요약이 필요하다!
- 전문가의 주석이 필요함
- 대부분의 요약 데이터셋은 영어로 되어있고, 출처 문서들은 비교적 짧다.
- 다양한 장르의 데이터와 다른 언어를 통합하는 것이 필수적!
- 책과 같은 더 긴 문서도 데이터셋에 포함되어야 한다.
4.2 Summarization Approaches
- LLM의 도움을 받아 응용 지향적 요약 접근법
- Customized Summarization
- 사용자의 선호도, 독서 기록, 전문 지식과 일치하는 요약을 생성하기 위해 사용자 정의를 할 수 있다.
- 이를 통해 요약 과정을 개인화할 수 있다.
- Real-time Summarization
- 실시간으로 정보를 압축하는 능력
- 라이브 스트림, 주식 시장 변동 또는 소셜 미디어 모니터링과 같은 다양한 곳에서 중요한 역할
- LLM의 신속성과 효율성을 향상시키는 데 집중할 수 있다.
- 실시간으로 정보를 압축하는 능력
- Interactive Summarization
- 사용자와 상호 작용하여 명확화 또는 피드백을 요청할 수 있는 모델 개발
- 요약의 정확성과 관련성을 향상시키는 데 유망
4.3 Summarization Evaluation
- 과거의 ROUGE 와 같은 구식의 평가 지표를 작별하는 것이 중요
- 이러한 지표는 요약 분야의 변화하는 풍경과 더 이상 조화를 이루지 못함
- 생성된 요약문의 실용성과 적용 가능성에 대한 고려
- Extrinsic Evaluation
- 요약의 효과를 측정하기 위해 다른 작업에 입력으로 사용하여 중요한 정보가 유지되었는지 확인
5 Related Work
- LLM의 요약 능력 평가.
- Goyal et al. (2023)는 GPT-3에 의해 생성된 뉴스 요약이 파인튜닝된 모델에 의해 생성된 요약과 비교하여 인간들에게 압도적으로 선호된다는 것을 보여준다.
- Zhang et al. (2023)은 LLM에 의해 생성된 뉴스 요약이 인간이 작성한 요약과 비슷하게 평가된다는 것을 발견했다.
- 일부 연구는 ChatGPT와 같은 LLM의 성능을 자동 평가를 통해 다양한 측면의 요약 및 언어간 요약에 대해 탐구했다.
- 본 연구는 GPT-3.5와 GPT-4를 대상으로 하며, 훈련되지 않은 다양한 데이터에 대해 사람 평가를 수행
6 Conclusion
- 본 연구를 통해 LLM으로 생성된 요약이 인간이 작성한 요약문 or 파인튜닝된 모델이 생성한 요약문과 비교했을 대 놀라운 성능을 보여주었다.
- 특히 LLM 요약은 뛰어난 유창성과 사실성, 유연성을 포함하고 있다.
- 연구 결과 : LLM의 발전으로 텍스트 요약에 대한 이전의 접근법들의 의미를 상실하였다.
- 희망편 : (offer an outlook on the tasks worth exploring in the field of text summarization) 앞으로는 데이터셋, 방법, 평가 이 세 가지 측면에 집중하여 연구해보라고 함.
- We also offer an outlook on the tasks worth exploring in the field of text summarization in the future, focusing on three aspects: datasets, methods, and evaluation.
'AI' 카테고리의 다른 글
[논문읽기-2] ChatGPT is fun, but it is not funny! Humor is still challenging Large Language Models (0) | 2023.06.13 |
---|---|
[논문읽기-1] OCR-free Document Understanding Transformer - 번역 (3) | 2023.06.06 |
[텍스트 생성 요약] BART 알아보기 (0) | 2023.04.27 |
[텍스트 생성 요약] Pointer Generator 모델에 대해 알아보기 (0) | 2023.04.25 |
[Text Extraction] NLP for Indian Languages - 인도 언어를 위한 NLP 라이브러리 (0) | 2023.03.03 |