AI

MELD : A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations, ACL 2019

Bingli 2022. 12. 9. 05:21

MELD : A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations, ACL 2019

  • Multimodal : text, audio 기반의 데이터셋, 얼굴 사진은 align은 안되어있음 (scene만 제공)
  • Multi-Party : 다화자간의 대화 (2명 이상)
  • 대화 속 감정인식에서 상당히 많이 쓰이는 데이터세트이며, 우리가 실습할 데이터이기도 하다.

  • 기존에 EmotionLines라는 ERC 데이터세트가 있는데, 이를 잘못된 부분을 필터링하고 멀티모달로 확장
  • Friends 티비 프로그램에서 수집한 데이터세트
  • 다화자간 데이터이지만, 필터링을 통해 두 명의 대화로 만든 버전도 존재
    • A | B | A | C | B ⇒ A | B | A | B 식으로 C가 말한 발화를 삭제한 것
  • 다중 anotation을 통해 다수결을 따르지만, 다수결이 안되는 경우 데이터는 삭제된다
  • 감정 클래스는 Ekman-neutral, 감성 클래스는 sentiment을 제공
  • Ekman이란?
    • 폴 박사가 인간의 기본 감정을 분류한 것
    • 분노, 혐오, 두려움, 기쁨, 슬픔, 놀라움
    • 다른 감정들은 이들의 복잡한 조합으로 될 수 있다.
    • 예 ) 창피함 = 두려움 + 분누
    즉 Ekman 6개 감정 + 중립해서 7개의 감정 클래스로 데이터 태깅

논문에서 제공하는 베이스라인 및 실험들

  • bcLSTM과 dialogueRNN을 이용하여 실험함
  • Text, audio을 같이 결합하여 실험해봄

  • Text가 중요하다는 것을 볼 수 있음
  • context(이전 대화들)을 고려한 경우와 아닌 경우를 비교하면, context 사용한 모델의 성능이 좋음