NLP 6

[논문읽기-2] ChatGPT is fun, but it is not funny! Humor is still challenging Large Language Models

ChatGPT is fun, but it is not funny! Humor is still challenging Large Language Models (ChatGPT 웃긴데 안 웃김! 유머는 아직 LLM에서 넘어야 할 산이다.) 논문출처 : https://arxiv.org/pdf/2306.04563v1.pdf 논문저자 : Sophie Jentzsch, Kristian Kersting 논문발행일 : 2023년 6월 7일 논문 내용: ChatGPT의 유머감각에 대해 여러가지 실험을 진행한 결과 논문 읽기 전 알고 있으면 좋은 내용 : NLP, LLM, ChatGPT 등 자연어처리 관련 기술 https://arxiv.org/pdf/2306.04563v1.pdf Abstract 유머는 인간 커뮤니케이션에서 ..

AI 2023.06.13

[텍스트 생성 요약] BART 알아보기

BART Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension (2019, ACL, Facebook) Transformer의 bidirectional Encoder와 autoregressive Decoder 둘다 활용한 seq2seq 형태의 모델 자연어이해(NLU)와 자연어생성(NLG)에서 모두 좋은 성능 각각 Transformer의 Encoder와 Decoder만 활용한 BERT 및 GPT의 단점을 해결 사전학습단계 텍스트를 임의적인 noising 적용을 통해 오염 원본 텍스트를 복원하기 위해 seq2seq모델 학습 사전 학습 단계 중 텍스트 noising의 유연성..

AI 2023.04.27

[텍스트 생성 요약] Pointer Generator 모델에 대해 알아보기

Pointer Generator Get To The Point: Summarization with Pointer-Generator Networks(2017, ACL, Google) Seq2seq RNN 기반 모델의 발전된 형태 Hybrid pointer-generator network: Pointing 메커니즘을 통해 새로운 단어를 생성 Coverage : 요약문을 생성하는 시점을 기준으로 포함된 정보에 대해서는 그 다음 단계에서 token의 생성 확률을 낮춤에 따라 새로운 token을 포함하게 함 Seq2seq RNN Encoder, Decoder, attention distribution와 context vector, vocabulary distrubution으로 구성 RNN Encoder : sou..

AI 2023.04.25

[Text Extraction] NLP for Indian Languages - 인도 언어를 위한 NLP 라이브러리

인도에는 사용되고 있는 언어가 여러 개 있습니다. 인도 언어의 자연어처리를 위한 중요한 3가지 라이브러리에 대해 알아보도록 하겠습니다. 1. iNLTK(Natural Language Toolkit for Indic Languages) Natural Language Toolkit for Indic Language로, NLTK Python 패키지에 해당하며 인도언어용 NLP Toolkit입니다. Tokenization, Word Embeddings, Text completion, Similarity of sentences 등 제공합니다. 설치 : pip install inltk 12개의 언어 지원 – Hindi(hi), Pungabi(pa), Sanskrit(sa), Gujarati(gu), Kannada(..

AI 2023.03.03

COSMIC: COmmon Sense knowledge for eMotion Identification in Conversations (Findings of EMNLP 2020)

COSMIC: COmmon Sense knowledge for eMotion Identification in Conversations (Findings of EMNLP 2020) [논문링크] -> https://aclanthology.org/2020.findings-emnlp.224.pdf Findings는 메인 컨퍼런스는 아니지만, 아쉽게 떨어진 좋은 논문들을 의미한다고 보면 됨 이 논문은 DialougeRNN이라는 다른 연구와 비슷한 방식으로 진행이 됨. 핵심은 speaker tracking, listener tracking, context tracking 세 가지 요소가 있음 Speaker은 화자의 감정 상태가 업데이트 되는 state Listener은 다른 사람의 감정 상태가 업데이트 되는 sta..

AI 2022.12.09

MELD : A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations, ACL 2019

MELD : A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations, ACL 2019 Multimodal : text, audio 기반의 데이터셋, 얼굴 사진은 align은 안되어있음 (scene만 제공) Multi-Party : 다화자간의 대화 (2명 이상) 대화 속 감정인식에서 상당히 많이 쓰이는 데이터세트이며, 우리가 실습할 데이터이기도 하다. 기존에 EmotionLines라는 ERC 데이터세트가 있는데, 이를 잘못된 부분을 필터링하고 멀티모달로 확장 Friends 티비 프로그램에서 수집한 데이터세트 다화자간 데이터이지만, 필터링을 통해 두 명의 대화로 만든 버전도 존재 A | B | A | C | B ⇒ A | B | A..

AI 2022.12.09