자연어처리 3

[논문읽기-2] ChatGPT is fun, but it is not funny! Humor is still challenging Large Language Models

ChatGPT is fun, but it is not funny! Humor is still challenging Large Language Models (ChatGPT 웃긴데 안 웃김! 유머는 아직 LLM에서 넘어야 할 산이다.) 논문출처 : https://arxiv.org/pdf/2306.04563v1.pdf 논문저자 : Sophie Jentzsch, Kristian Kersting 논문발행일 : 2023년 6월 7일 논문 내용: ChatGPT의 유머감각에 대해 여러가지 실험을 진행한 결과 논문 읽기 전 알고 있으면 좋은 내용 : NLP, LLM, ChatGPT 등 자연어처리 관련 기술 https://arxiv.org/pdf/2306.04563v1.pdf Abstract 유머는 인간 커뮤니케이션에서 ..

AI 2023.06.13

[Text Extraction] NLP for Indian Languages - 인도 언어를 위한 NLP 라이브러리

인도에는 사용되고 있는 언어가 여러 개 있습니다. 인도 언어의 자연어처리를 위한 중요한 3가지 라이브러리에 대해 알아보도록 하겠습니다. 1. iNLTK(Natural Language Toolkit for Indic Languages) Natural Language Toolkit for Indic Language로, NLTK Python 패키지에 해당하며 인도언어용 NLP Toolkit입니다. Tokenization, Word Embeddings, Text completion, Similarity of sentences 등 제공합니다. 설치 : pip install inltk 12개의 언어 지원 – Hindi(hi), Pungabi(pa), Sanskrit(sa), Gujarati(gu), Kannada(..

AI 2023.03.03

MELD : A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations, ACL 2019

MELD : A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations, ACL 2019 Multimodal : text, audio 기반의 데이터셋, 얼굴 사진은 align은 안되어있음 (scene만 제공) Multi-Party : 다화자간의 대화 (2명 이상) 대화 속 감정인식에서 상당히 많이 쓰이는 데이터세트이며, 우리가 실습할 데이터이기도 하다. 기존에 EmotionLines라는 ERC 데이터세트가 있는데, 이를 잘못된 부분을 필터링하고 멀티모달로 확장 Friends 티비 프로그램에서 수집한 데이터세트 다화자간 데이터이지만, 필터링을 통해 두 명의 대화로 만든 버전도 존재 A | B | A | C | B ⇒ A | B | A..

AI 2022.12.09