분류 전체보기 29

[논문리뷰] Summarization is (Almost) Dead; 요약 (거의) 죽음

Summarization is (Almost) Dead 논문 발표일 : 2023년 9월 18일 Peking University, Wangxuan Institute of Computer Technology Xiao Pu, Mingqi Gao, Xiaojun Wan Abstract LLM(대형 언어 모델) 요약 생성에 대한 평가 새로운 데이터 셋을 개발, 사람이 평가하는 실험을 진행 Zero-shot 생성능력을 다섯가지 다른 요약 작업을 통해 평가한다. 결과: LLM이 생성한 요약이 인간이 작성한 요약/세밀하게 튜닝된 모델이 생성한 요약보다 명확하게 선호됨 LLM이 생성한 요약은 일관성이 뛰어나며 extrinsic hallucinations 인스턴스도 적다. 요약 작업에서 성능이 만족스럽게 나왔고 텍스트 요..

AI 2023.09.29

[논문읽기-2] ChatGPT is fun, but it is not funny! Humor is still challenging Large Language Models

ChatGPT is fun, but it is not funny! Humor is still challenging Large Language Models (ChatGPT 웃긴데 안 웃김! 유머는 아직 LLM에서 넘어야 할 산이다.) 논문출처 : https://arxiv.org/pdf/2306.04563v1.pdf 논문저자 : Sophie Jentzsch, Kristian Kersting 논문발행일 : 2023년 6월 7일 논문 내용: ChatGPT의 유머감각에 대해 여러가지 실험을 진행한 결과 논문 읽기 전 알고 있으면 좋은 내용 : NLP, LLM, ChatGPT 등 자연어처리 관련 기술 https://arxiv.org/pdf/2306.04563v1.pdf Abstract 유머는 인간 커뮤니케이션에서 ..

AI 2023.06.13

[논문읽기-1] OCR-free Document Understanding Transformer - 번역

OCR-free Document Understanding Transformer 문서 이미지를 이해하는 것은 복잡한 기능인 텍스트 읽기와 문서의 전체적인 이해능력을 필요로하기 때문에 핵심적이지만 어려운 작업이다. 현재 시각적 문서 이해(Visual Document Understanding, VDU) 방법은 텍스트 읽기 작업을 외부 OCR(광학 문자 인식) 엔진에 위탁하고 OCR 출력물에 초점을 맞추어 이해 작업을 수행한다. 이러한 OCR 기반 접근 방식은 유망한 성능을 보여주었지만, 1) OCR 사용에 따른 높은 계산 비용, 2) 언어 또는 문서 유형에 대한 OCR 모델의 제한성, 3) OCR 오류 전파로 인한 후속 과정의 문제 등이 있다. 이러한 문제를 해결하기 위해 본 논문에서는 문서 이해 트랜스포머(..

AI 2023.06.06

[2023-05-22] 서울역도심공항 + 아시아나 항공 탑승 + 샌프란시스코 공항 입국(심사) 후기 (ICN - SFO)

안녕하세요! 지난 주 월요일, 인천 국제 공항을 출발해 샌프란시스코 공항으로 입국했습니다. 1. 서울역 도심공항터미널 먼저 인천공항에 가기 위해서 서울역 도심공항 터미널을 이용했어요! 서울역에서 도심공항 안내 표시에 따라 이동 후 키오스크를 통해 직통열차 승차권을 구매합니다! 직통열차 승차권에 인쇄된 QR코드로 항공사별 체크인 카운터로 들어가 위탁수하물을 보낼 수 있어요. 2. 아시아나 비행기 탑승 인천공항에서 시간을 보낸 후 아시아나 비행기에 탑승했습니다. [기내식] 미국행 비행기에서 기내식은 보통 2번 제공해줍니다. 제가 선택한 기내식은 1. 쌈밥정식 2. 차슈덮밥이었고 두 개 모두 맛있게 잘 먹었습니다. 아시아나 비행기 좌석은 유나이티트 비행기보다는 넓었습니다. 하지만 창문측에 앉는다면, 움직이기 ..

미국생활 2023.05.31

[2023-05-22] 프리몬트 엘리자베스 호, 센트럴 파크 걷기

안녕하세요! 5월 22일 저녁 9시경 인천공항에서 떠나서 5월 22일 오후 3시 반경 샌프란시스코에 도착했습니다! 재빠르게 입국심사를 끝낸 후 30분 동안 차 타고 집에 도착했어요. 하루 종일 비행기를 탔더니 몸을 풀어줘야겠더라고요. 바로 집 앞 공원에 갔습니다. 저녁 8시에 갔는데 해가 지고 있어서 풍경이 너무 예뻤어요! 미국의 특징 중 하나는 역시 자연인 것 같아요! 공원 크기는 한 바퀴 걸었을 때 8천보 정도 걸을 수 있는 정도예요. 참고로 프리몬트는 미국에서 행복한 도시 1위로 뽑힌답니다. 프리몬트로 관광 오실 분은 여기 한번 들러보세요~ 끄읏!

미국생활 2023.05.27

[텍스트 생성 요약] BART 알아보기

BART Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension (2019, ACL, Facebook) Transformer의 bidirectional Encoder와 autoregressive Decoder 둘다 활용한 seq2seq 형태의 모델 자연어이해(NLU)와 자연어생성(NLG)에서 모두 좋은 성능 각각 Transformer의 Encoder와 Decoder만 활용한 BERT 및 GPT의 단점을 해결 사전학습단계 텍스트를 임의적인 noising 적용을 통해 오염 원본 텍스트를 복원하기 위해 seq2seq모델 학습 사전 학습 단계 중 텍스트 noising의 유연성..

AI 2023.04.27

[텍스트 생성 요약] Pointer Generator 모델에 대해 알아보기

Pointer Generator Get To The Point: Summarization with Pointer-Generator Networks(2017, ACL, Google) Seq2seq RNN 기반 모델의 발전된 형태 Hybrid pointer-generator network: Pointing 메커니즘을 통해 새로운 단어를 생성 Coverage : 요약문을 생성하는 시점을 기준으로 포함된 정보에 대해서는 그 다음 단계에서 token의 생성 확률을 낮춤에 따라 새로운 token을 포함하게 함 Seq2seq RNN Encoder, Decoder, attention distribution와 context vector, vocabulary distrubution으로 구성 RNN Encoder : sou..

AI 2023.04.25

[Text Extraction] NLP for Indian Languages - 인도 언어를 위한 NLP 라이브러리

인도에는 사용되고 있는 언어가 여러 개 있습니다. 인도 언어의 자연어처리를 위한 중요한 3가지 라이브러리에 대해 알아보도록 하겠습니다. 1. iNLTK(Natural Language Toolkit for Indic Languages) Natural Language Toolkit for Indic Language로, NLTK Python 패키지에 해당하며 인도언어용 NLP Toolkit입니다. Tokenization, Word Embeddings, Text completion, Similarity of sentences 등 제공합니다. 설치 : pip install inltk 12개의 언어 지원 – Hindi(hi), Pungabi(pa), Sanskrit(sa), Gujarati(gu), Kannada(..

AI 2023.03.03

[IBM]Machine Learning with Python : course introduction

coursera에 무료 수강권이 있어서 Machine Learning 수업을 시작하였다. IBM에서 진행하는 강의이고 수료시 자격증이 주어진다. Feundamentals of Machine Learning with Python 본 강의에서는 머신러닝 개념 및 특징과 머신러닝 알고리즘에 대해 소개한다. Applications of machine learning 머신러닝으로 여러 가지 일을 할 수 있다. 자율주행차, 사이버보안, 주식 시장 예측 그리고 의학 진단 등이다. Course breakdown 코스는 다음과 같이 진행된다. 1. 머신러닝 소개 그리고 회귀(regression) 2. 분류(classification) 3. 클러스터링(clustering) 4. 파이널 프로젝트 (final project)..

AI 2023.01.31

[IT5분잡학사전] Day13. 에피소드 39 ~ 에피소드 45 [완독] : REST API, 휴식 API 아님 주의

📙오늘 TIL 3줄 요약 인공지능, 머신러닝, 딥러닝.. REST API, 휴식 API 아님 주의⚠️ 바이러스 만들지 말고 착하게 살자. TIL (Today I Learned) 날짜 : 2023.01.25(수) 오늘 읽은 범위 에피소드 39 ~ 에피소드 45 05마당 코딩별 안내서 - 최신 기술 편 에피소드 39. 인공지능, 머신러닝, 딥러닝, 아직도 구분하기 힘들다고? 에피소드 40. REST API라니, 휴식 API인가? 이게 대체 뭐죠? 에피소드 41. 도커가 뭐지? 왜 필요할까? 에피소드 42. 암호화폐의 진실 에피소드 43. 하이브리드 … 앱? 뭐라고요? 에피소드 44. NFT가 도대체 뭐길래? 에피소드 45. 뭘웨어, 바이러스, 웜 개념 몽땅 정리 책에서 기억하고 싶은 내용 에피소드 39. 인..