인도에는 사용되고 있는 언어가 여러 개 있습니다. 인도 언어의 자연어처리를 위한 중요한 3가지 라이브러리에 대해 알아보도록 하겠습니다.
1. iNLTK(Natural Language Toolkit for Indic Languages)
- Natural Language Toolkit for Indic Language로, NLTK Python 패키지에 해당하며 인도언어용 NLP Toolkit입니다.
- Tokenization, Word Embeddings, Text completion, Similarity of sentences 등 제공합니다.
- 설치 : pip install inltk
- 12개의 언어 지원 – Hindi(hi), Pungabi(pa), Sanskrit(sa), Gujarati(gu), Kannada(kn), Nepali(ne), Odia(or), Marathi(mr), Bengali(bn), Tamil(ta), Urdu(ur)
2. Indic NLP Library
- iNLTK는 모국어로 작업하는 개발자를 대상으로 만들어졌다면 이 라이브러리는 이 분야(NLP)에서 작업하는 연구원들을 위한 것입니다.
- Text Normalization, Tokenization, Word Segmentation, Translation 등 제공합니다.
- 설치 : pip install indic-nlp-library
- Assamese(asm), Bengali(ben), Gujarati(guj), Hindi/Urdu(hin/urd), Marathi(mar), Nepali(nep), Odia(ori), Punjabi(pan), Sindhi(snd), Sinhala(sin), Sanskri(san), Konkani(kok), Kannada(kan), Malayalam(mal), Telugu(te), Tamil(tam), English(eng)
3. Stanford NLP
- NLP에 관한 Stanford 연구 그룹의 NLP 라이브러리입니다.
- 53개의 언어를 지원하며 그 중 인도 언어는 힌디어와 우르드어를 지원합니다.
- NER(Named Entitiy Recognition), POS(Part of Speech) 태그 등과 같은 computational 언어학의 기능을 생성하는 데 좋습니다.
- 설치 : pip install stanfordnlp
- 공식문서 : https://stanfordnlp.github.io/stanfordnlp/index.html
본 글은 다음의 링크를 참조하였습니다.
https://www.analyticsvidhya.com/blog/2020/01/3-important-nlp-libraries-indian-languages-python/
'AI' 카테고리의 다른 글
[텍스트 생성 요약] BART 알아보기 (0) | 2023.04.27 |
---|---|
[텍스트 생성 요약] Pointer Generator 모델에 대해 알아보기 (0) | 2023.04.25 |
[IBM]Machine Learning with Python : course introduction (0) | 2023.01.31 |
COSMIC: COmmon Sense knowledge for eMotion Identification in Conversations (Findings of EMNLP 2020) (0) | 2022.12.09 |
MELD : A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations, ACL 2019 (0) | 2022.12.09 |