AI

[Text Extraction] NLP for Indian Languages - 인도 언어를 위한 NLP 라이브러리

Bingli 2023. 3. 3. 18:55

인도에는 사용되고 있는 언어가 여러 개 있습니다. 인도 언어의 자연어처리를 위한 중요한 3가지 라이브러리에 대해 알아보도록 하겠습니다.

1. iNLTK(Natural Language Toolkit for Indic Languages)

  • Natural Language Toolkit for Indic Language로, NLTK Python 패키지에 해당하며 인도언어용 NLP Toolkit입니다.
  • Tokenization, Word Embeddings, Text completion, Similarity of sentences 등 제공합니다.
  • 설치 : pip install inltk
  • 12개의 언어 지원 – Hindi(hi), Pungabi(pa), Sanskrit(sa), Gujarati(gu), Kannada(kn), Nepali(ne), Odia(or), Marathi(mr), Bengali(bn), Tamil(ta), Urdu(ur)

2. Indic NLP Library

  • iNLTK는 모국어로 작업하는 개발자를 대상으로 만들어졌다면 이 라이브러리는 이 분야(NLP)에서 작업하는 연구원들을 위한 것입니다.
  • Text Normalization, Tokenization, Word Segmentation, Translation 등 제공합니다.
  • 설치 : pip install indic-nlp-library
  • Assamese(asm), Bengali(ben), Gujarati(guj), Hindi/Urdu(hin/urd), Marathi(mar), Nepali(nep), Odia(ori), Punjabi(pan), Sindhi(snd), Sinhala(sin), Sanskri(san), Konkani(kok), Kannada(kan), Malayalam(mal), Telugu(te), Tamil(tam), English(eng)

 

3. Stanford NLP

  • NLP에 관한 Stanford 연구 그룹의 NLP 라이브러리입니다.
  • 53개의 언어를 지원하며 그 중 인도 언어는 힌디어와 우르드어를 지원합니다.
  • NER(Named Entitiy Recognition), POS(Part of Speech) 태그 등과 같은 computational 언어학의 기능을 생성하는 데 좋습니다.
  • 설치 : pip install stanfordnlp
  • 공식문서 : https://stanfordnlp.github.io/stanfordnlp/index.html
 

StanfordNLP 0.2.0 - Python NLP Library for Many Human Languages | StanfordNLP

⚠️ Note ⚠️ All development, issues, ongoing maintenance, and support have been moved to our new GitHub repository as the toolkit is being renamed as Stanza since version 1.0.0. Please visit our new website for more information. You can still downlo

stanfordnlp.github.io

 

본 글은 다음의 링크를 참조하였습니다.

https://www.analyticsvidhya.com/blog/2020/01/3-important-nlp-libraries-indian-languages-python/

 

NLP Libraries For Indian Languages | NLP For Indian Languages

This article explores 3 nlp libraries for Indian languages- iNTLK, Indic NLP library, StanfordNLP. Learn nlp for indian languages and how to work with it

www.analyticsvidhya.com