AI

[NLP project] Kaggle: Feedback Prize - English Language Learning _ INTRO

Bingli 2022. 11. 16. 16:48

패스트캠퍼스에서 5개월간 데이터사이언스를 배웠고 마지막 프로젝트로 진행한 English Language Learning 대회에 대해 소개해드리고자 합니다. 현재도 진행 중인 대회이니 관심있는 분들은 한번 참여해보세요!

 

 


목차

1) 프로젝트 개요

2) 데이터 설명

3) 평가 지표

4) 대회 기간

5) 제출시 유의사항

6) 마무리


1) 프로젝트 개요

문제 정의는 학생과 교사의 관점에서 정리를 해보겠습니다.

학생

  • 글쓰기가 기본 기술임에도 불구하고 쓰기 과제가 학교에서 자주 주어지지 않기 때문에 글쓰기에 능숙한 학생은 소수입니다.
  • NAEP에 의하면 글쓰기에 능숙한 학생이 고등학생의 3분의 1미만이라고 합니다.
  • 또한 제 2외국어로써 영어를 배우는 영어 학습자(English Language Learner)들은 연습 부족으로 영향을 많이 받습니다.

교사

  • 학생들의 작문 실력을 향상시킬수 있도록 돕는 한 가지의 방법이 교사의 지도입니다.
  • 작문에 대한 피드백을 주고 더 많은 쓰기 기회를 제공해야 하는 것이죠.
  • 하지만 이것은 교사에게 적절한 시기에 피드백을 주어야 하는 부담이 되기도 합니다.
  • 학생이 독자적으로 작문을 평가하고 피드백을 제공받을 수 있는 AWE 시스템을 사용하면 교사의 부담이 덜어지고 시간도 절약할 수 있습니다. *AWE 시스템 : Automated Writing Evaluation의 약자로 학생들에게 글쓰기 피드백을 제공하는 시스템입니다.

2) 데이터 설명

Data sets

  • 8-12학년의 영어 학습자가 작성한 에세이로 구성됨

 

Train Data

 

Target (예측해야 할 점수 항목들)

  • cohesion(응집력)
  • syntax(구문론)
  • vocabulary(단어)
  • phraseology(어법)
  • grammar(문법)
  • conventions(규약)

점수 범위는 1.0~5.0까지이며, 0.5씩 증가합니다.

 

Task (해야 할 과제)

Test 데이터에 있는 에세이에 대해 6가지 평가항목의 점수를 예측하는 것

Test Data


3) 평가 지표

제출물은 MCRMSE, 평균 열 단위 제곱 평균 오차를 사용하여 채점됩니다. 

$$\textrm{MCRMSE} = \frac{1}{N_{t}}\sum_{j=1}^{N_{t}}\sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_{ij} - \hat{y}_{ij})^2}$$

\( N_{t} \)는 점수가 주어진 Target 컬럼의 수입니다.

\( y \)와 \( \hat{y} \)는 각각 실제 값과 예측값을 나타냅니다.


4) 대회 기간

대회 시작일은 2022년 8월 30일부터입니다.

2022년 11월 22일에 접수 마감을 하고, 2022년 11월 29일에 최종 제출 마감을 하게 됩니다.


5) 제출 시 유의사항

  • CPU notebook -> 9시간까지 실행된 노트북이어야 합니다.
  • GPU notebooke -> 9시간까지 실행된 노트북이어야 합니다.
  • Internet 액세스가 비활성화 되어야 합니다.
  • 사전 학습된 모델을 포함하여 공개적으로 사용할 수 있는 외부 데이터가 허용됩니다.
  • 제출 파일명은 submission.csv가 되어야 합니다.

6) 마무리

간단하게 정리하려고 했는데 생각보다 오래걸렸네요. 대회 참여 시 꼭 제출 유의사항 살펴보세요! GPU로 제출하려다가 9시간 9분 걸려서 제출을 못했다는 슬픈 소식이..