Teddy 스터디 블로그

모델 평가지표 본문

[딥러닝,NLP]/[개념 정리]

모델 평가지표

Seungsoo Lee 2021. 3. 4. 19:11

Precision(정밀도): 예측True 중 실제True 비율 =TP/(TP+FP)
Recall(재현율): 실제True 중 예측True 비율 =TP/(TP+FN)


perplexity(PPL: 헷갈리는 정도) (출처: https://wikidocs.net/21697)

- PPL(W)가 낮을수록 문장의 확률을 최대화. PPL이 10이면 10개 후보중 정답 고민.


BLEU(Bilingual Evaluation Understudy Score) (출처: https://wikidocs.net/31695)

논문(BLEU: a Method for Automatic Evaluation of Machine Translation, ACL2002)
- 기계번역/인간번역의 결과가 얼마나 유사한지. 높을수록 좋음.

- 파라미터: n-gram에 따라 BLEU1~N이고 
인간/기계 결과 중 (등장단어 개수, )(등장단어 개수, n-gram단위 문장 중 단어빈도(순서)) 등을 고려하고 
Brevity Penalty를 적용해 BLEU score.