반응형
한국어처리
-
Korean Language Model - 데이터 수집ML engineer/NLP 2022. 12. 31. 00:33
🕓 3 mins read# 언어 모델 만들기사실 오래 전 부터 한번 해야지 하고는 직장일이 바빠서, 육아로 바빠서 핑계로 계속 미루던 내용인데,NLP 주제로 멘토링을 약 6개월 가량 하면서 자료나 예제가 좀 정리되어있으면 좋겠다 싶어서 결국 시작하게 된 프로젝트 입니다. ## 이미 많이 있지 않나?- github 에도 있고, huggingface hub에도 이미 다수의 한국어 BERT, BART, GPT, ... 많지 않나?- 학생 또는 개인이 집에서 언어 모델을 대규모로 학습 하기는 쉽지 않은게 현실적이고- 새로 만든다 하더라도 기존의 성능도 더 좋고, 규모도 더 큰 모델이 있어 결과물 자체는 필요하지 않을 수 있습니다. ## 그럼에도 직접 하는 이유는?vocab이 결국 모델-토크나이저 간에 강결합..