언어모델
-
Korean Language Model - 데이터 전처리ML engineer/NLP 2023. 2. 4. 23:37
🕓 5 mins read# 전처리를 하는 이유최소한의 전처리를 통해 언어모델에 불필요한 요소를 배제하고, 위험 요소를 걷어 냅니다. 물론 모델 뿐만 아니라 빈도 기반의 토크나이저를 학습할때도 도움이 되죠.사실 언어 모델의 규모를 키우고, 데이터를 키우게 되면 범용 LLM(Large Language Model)에선, 전처리에 공을 들이는것 보다는 원래 텍스트를 그대로 가지고 있는것이 데이터의 다양한 형태를 분석하고 생성할 수 있기 때문에 좋을 수 있습니다.하지만 여기선 대화 분석/생성등에 특화된 대화 모델을 만드는것을 목표로 하고 있기 때문에 전처리를 할 필요가 있습니다.작은 규모의 모델/데이터 하에서 노이즈로 작용할 수 있는 불필요한 패턴 제거특수 토큰 처리 (개인정보 마스킹, 대화 데이터 화자 구분자..
-
Korean Language Model - 데이터 수집ML engineer/NLP 2022. 12. 31. 00:33
🕓 3 mins read# 언어 모델 만들기사실 오래 전 부터 한번 해야지 하고는 직장일이 바빠서, 육아로 바빠서 핑계로 계속 미루던 내용인데,NLP 주제로 멘토링을 약 6개월 가량 하면서 자료나 예제가 좀 정리되어있으면 좋겠다 싶어서 결국 시작하게 된 프로젝트 입니다. ## 이미 많이 있지 않나?- github 에도 있고, huggingface hub에도 이미 다수의 한국어 BERT, BART, GPT, ... 많지 않나?- 학생 또는 개인이 집에서 언어 모델을 대규모로 학습 하기는 쉽지 않은게 현실적이고- 새로 만든다 하더라도 기존의 성능도 더 좋고, 규모도 더 큰 모델이 있어 결과물 자체는 필요하지 않을 수 있습니다. ## 그럼에도 직접 하는 이유는?vocab이 결국 모델-토크나이저 간에 강결합..