반응형
머신러닝
-
Korean Language Model - 데이터 전처리ML engineer/NLP 2023. 2. 4. 23:37
🕓 5 mins read# 전처리를 하는 이유최소한의 전처리를 통해 언어모델에 불필요한 요소를 배제하고, 위험 요소를 걷어 냅니다. 물론 모델 뿐만 아니라 빈도 기반의 토크나이저를 학습할때도 도움이 되죠.사실 언어 모델의 규모를 키우고, 데이터를 키우게 되면 범용 LLM(Large Language Model)에선, 전처리에 공을 들이는것 보다는 원래 텍스트를 그대로 가지고 있는것이 데이터의 다양한 형태를 분석하고 생성할 수 있기 때문에 좋을 수 있습니다.하지만 여기선 대화 분석/생성등에 특화된 대화 모델을 만드는것을 목표로 하고 있기 때문에 전처리를 할 필요가 있습니다.작은 규모의 모델/데이터 하에서 노이즈로 작용할 수 있는 불필요한 패턴 제거특수 토큰 처리 (개인정보 마스킹, 대화 데이터 화자 구분자..