ML engineer/NLP
-
[업계 이야기] chatGPT 와 LLM에 대한 생각ML engineer/NLP 2023. 2. 19. 14:26
🕓 5 mins read 이미 작년 연말에 공개되었지만, 내 주변의 도메인 관계자 외에는 이제야 뉴스를 통해 접했나 보다. 만나는 사람들 마다 chatGPT이야기를 하는 걸 보니.. 빅테크들의 수장들이, Yann LeCun, Geoffrey Hinton 정도 되는 AI 3 대장격인 사람들도 chatGPT에 대한 그들의 생각을 공유했지만, 어쨌든 나도 ML/ NLP 업계 종사자로서, 생각을 한번 적어 보지 않을 수가 없다. (너무 번역투였나?) # 그래서 정말 혁신인가? 기술적으로 대단은 하지만, 혁신은 글쎄... 사업적으로는 미지의 영역에 대한 과감한 투자, 비기술자의 관점에선 그저 신세계? 기술적인 관점에선 나 역시 같은 생각이다. 혁신?이라기엔 이미 오래전에(Attention is all you ne..
-
Korean Language Model - 데이터 전처리ML engineer/NLP 2023. 2. 4. 23:37
🕓 5 mins read# 전처리를 하는 이유최소한의 전처리를 통해 언어모델에 불필요한 요소를 배제하고, 위험 요소를 걷어 냅니다. 물론 모델 뿐만 아니라 빈도 기반의 토크나이저를 학습할때도 도움이 되죠.사실 언어 모델의 규모를 키우고, 데이터를 키우게 되면 범용 LLM(Large Language Model)에선, 전처리에 공을 들이는것 보다는 원래 텍스트를 그대로 가지고 있는것이 데이터의 다양한 형태를 분석하고 생성할 수 있기 때문에 좋을 수 있습니다.하지만 여기선 대화 분석/생성등에 특화된 대화 모델을 만드는것을 목표로 하고 있기 때문에 전처리를 할 필요가 있습니다.작은 규모의 모델/데이터 하에서 노이즈로 작용할 수 있는 불필요한 패턴 제거특수 토큰 처리 (개인정보 마스킹, 대화 데이터 화자 구분자..
-
Transformer EncoderML engineer/NLP 2022. 12. 31. 01:00
🕓 6 mins read By the time anyone has reached this post, chances are you already know pretty much all about Transformer models. It's no wonder since the paper Attention is all you need is already an old paper from 2017, which means it's pretty ancient in this field. Well I take should take that back. It's not that ancient.. considering how not much has changed in the seq2seq model paradigm. (GPT3..
-
Korean Language Model - 데이터 수집ML engineer/NLP 2022. 12. 31. 00:33
🕓 3 mins read# 언어 모델 만들기사실 오래 전 부터 한번 해야지 하고는 직장일이 바빠서, 육아로 바빠서 핑계로 계속 미루던 내용인데,NLP 주제로 멘토링을 약 6개월 가량 하면서 자료나 예제가 좀 정리되어있으면 좋겠다 싶어서 결국 시작하게 된 프로젝트 입니다. ## 이미 많이 있지 않나?- github 에도 있고, huggingface hub에도 이미 다수의 한국어 BERT, BART, GPT, ... 많지 않나?- 학생 또는 개인이 집에서 언어 모델을 대규모로 학습 하기는 쉽지 않은게 현실적이고- 새로 만든다 하더라도 기존의 성능도 더 좋고, 규모도 더 큰 모델이 있어 결과물 자체는 필요하지 않을 수 있습니다. ## 그럼에도 직접 하는 이유는?vocab이 결국 모델-토크나이저 간에 강결합..