ML engineer
-
[Paper] Gradient Multi-Normalization for Stateless and Scalable LLM TrainingML engineer/Papers & CS generals 2025. 9. 11. 14:06
https://arxiv.org/abs/2502.06742 Gradient Multi-Normalization for Stateless and Scalable LLM TrainingTraining large language models (LLMs) typically relies on adaptive optimizers like Adam (Kingma & Ba, 2015) which store additional state information to accelerate convergence but incur significant memory overhead. Recent efforts, such as SWAN (Ma et al., 2arxiv.org알고리즘 논문 답게, 최근의 LLM 모델 리포트 논문들과 ..
-
Linear Regression에서 Forward 이해하기ML engineer/DIY Machine Learning 2024. 9. 14. 00:57
Linear Regression 이란?Linear Regression은 선형회귀라는 명칭으로 비단 ML이 아닌 영역에서도 많이 들어보셨을 수 있습니다.말 그대로, 어떤 모델이 데이터셋으로부터 linear(선형) 관계를 가정하고 그 임의의 선형식을 찾아가는(regression) 방법입니다.예를 들어, 택시 요금을 예측하는 모델을 만든다고 가정해 볼 때, 약 10만 건의 택시 이용 로그 데이터를 가지고 있다고 합시다. 각 택시 이용 로그는, 다음 네가지 feature를 가진다고 칩니다. 1. 이용 시각 및 날짜 (연-월-일-시:분:초) 2. 탑승 거리 (km) 3. 탑승 시간 (분) 4. 이용 요금 (원)Linear 관계를 가정한다라는건, 우리는 다음과 같은 linear equatio..
-
Gradient Descent 에 대한 이해ML engineer/DIY Machine Learning 2024. 8. 4. 19:10
배경머신러닝에 있어 매우 중요한 알고리즘인 gradient descent에 대해 알아봅시다.머신러닝, 신경망 네트워크, 딥러닝에 대해 이야길 듣거나 접했다면, 이런 것들이 대부분 gradient descent를 통해 학습되었을 정도로 중요한 알고리즘/방법론인데요,현업에서 종종 "모델이 상관관계를 학습 한다", "이 데이터에 대해 학습시켰다"와 같은 표현을 듣게 되는데요, 이런 표현들이 의미하는 근간에는 결국 gradient descent라는 알고리즘이 사용됩니다.알고리즘으로 풀고자 하는 문제는, $f(x) = x^2$ 에 대해 최소값을 찾는 문제라고 칩시다.즉, gradient descent 은 일종의 최적화 테크닉으로, 어떤 함수의 최솟값을 찾는 알고리즘/방법론입니다. (함수를 반전시키면 물론 최댓값을..
-
IaaS / PaaS / SaaSML engineer/Papers & CS generals 2023. 9. 22. 01:07
🕓 2 mins read 업계에서 많이 쓰는 용어인데 잘 모르고 그냥 대충 알고 있기도 하고, 남용하기도 하는데 한번 확인 하면 좋을 것 같아 기록합니다. # 정의 IaaS : Infrastructure-as-a-Service PaaS: Platform-as-a-Service SaaS: Software-as-a-Service 이제.. 여기에서 좀 막나가는 경우도 종종 보입니다만.. 두루미-as-a-Service 식으로 아무거나 아무개-aaS 라고 이름 붙이기도 하는것 같습니다. # 비교 왼쪽 끝열을 보면 기존에 아무개-aaS 이전에는 그냥 다 직접 관리 했던 부분을 인프라 레벨에서부터 어플리케이션 레벨까지 클라우드화 해주는 서비스라고 보시면 됩니다. 클라우드 시대 이전 방식대로 직접 다 관리할 경우 장점..
-
[Python] Pickle에 대한 오해와 Can’t Pickle local object Error 해결ML engineer/Papers & CS generals 2023. 2. 16. 00:42
🕓 5 mins read # Pickle의 오해 파이썬 라이브러리들을 사용하다 보면, 직접 사용하지 않더라도, pickle은 어떻게든 만날 수밖에 없는데, 단순히 파일이나 오브젝트를 저장하고 불러올 때뿐만 아니라 어떤 객체를 프로세스 간에 공유하거나 전달할 때도 쓰입니다. 이때 pickle의 원리를 모를 경우 Attribute Error 혹은 PicklingError를 다음과 같은 형태로 만나면 당황스러울 수 있습니다. (문제없는 거 같은데 대체 왜!?) PicklingError: Can't pickle : it's not the same object as class.method.var AttributeError: Can't pickle local object 'class..some_var' 특히 파이썬..
-
[coding] Notes on space complexityML engineer/Papers & CS generals 2023. 2. 6. 00:19
🕓 4 mins read # Notes on SW developer recruiting Although we are not hiring at the moment, the last year was a year of heavy recruiting. I'm currently a senior ML engineer and I've been involved in quite a few technical(a.k.a. coding tests) interviews over the last 2 years. I was pretty surprise to see that many fresh grad candidates were well prepared for the most of the tree/graph traversal pr..
-
Domain Name System (DNS) 개요ML engineer/Papers & CS generals 2023. 1. 22. 11:46
🕓 5 mins read 사실, DNS 시스템에 대한 자세한 내용들은 책을 찾아봐도 되고, 위키를 검색해 보면 아주 상세하게 온갖 정보가 나올 텐데, 간단하게 우리가 시스템 디자인을 하는 데 있어 알아두면 좋을 내용들 위주로 간략하게 정리해 봤습니다. # 소개 도메인 네임 시스템(DNS)은 인터넷의 핵심 구성 요소로, 외우기 어려운 IP 주소 대신 쉽게 기억할 수 있는 도메인 이름을 사용하여 웹사이트에 액세스 할 수 있게 합니다. DNS는 도메인 이름을 IP 주소로 매핑하는 방법으로 소개되었으며, 사용자가 웹 사이트에 액세스 하고 서버가 서로 찾는 것을 쉽게 하기 위한 방법입니다. 과거에(?) 사람들이 전화번호 외우기 어려우니 전화번호부를 찾아보던 것과 같은 개념이라고 생각하시면 됩니다. (요즘? 사람들..
-
분산 시스템 디자인ML engineer/Papers & CS generals 2023. 1. 19. 01:17
🕓 3 mins read 작게든 크게든 소프트웨어 개발자라면 언젠가는 시스템 디자인의 각 요소들을 한번쯤은 접할 일이 생깁니다. 학생때 배우는 내용이거나, 채용 면접을 준비하면서 본 내용이거나, 직접 각 요소를 핸들링 해야하는 입장일 수 도 있겠죠. 어떤 경우든, 미리 다음의 큰 요소들은 머리속에 정리가 되어있다면, 제법 scalable한 시스템을 시스템을 디자인 하는데에 도움이 될것입니다. - 기본적으로 CS 배경 지식이 없다면, Karan Pratap Singh님의 시스템 디자인 프라이머도 한번 보시면 좋습니다. # 기본 요소 기본 요소라고 굳이 부르는 이유는, 향후에 시스템 디자인을 할때 다음 요소들을 한번 숙지 하고 나면, 시스템 각 요소의 구체적인 설계나 기능 명세를 모르더라도 전체 시스템의 기..