-
(추석 & 6주차) 복기3-Month Break 2025. 10. 13. 21:15반응형


지난 한 주간 추석 명절이라고 평소 루틴과 다른 날들이 많았는데 어찌 저찌 활동링은 일주일 모두 꽉 채웠다.
지난주 부터 계속 비가 와서 우중런도 한번 하고, 한 3일은 거의 실내 러닝으로 대체 한것 같은데, 확실히 평소에 실외에서만 뛰다 보니 데이터가 아직 칼리브레이션이 덜 된건지 평소 밖에서 뛸때랑 비슷한 자세, 페이스등으로 뛰었는데 기록된 데이터가 좀 많이 다른것 같다.. 거리는 더 나오고, 케이던스는 덜 나오고.. 이것도 직업병인가? 그냥 숨차게 뛰고 운동하고 땀흘렸으면 되는건데 프로선수도 아니고 기록 데이터에 집착을 하는걸 보니 말이다.
실험 하던것은 H200 장비에서 연휴 시작전에 돌려둔게 결과가 거의다 나와서 확인해보니, 처음에 작은 모델로 테스트했을때랑 유사하게 잘 나오다가, 5k step정도 학습 하고 나니 어느순간 grad norm이 커지기 시작하면서 학습이 불안정해지는 문제가 있었다.
Grad explosion이라고 할만큼 커진것도 아니고, eval loss도 계속 내려는 가는데, 이게 stable하지 않게 step graph 양상을 보이면서 학습이 되다 안되다 하는 모습을 보이니...
어쩐지 연구를 본격적으로 시작하고 한 달도 안되서 좋은 최적화 알고리즘을 찾았다는게 수상하더라니.. 암튼 이번 현상은 그래도 원인을 특정할만한 단서가 많아서 빠르게 수식을 좀 수정하고 다시 실험을 돌렸다. 그래도 비교군들 결과는 다시 돌릴 필요 없으니 내 알고리즘 부분만 다시 돌리면 될테니 하루 이틀이면 실험 결과는 다시 확인 가능할것으로 보인다. (H200 을 이렇게 개인이 쓸 수 있는 클라우드 시대에 태어나서 다행이지..)
이번주엔 좀 더 좋은 실험 데이터를 가지고 논문을 본격적으로 다시 써도 되는 상태가 되길 기대해 본다.
반응형'3-Month Break' 카테고리의 다른 글
(8주차) 복기 (0) 2025.10.28 (7주차) 복기 (0) 2025.10.20 9월 체크포인트 (0) 2025.10.05 (3 & 4 주차) 복기 (0) 2025.09.29 (2주차) 복기 (0) 2025.09.16