
Machine Learning/기법
[Optimizer] AdaGrad (Adaptive Gradient)
AdaGrad 일정한 학습률을 사용하지 않고 변수마다 스텝마다 학습률을 다르게 하는 기법 시간이 지날수록 학습률이 줄어듦 큰 변화를 겪은 변수는 학습률이 대폭 작아지고 작은 변화를 겪은 변수의 학습률은 소폭으로 작아짐 feature 마다 중요도, 크기가 다르기 때문에 제안됨 수식 : 기울기 누적 크기 : 분모가 0이 되는 것을 방지하는 작은 값 : 학습률 (Learning rate) x, y 는 \( \the..