티스토리

뚝딱이

Machine Learning/기법

[Optimizer] RMSProp Root Mean Sqaure Propagation

파송송 2022. 8. 15. 16:12

728x90

RMSProp

Adagrad의 문제를 개선하기 위해 생김
Adagrad보다 최근의 gradient 값을 더 반영함, 오래된 gradient의 영향력을 줄임

수식

$$ g_{t} = \gamma g_{t-1} + (1- \gamma )( \nabla f(x_{t-1}))^{2} $$

$$ x_{t} = x_{t-1} - \frac{ \eta }{ \sqrt{g_{t}+ \epsilon } } . \nabla f(x_{t-1}) $$

\( g \) : 기울기 누적
\( \gamma \): 지수 이동 평균의 업데이트 계수
\( \epsilon \) : 분모가 0이 되는 것을 방지하는 값
\( \eta \) : 학습률

\( \gamma \)의 값이 클수록 과거의 gradient 가 더 중요하다는 뜻
\( \gamma \) 를 이용하여 \( g \)가 무한정 커지는 것을 방지하기 때문에 Adagrad 보다 학습을 오래 할 수 있음

728x90