Machine Learning/기법

[Optimizer] RMSProp Root Mean Sqaure Propagation

파송송 2022. 8. 15. 16:12
728x90

RMSProp

  • Adagrad의 문제를 개선하기 위해 생김
  • Adagrad보다 최근의 gradient 값을 더 반영함, 오래된 gradient의 영향력을 줄임 

수식

$$ g_{t} =  \gamma g_{t-1} + (1- \gamma )( \nabla f(x_{t-1}))^{2}  $$

$$ x_{t} = x_{t-1} -   \frac{ \eta }{ \sqrt{g_{t}+  \epsilon } }  .  \nabla f(x_{t-1}) $$

 

  • \( g \) : 기울기 누적
  • \( \gamma \): 지수 이동 평균의 업데이트 계수
  • \( \epsilon \) : 분모가 0이 되는 것을 방지하는 값
  • \( \eta \) : 학습률

  • \( \gamma \)의 값이 클수록 과거의 gradient 가 더 중요하다는 뜻
  • \( \gamma \) 를 이용하여 \( g \)가 무한정 커지는 것을 방지하기 때문에 Adagrad 보다 학습을 오래 할 수 있음
728x90