728x90
RMSProp
- Adagrad의 문제를 개선하기 위해 생김
- Adagrad보다 최근의 gradient 값을 더 반영함, 오래된 gradient의 영향력을 줄임
수식
$$ g_{t} = \gamma g_{t-1} + (1- \gamma )( \nabla f(x_{t-1}))^{2} $$
$$ x_{t} = x_{t-1} - \frac{ \eta }{ \sqrt{g_{t}+ \epsilon } } . \nabla f(x_{t-1}) $$
- \( g \) : 기울기 누적
- \( \gamma \): 지수 이동 평균의 업데이트 계수
- \( \epsilon \) : 분모가 0이 되는 것을 방지하는 값
- \( \eta \) : 학습률
- \( \gamma \)의 값이 클수록 과거의 gradient 가 더 중요하다는 뜻
- \( \gamma \) 를 이용하여 \( g \)가 무한정 커지는 것을 방지하기 때문에 Adagrad 보다 학습을 오래 할 수 있음
728x90
'Machine Learning > 기법' 카테고리의 다른 글
[ML] 회귀 모델 (0) | 2023.01.04 |
---|---|
[ML] 다중 분류 모델 (0) | 2023.01.04 |
[ML] 활성화 함수 Activation Function (0) | 2022.09.05 |
[Optimizer] Adam Adaptive Moment (0) | 2022.08.15 |
[Optimizer] AdaGrad (Adaptive Gradient) (0) | 2022.08.15 |