'Machine Learning/기법' 카테고리의 글 목록 (2 Page) — 뚝딱이

Machine Learning/기법

Machine Learning/기법

[ML] Optimizer 옵티마이저, 최적화

Optimizer 학습률 최적화를 진행할 때 한 걸음의 폭을 결정하는 Step size이다. 학습률이 크다면 최적해에 빠르게 도달하고 작다면 느리게 도달함 확률적 경사하강법(Stochastic Gradient Descent) 손실 함수의 곡선에서 경사가 가장 가파른 곳으로 내려가다 보면 언젠가 가장 낮은 지점에 도달한다는 가정으로 만들어졌다. 알고리즘의 가정이 단순한 만큼 다양한 상황에 쓰기 못하고 학습 속도도 느리고 성능의 한계도 존재함 고정된 학습률을 사용하기 때문에 경험에 의존하여 학습률을 지정해야 한다. 감과 경험에 의존하여 학습률을 구하기 때문에 효율적이지 못함 수식 $$ x_{t} = x_{t-1} - lr * \nabla f(x_{t-1}) $$ SGD문제 고정학습률 문제 학습률이 작다면 최..

Machine Learning/기법

[ML] 손실 함수

손실 함수 최적화 문제의 손실 함수는 어떻게 정의해야할까? 손실 함수 정의 기준 신경망 모델이 정확하게 예측하기 위해서 모델은 관측 데이터를 잘 설명하는 함수를 표현해야 한다, 이때 모델이 표현하는 함수의 현태를 결정하는 것이 손실 함수이다. 따라서 손실 함수는 최적의 해가 관측 데이터를 잘 설명할 수 있는 함수의 파라미터 값이 되도록 정의해야한다. 오차 최소화(Error Minimization) 모델의 오차를 최소화 시키는 방법 모델의 오차란 모델의 예측과 관측 데이터의 타깃의 차이를 말한다. 손실 함수의 목표가 모델의 오차를 최소화 하는 것 이므로 직관적이고 이해하기 쉽다. 따라서 손실 함수를 정의할 때 어떤 방식으로 오차의 크기를 측정할지만 정하면 된다. $$ y(x_{j};\theta)-t_{i}..

Machine Learning/기법

[ML] 경사하강법

신경망의 최적화 알고리즘은 대부분 경사 하강법에서 확장된 형태로 경사하강법은 매우 단순한 알고리즘으로 쉽게 이해하고 적용할 수 있다. 신경망의 학습 목표 신경망의 손실 함수는 차원이 매우 높고 복잡하기에 최적화가 어렵다. 손실 함수에는 지역 최소(Local minimum), 전역 최소(Global minimum)이 있다. Local minimum 함수에서 부분적으로 낮은 곳 Global minimum 함수 전체에서 가장 낮은 곳 차원이 클수록 Global minimum을 찾기 힘들고 비용이 많이 든다. 또한 문제가 크고 복잡할 경우 전역 최소를 찾는 것이 어렵고 때로는 불가능이다. 따라서 대부분의 최적화 알고리즘의 목표는 Local minimum을 찾는 것이다. 단, 가장 좋은 Local minimum을..

Machine Learning/기법

[ML] 회귀 모델

회귀 문제 여러 독립 변수와 종속 변수의 관계를 연속 함수 형태로 분석하는 문제이다. 데이터를 관측할 때 발생하는 관측 오차 또는 실험 오차는 가우시안 분포(Gaussian Distribution)로 정의되기 때문에 회귀 문제는 가우시안 분포를 예측하는 모델로 정의할 수 있음 가우시안 분포(Gaussian Distribution) $$ N = (x|\mu, \sigma^{2})=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}} $$ x: 확률 변수 \( \mu \): 평균 \( \sigma^{2} \): 분산 \( \sigma \): 표준 편차 가우시안 분포는 관측 데이터의 분포를 근사하는 데에 자주 쓰인다. 중심 극한 정리(central ..

Machine Learning/기법

[ML] 다중 분류 모델

다중 분류 모델 3개 이상의 Class를 분류하는 모델 이는 주사위를 굴렸을 때 각 면이 나올 확률을 예측하는 문제와 같다. 주사위 각 면이 나올 확률 분포는 카테고리 분포로 정의되므로, 다중 분류 모델을 카테고리 분포를 예측하는 모델로 정의할 수 있다. 카테고리 분포 $$ p(x|\mu) = \prod_{k=1}^{K}(\mu_{k})^{x_{k}} $$ $$ \mu = (\mu_{1},\mu_{2},\cdots,\mu_{K})^{T}, \sum_{k=1}^{K}\mu = 1 $$ $$ x = (x_{1},x_{2},\cdots,x_{K})^{T}, x_{k}= 1(k=i), 0(k\neq i), i\in \{1,2,\cdots,K\} $$ K = 사건 개수 \( \mu_{k} \) 사건 \( k \)..

Machine Learning/기법

[ML] 활성화 함수 Activation Function

활성함수 Activation Function 신경망에 비선형성을 추가하기 위해 사용함 종류 이진 활성화 함수 binary step function 선형 활성화 함수 linear activation function 비선형 활성화 함수 non-linear activation fucntion 대부분 비선형 함수를 사용함 (선형 함수를 사용할 경우 역전파가 불가능(도함수가 상수이기 때문) 하고 몇 개를 쌓아도 선형 함수이기 때문에 모든 모델은 선형 회귀 모델로 작동함) S자형 곡선 함수 Binary Step Function S형과 유사하지만 곡선 함수는 아님 \( 0 for X=0 \) x값을 정수형으로 주어서 그림 2와 같은 그래프가 나왔지만 그림 1과 같은 그래프 형태가 맞음 단점 multi-class cl..

Machine Learning/기법

[Optimizer] Adam Adaptive Moment

Adam RMSProp식에 Momentum을 추가로 적용한 알고리즘이다. 방향과 크기를 모두 개선한 기법 수식 $$ m_{t} = \beta_{1} m_{t-1} + (1 - \beta_{1}) \nabla f(x_{t-1}) $$ $$ g_{t} = \beta_{2}g_{t-1} + (1- \beta_{2})( \nabla f(x_{t-1}))^{2} $$ $$ \hat{m}_{t} = \frac{m_{t}}{1- \beta^{t}_{1}}, \hat{g}_{t} = \frac{g_{t}}{1- \beta^{t}_{2}} $$ $$ x_{t} = x_{t-1}- \frac{ \eta }{ \sqrt{ \hat{g}_{t}+ \epsilon}} . \hat{m}_{t} $$ \( \beta_{1} \) ..

Machine Learning/기법

[Optimizer] RMSProp Root Mean Sqaure Propagation

RMSProp Adagrad의 문제를 개선하기 위해 생김 Adagrad보다 최근의 gradient 값을 더 반영함, 오래된 gradient의 영향력을 줄임 수식 $$ g_{t} = \gamma g_{t-1} + (1- \gamma )( \nabla f(x_{t-1}))^{2} $$ $$ x_{t} = x_{t-1} - \frac{ \eta }{ \sqrt{g_{t}+ \epsilon } } . \nabla f(x_{t-1}) $$ \( g \) : 기울기 누적 \( \gamma \): 지수 이동 평균의 업데이트 계수 \( \epsilon \) : 분모가 0이 되는 것을 방지하는 값 \( \eta \) : 학습률 \( \gamma \)의 값이 클수록 과거의 gradient 가 더 중요하다는 뜻 \( \ga..

파송송
'Machine Learning/기법' 카테고리의 글 목록 (2 Page)