'Machine Learning' 카테고리의 글 목록 (7 Page) — 뚝딱이

Machine Learning

Machine Learning/이론

[ML] Overfitting, Underfitting

과적합 Overfitting Generalization이 안된 상태 학습 데이터에서는 성능이 좋지만 다른 데이터에서는 성능이 좋지 못한 상태 과적합이 발생하는 이유 학습 데이터가 적은 경우 \( h(x) \)의 차수가 높은 경우 과소적합 Underfitting 학습이 덜 이루어져 새로운 데이터는 물론 학습 데이터에서 조차 성능이 좋지 못한 상태 모델이 해당 문제에 적합하지 않은 경우가 많음 과소적합이 발생하는 이유 모델이 지나치게 단순한 경우 예측을 제대로 할 수 없는 특징들만 제공된 경우 과적합 해결 방법 https://pasongsong.tistory.com/113 [Machine Learning] Overfitting 막는 방법 Overfitting 막는 방법 1. 데이터의 양 늘리기 데이터의 양이..

Machine Learning/기법

[Optimizer] Adam Adaptive Moment

Adam RMSProp식에 Momentum을 추가로 적용한 알고리즘이다. 방향과 크기를 모두 개선한 기법 수식 $$ m_{t} = \beta_{1} m_{t-1} + (1 - \beta_{1}) \nabla f(x_{t-1}) $$ $$ g_{t} = \beta_{2}g_{t-1} + (1- \beta_{2})( \nabla f(x_{t-1}))^{2} $$ $$ \hat{m}_{t} = \frac{m_{t}}{1- \beta^{t}_{1}}, \hat{g}_{t} = \frac{g_{t}}{1- \beta^{t}_{2}} $$ $$ x_{t} = x_{t-1}- \frac{ \eta }{ \sqrt{ \hat{g}_{t}+ \epsilon}} . \hat{m}_{t} $$ \( \beta_{1} \) ..

Machine Learning/기법

[Optimizer] RMSProp Root Mean Sqaure Propagation

RMSProp Adagrad의 문제를 개선하기 위해 생김 Adagrad보다 최근의 gradient 값을 더 반영함, 오래된 gradient의 영향력을 줄임 수식 $$ g_{t} = \gamma g_{t-1} + (1- \gamma )( \nabla f(x_{t-1}))^{2} $$ $$ x_{t} = x_{t-1} - \frac{ \eta }{ \sqrt{g_{t}+ \epsilon } } . \nabla f(x_{t-1}) $$ \( g \) : 기울기 누적 \( \gamma \): 지수 이동 평균의 업데이트 계수 \( \epsilon \) : 분모가 0이 되는 것을 방지하는 값 \( \eta \) : 학습률 \( \gamma \)의 값이 클수록 과거의 gradient 가 더 중요하다는 뜻 \( \ga..

Machine Learning/기법

[Optimizer] AdaGrad (Adaptive Gradient)

AdaGrad 일정한 학습률을 사용하지 않고 변수마다 스텝마다 학습률을 다르게 하는 기법 시간이 지날수록 학습률이 줄어듦 큰 변화를 겪은 변수는 학습률이 대폭 작아지고 작은 변화를 겪은 변수의 학습률은 소폭으로 작아짐 feature 마다 중요도, 크기가 다르기 때문에 제안됨 수식 $$ g_{t} = g_{t-1}+ (\nabla f(x_{t-1}))^{2} $$ $$ x_{t}= x_{t-1} - \frac{ \alpha }{ \sqrt{g_{t}+ \epsilon }} . \nabla f(x_{t-1}) $$ \( g \) : 기울기 누적 크기 \( \epsilon \) : 분모가 0이 되는 것을 방지하는 작은 값 \( \alpha \) : 학습률 (Learning rate) x, y 는 \( \the..

Machine Learning/이론

Hypothesis and Inference, p-value

Hypothesis 귀무 가설 (Null Hypothesis) : 가설 검정에서 기본 입장 대립 가설 (Alternative alt Hypothesis) : 귀무 가설과 대비되는 입장 가설을 세우고 추론해보자! 귀무 가설 : 1 ~ 10 숫자 카드를 랜덤하게 뽑았을 때 5가 나올 확률은 \( \frac{1}{10} \)이다. 대립 가설 : 1 ~ 10 숫자 카드를 랜덤하게 뽑았을 때 5가 나올 확률은 \( \frac{1}{10} \)가 아니다. 베르누이 : 2가지의 결과값만 갖는 것 1 ~ 10 숫자 카드 중에서 5를 뽑을 때 1이라고 한다면 1000번 실행하였을 때 5가 나올 확률 import random def bernoulli_trial(p) : return 1 if random.randint(1,..

Machine Learning/이론

[통계] 베이지안 이론 Bayesian theory

베이지안 확률(Bayesian Probability) 세상에 반복할 수 없는 혹은 알 수 없는 확률 새로운 정보를 토대로 어떤 사건이 발생했다는 주장에 신뢰도를 갱신하는 방법 -> 일어나지 않은 일에 대한 확률을 사건과 관련이 있는 여러 확률을 통해 추정하는 것 빈도 확률(Frequentist probability), 베이지안 확률(Bayesian probability) "동전을 던졌을 때 앞면이 나올 확률은 50%이다 "에 대한 각각의 확률 관점 베이지안 주의 동전이 앞면이 나왔다는 주장에 대한 신뢰도는 50% 동전 던지기가 아닌 확률을 알기 어려운 사건에 대해서 베이지안을 사용함 화산이 폭발할 확률과 같이 빈도 확률의 개념을 적용할 수 없는 경우 사건과 관련이 있는 여러 확률을 이용하여 새롭게 일어날..

Machine Learning/이론

[Statistics] 중심 경향성

중심 경향성 데이터의 중심이 어디인지 나타내는 지표이다. 평균, 중앙값, 최빈값 등이 있다 평균 mean 전체 데이터를 더하고 데이터의 개수로 나눈 값 중앙값 median 전체 데이처의 정중앙에 있는 값 최빈값 mode 전체 데이터에서 가장 많이 나온 값 def mean(x): return sum(x)/len(x) def median(x): sorted_x = sorted(x) mid_point = len(sorted_x)//2 if len(sorted_x)%2 == 0: return sorted_x[mid_point-1:mid_point] else: return sorted_x[mid_point+1] from collections import Counter def mode(xs): counts = Co..

Machine Learning/이론

[ML] 경사 하강법

선형 회귀에서 잠깐 말했었던 예측선을 수정하는 걸 해볼 것이다. a값을 무한대로 키우거나 작게 하면 오차는 무한대로 커진다. 이러한 관계를 이차 함수 그래프로 표현이 가능하다. 이걸 이용하여 a, b의 오차를 줄이는 방향으로 수정을 해야 한다. 저기서 y^- y를 t로 치환하면 이차함수 그래프가 되는 걸 알 수 있다. 여기서 우리는 y' - y = 0으로 가게 하는 즉, 오차가 0일 때 a, b를 구해야 한다. 그걸 구하긴 위해서는 이차 함수의 최솟값 즉, 기울기가 0에 가까울 때 a, b 구해야한다. 기울기가 0인 값을 m이라고 하였을 때m을 구하려면 임의의 한 점을 찍고 이 점을 m에 가까운 쪽으로 점점 이동시키는 과정이 필요하다. 이것이 가능하게 하는 게 경사 하강법이다. 이때 미분 기울기를 이용한..

파송송
'Machine Learning' 카테고리의 글 목록 (7 Page)