'Machine Learning' 카테고리의 글 목록 (7 Page)

[ML] Overfitting, Underfitting

2022.08.17

과적합 Overfitting Generalization이 안된 상태 학습 데이터에서는 성능이 좋지만 다른 데이터에서는 성능이 좋지 못한 상태 과적합이 발생하는 이유 학습 데이터가 적은 경우 $ h(x) $의 차수가 높은 경우 과소적합 Underfitting 학습이 덜 이루어져 새로운 데이터는 물론 학습 데이터에서 조차 성능이 좋지 못한 상태 모델이 해당 문제에 적합하지 않은 경우가 많음 과소적합이 발생하는 이유 모델이 지나치게 단순한 경우 예측을 제대로 할 수 없는 특징들만 제공된 경우 과적합 해결 방법 https://pasongsong.tistory.com/113 [Machine Learning] Overfitting 막는 방법 Overfitting 막는 방법 1. 데이터의 양 늘리기 데이터의 양이..

Machine Learning/기법

[Optimizer] Adam Adaptive Moment

2022.08.15

Adam RMSProp식에 Momentum을 추가로 적용한 알고리즘이다. 방향과 크기를 모두 개선한 기법 수식 $$ m_{t} = \beta_{1} m_{t-1} + (1 - \beta_{1}) \nabla f(x_{t-1}) $$ $$ g_{t} = \beta_{2}g_{t-1} + (1- \beta_{2})( \nabla f(x_{t-1}))^{2} $$ $$ \hat{m}_{t} = \frac{m_{t}}{1- \beta^{t}_{1}}, \hat{g}_{t} = \frac{g_{t}}{1- \beta^{t}_{2}} $$ $$ x_{t} = x_{t-1}- \frac{ \eta }{ \sqrt{ \hat{g}_{t}+ \epsilon}} . \hat{m}_{t} $$ $ \beta_{1} $ ..

Machine Learning/기법

[Optimizer] RMSProp Root Mean Sqaure Propagation

2022.08.15

RMSProp Adagrad의 문제를 개선하기 위해 생김 Adagrad보다 최근의 gradient 값을 더 반영함, 오래된 gradient의 영향력을 줄임 수식 $$ g_{t} = \gamma g_{t-1} + (1- \gamma )( \nabla f(x_{t-1}))^{2} $$ $$ x_{t} = x_{t-1} - \frac{ \eta }{ \sqrt{g_{t}+ \epsilon } } . \nabla f(x_{t-1}) $$ $ g $ : 기울기 누적 $ \gamma $: 지수 이동 평균의 업데이트 계수 $ \epsilon $ : 분모가 0이 되는 것을 방지하는 값 $ \eta $ : 학습률 $ \gamma $의 값이 클수록 과거의 gradient 가 더 중요하다는 뜻 \( \ga..

Machine Learning/기법

[Optimizer] AdaGrad (Adaptive Gradient)

2022.08.15

AdaGrad 일정한 학습률을 사용하지 않고 변수마다 스텝마다 학습률을 다르게 하는 기법 시간이 지날수록 학습률이 줄어듦 큰 변화를 겪은 변수는 학습률이 대폭 작아지고 작은 변화를 겪은 변수의 학습률은 소폭으로 작아짐 feature 마다 중요도, 크기가 다르기 때문에 제안됨 수식 $$ g_{t} = g_{t-1}+ (\nabla f(x_{t-1}))^{2} $$ $$ x_{t}= x_{t-1} - \frac{ \alpha }{ \sqrt{g_{t}+ \epsilon }} . \nabla f(x_{t-1}) $$ $ g $ : 기울기 누적 크기 $ \epsilon $ : 분모가 0이 되는 것을 방지하는 작은 값 $ \alpha $ : 학습률 (Learning rate) x, y 는 \( \the..

Machine Learning/이론

Hypothesis and Inference, p-value

2022.08.11

Hypothesis 귀무 가설 (Null Hypothesis) : 가설 검정에서 기본 입장 대립 가설 (Alternative alt Hypothesis) : 귀무 가설과 대비되는 입장 가설을 세우고 추론해보자! 귀무 가설 : 1 ~ 10 숫자 카드를 랜덤하게 뽑았을 때 5가 나올 확률은 $ \frac{1}{10} $이다. 대립 가설 : 1 ~ 10 숫자 카드를 랜덤하게 뽑았을 때 5가 나올 확률은 $ \frac{1}{10} $가 아니다. 베르누이 : 2가지의 결과값만 갖는 것 1 ~ 10 숫자 카드 중에서 5를 뽑을 때 1이라고 한다면 1000번 실행하였을 때 5가 나올 확률 import random def bernoulli_trial(p) : return 1 if random.randint(1,..

Machine Learning/이론

[통계] 베이지안 이론 Bayesian theory

2022.08.10

베이지안 확률(Bayesian Probability) 세상에 반복할 수 없는 혹은 알 수 없는 확률 새로운 정보를 토대로 어떤 사건이 발생했다는 주장에 신뢰도를 갱신하는 방법 -> 일어나지 않은 일에 대한 확률을 사건과 관련이 있는 여러 확률을 통해 추정하는 것 빈도 확률(Frequentist probability), 베이지안 확률(Bayesian probability) "동전을 던졌을 때 앞면이 나올 확률은 50%이다 "에 대한 각각의 확률 관점 베이지안 주의 동전이 앞면이 나왔다는 주장에 대한 신뢰도는 50% 동전 던지기가 아닌 확률을 알기 어려운 사건에 대해서 베이지안을 사용함 화산이 폭발할 확률과 같이 빈도 확률의 개념을 적용할 수 없는 경우 사건과 관련이 있는 여러 확률을 이용하여 새롭게 일어날..

Machine Learning/이론

[Statistics] 중심 경향성

2022.08.09

중심 경향성 데이터의 중심이 어디인지 나타내는 지표이다. 평균, 중앙값, 최빈값 등이 있다 평균 mean 전체 데이터를 더하고 데이터의 개수로 나눈 값 중앙값 median 전체 데이처의 정중앙에 있는 값 최빈값 mode 전체 데이터에서 가장 많이 나온 값 def mean(x): return sum(x)/len(x) def median(x): sorted_x = sorted(x) mid_point = len(sorted_x)//2 if len(sorted_x)%2 == 0: return sorted_x[mid_point-1:mid_point] else: return sorted_x[mid_point+1] from collections import Counter def mode(xs): counts = Co..

Machine Learning/이론

[ML] 경사 하강법

2021.04.01

선형 회귀에서 잠깐 말했었던 예측선을 수정하는 걸 해볼 것이다. a값을 무한대로 키우거나 작게 하면 오차는 무한대로 커진다. 이러한 관계를 이차 함수 그래프로 표현이 가능하다. 이걸 이용하여 a, b의 오차를 줄이는 방향으로 수정을 해야 한다. 저기서 y^- y를 t로 치환하면 이차함수 그래프가 되는 걸 알 수 있다. 여기서 우리는 y' - y = 0으로 가게 하는 즉, 오차가 0일 때 a, b를 구해야 한다. 그걸 구하긴 위해서는 이차 함수의 최솟값 즉, 기울기가 0에 가까울 때 a, b 구해야한다. 기울기가 0인 값을 m이라고 하였을 때m을 구하려면 임의의 한 점을 찍고 이 점을 m에 가까운 쪽으로 점점 이동시키는 과정이 필요하다. 이것이 가능하게 하는 게 경사 하강법이다. 이때 미분 기울기를 이용한..

티스토리툴바