과적합 Overfitting Generalization이 안된 상태 학습 데이터에서는 성능이 좋지만 다른 데이터에서는 성능이 좋지 못한 상태 과적합이 발생하는 이유 학습 데이터가 적은 경우 \( h(x) \)의 차수가 높은 경우 과소적합 Underfitting 학습이 덜 이루어져 새로운 데이터는 물론 학습 데이터에서 조차 성능이 좋지 못한 상태 모델이 해당 문제에 적합하지 않은 경우가 많음 과소적합이 발생하는 이유 모델이 지나치게 단순한 경우 예측을 제대로 할 수 없는 특징들만 제공된 경우 과적합 해결 방법 https://pasongsong.tistory.com/113 [Machine Learning] Overfitting 막는 방법 Overfitting 막는 방법 1. 데이터의 양 늘리기 데이터의 양이..
AdaGrad 일정한 학습률을 사용하지 않고 변수마다 스텝마다 학습률을 다르게 하는 기법 시간이 지날수록 학습률이 줄어듦 큰 변화를 겪은 변수는 학습률이 대폭 작아지고 작은 변화를 겪은 변수의 학습률은 소폭으로 작아짐 feature 마다 중요도, 크기가 다르기 때문에 제안됨 수식 $$ g_{t} = g_{t-1}+ (\nabla f(x_{t-1}))^{2} $$ $$ x_{t}= x_{t-1} - \frac{ \alpha }{ \sqrt{g_{t}+ \epsilon }} . \nabla f(x_{t-1}) $$ \( g \) : 기울기 누적 크기 \( \epsilon \) : 분모가 0이 되는 것을 방지하는 작은 값 \( \alpha \) : 학습률 (Learning rate) x, y 는 \( \the..
Hypothesis 귀무 가설 (Null Hypothesis) : 가설 검정에서 기본 입장 대립 가설 (Alternative alt Hypothesis) : 귀무 가설과 대비되는 입장 가설을 세우고 추론해보자! 귀무 가설 : 1 ~ 10 숫자 카드를 랜덤하게 뽑았을 때 5가 나올 확률은 \( \frac{1}{10} \)이다. 대립 가설 : 1 ~ 10 숫자 카드를 랜덤하게 뽑았을 때 5가 나올 확률은 \( \frac{1}{10} \)가 아니다. 베르누이 : 2가지의 결과값만 갖는 것 1 ~ 10 숫자 카드 중에서 5를 뽑을 때 1이라고 한다면 1000번 실행하였을 때 5가 나올 확률 import random def bernoulli_trial(p) : return 1 if random.randint(1,..
베이지안 확률(Bayesian Probability) 세상에 반복할 수 없는 혹은 알 수 없는 확률 새로운 정보를 토대로 어떤 사건이 발생했다는 주장에 신뢰도를 갱신하는 방법 -> 일어나지 않은 일에 대한 확률을 사건과 관련이 있는 여러 확률을 통해 추정하는 것 빈도 확률(Frequentist probability), 베이지안 확률(Bayesian probability) "동전을 던졌을 때 앞면이 나올 확률은 50%이다 "에 대한 각각의 확률 관점 베이지안 주의 동전이 앞면이 나왔다는 주장에 대한 신뢰도는 50% 동전 던지기가 아닌 확률을 알기 어려운 사건에 대해서 베이지안을 사용함 화산이 폭발할 확률과 같이 빈도 확률의 개념을 적용할 수 없는 경우 사건과 관련이 있는 여러 확률을 이용하여 새롭게 일어날..
중심 경향성 데이터의 중심이 어디인지 나타내는 지표이다. 평균, 중앙값, 최빈값 등이 있다 평균 mean 전체 데이터를 더하고 데이터의 개수로 나눈 값 중앙값 median 전체 데이처의 정중앙에 있는 값 최빈값 mode 전체 데이터에서 가장 많이 나온 값 def mean(x): return sum(x)/len(x) def median(x): sorted_x = sorted(x) mid_point = len(sorted_x)//2 if len(sorted_x)%2 == 0: return sorted_x[mid_point-1:mid_point] else: return sorted_x[mid_point+1] from collections import Counter def mode(xs): counts = Co..
선형 회귀에서 잠깐 말했었던 예측선을 수정하는 걸 해볼 것이다. a값을 무한대로 키우거나 작게 하면 오차는 무한대로 커진다. 이러한 관계를 이차 함수 그래프로 표현이 가능하다. 이걸 이용하여 a, b의 오차를 줄이는 방향으로 수정을 해야 한다. 저기서 y^- y를 t로 치환하면 이차함수 그래프가 되는 걸 알 수 있다. 여기서 우리는 y' - y = 0으로 가게 하는 즉, 오차가 0일 때 a, b를 구해야 한다. 그걸 구하긴 위해서는 이차 함수의 최솟값 즉, 기울기가 0에 가까울 때 a, b 구해야한다. 기울기가 0인 값을 m이라고 하였을 때m을 구하려면 임의의 한 점을 찍고 이 점을 m에 가까운 쪽으로 점점 이동시키는 과정이 필요하다. 이것이 가능하게 하는 게 경사 하강법이다. 이때 미분 기울기를 이용한..