'Machine Learning/이론' 카테고리의 글 목록 — 뚝딱이

Machine Learning/이론

Machine Learning/이론

f1-score 매개변수 average의 종류

scikit-learn에서는 matrix 계산을 위해 f1-score를 제공한다.from sklearn import metricsf1_score = metrics.f1_score(targets, pred, average='') Sklearn 문서에 의하면 각 정의는 다음과 같다. macro average - averaging the unweighted mean per label( label별 산술 평균값)모든 F1를 평균 낸 것weighted average - averaging the support-weighted mean per label (label 별 샘플 수의 비중 가중 평균값)label의 개수에 따라 가중치를 부여한 것micro average - averaging the total true po..

Machine Learning/이론

배깅 Bagging

Ensemble https://pasongsong.tistory.com/317 앙상블은 조화 또는 통일을 의미하며 어떤 데이터의 값을 예측한다고 할 때, 하나의 모델이 아닌 여러 개의 모델을 조화롭게 학습시켜 모델의 예측 결과를 이용하여 강건한 예측값을 구하는 것이다. 크게 Ensemble의 기법으로 배깅(Bagging)과 부스팅(Boosting)이 있다. 배깅(Bagging) 모델을 쌓아서 각 예측값을 합산하여 최종 예측값을 예측한다. Input : 각 Ensemble 모델의 예측값 Target : 합산한 최종 예측값 Bootstrapp Aggregating의 약자로 Ensemble의 각 모델이 서로 다른 데이터셋을 이용하여 예측값을 내고 이를 종합하여 최종 예측값을 결정한다. 각 데이터셋은 복원 추출..

Machine Learning/이론

[통계] ELBO(Evidence of Lower Bound)

ELBO ELBO는 VAE의 loss에도 쓰이는 것으로 variational lower bound라고도 불린다. ELBO는 \( p(z \mid x) \) 가 다루기 힘든 분포를 이루고 있을 때 이를 다루기 쉬운 분포인 \( q(x) \)로 표현하는 과정에서 두 분포의 차이(KL Divergence)를 최소화하기 위해 사용된다. 수식 \( log_{\theta} P(x) \)는 모델의 파라미터(\( \theta \))가 주어졌을 때 x가 나올 확률이고 이 확률이 높을 수록 좋은 모델이다. 우리는 \( log_{\theta} P(x) \)를 최대화 하는 방향으로 \( \theta \)를 학습시켜야 한다. 위의 식에서 KL Divergence는 늘 0보다 크거나 같기 때문에 \( log P(x) \)는 EL..

Machine Learning/이론

[통계] 엔트로피 Entropy, 크로스 엔트로피 Cross Entropy, KL divergence

정보 Information 통계학에서 놀랄만한 내용일수록 정보량이 많다고 이야기하고 이는 확률의 개념을 재해석한 것으로 볼 수 있다. 이는 확률이 낮은 사건일수록 거의 일어나지 않을 일이기 때문에 정보량이 높다고 이해할 수 있다. 위의 내용을 바탕으로 어떤 사건 변수 \( X \)에 대한 정보량(Info)는 다음과 같이 생각할 수 있다. $$ Info \propto \frac{1}{P(X)} $$ 정보량 구체적으로 통계에서 정보량은 다음과 같이 정의한다. $$ I(x) = -log_{b}(P(X)) $$ b = 2 : bit b = e : nit b = 10 : dit log에 \( \frac{1}{P(X) \)를 넣었기 때문에 -가 앞으로 나오고 위와 같이 정의된다. log를 사용한 이유는 확률에 반비..

Machine Learning/이론

[ML] 인공지능 기초, 개요

인공지능 AI (Artificial Intelligence) 사람처럼 생각하고 행동하는 기계를 만드는 연구로 Computational Rationality라고도 불림 이는 인공지능이 성능평가가 최대가 되는 결과를 선택하기 때문이다. ML(Machine Learning) 컴퓨터 프로그램이 알고리즘을 사용하여 데이터 feature의 패턴을 찾는 인공지능의 세부 분야이며 경험적 데이터(Case, 사례)를 학습하여 지능적으로 동작을 할 수 있다. 지도학습, 비지도학습, 강화 학습 등 다양한 학습 유형이 있다. 지도학습(Supervised Learning) label이 주어진 데이터를 학습시키는 방법으로 회귀, 분류에 주로 사용된다. 비지도학습(Unsupervised Learning) label이 없는 데이터를 ..

Machine Learning/이론

[미분] 미분 기초와 모델 학습에 쓰이는 미분

미분(Derivatives) 도함수라고도 하며 x가 변화할 때 y의 변화량으로 한 점의 기울기로 볼 수 있음 평균 변화율 $$ \frac{f(b)-f(a)}{b-a} $$ x가 변할 때 y의 변화량 순간변화율 $$ f'(x) = lim_{h \rightarrow 0} \frac{f(x+h)-f(x)}{h} $$ 평균 변화률의 극한값으로 한 점의 기울기 a의 접선의 기울기 직선 미분 \( f(x) = 3x \) 이라는 함수가 있을 때, \( x = 2 \), \( f(x) = 6 \) \( x = 2.001 \), \( f(x) = 6.003 \) 3만큼 변화한다고 할 수 있고 derivative = 3이 된다. $$ \frac{ \partial f(x)}{ \partial x} = \frac{ \part..

Machine Learning/이론

[ML] 규제, 가중치 감소

규제, 가중치 감소 $$ w^{T}x+b=0 $$ \( w^{T}x+b=0 \)에 2를 곱하면 \( 2w^{T}x+2b=0 \)이 되고 이 두 방정식은 같은 직선을 표현하게 됨 그렇다면 위의 2개의 직선중 어떤 방적식을 사용하는 것이 좋을까? 정답은 가중치와 편향을 작게 만드는 방정식을 사용하는 것이다. 가중치 감소(Weight decay)는 학습 과정에서 작은 크기의 가중치를 찾게 만드는 정규화 기법이다. 가중치 감소 적용 방식 가중치의 크기를 제한하는 제약 조건으로서 손실 함수의 일부 항으로 표현할 수 있음 손실 함수로 확장해서 가중치의 크기를 표현하는 정규화 항(Regularization term)을 더하면, 최적화 과정에서 원래의 손실 함수와 함께 정규화 항도 같이 최소화 되므로 크기가 작은 가중..

Machine Learning/이론

[ML] 신경망 학습, 학습 최적화

신경망 학습 신경망을 학습 한다는 것은 어떤 의미인가? 모델에게 data와 label은 주지만 추론을 위한 정보는 제공하지 않는다. 그렇기에 신경망은 추론을 위한 규칙을 데이터를 이용하여 스스로 찾아낸다. 신경망이 학습을 한다는 것은 규칙을 찾는 과정을 말한다. 규칙 생성 규칙은 어떻게 찾을 수 있는 것일까? 신경망에 입력 데이터가 들어왔을 때 어떤 출력 데이터를 만들어야 할지를 정하는 규칙은 함수적 매핑 관계로 표현된다. 함수적 매핑 관계 신경망에서 함수적 매핑 관계는 어떤 형태로 존재하는 것일까? 가중 합산과 활성 함수가 연결되어 뉴런을 구성하고, 뉴런이 모여 계층을 구성하며, 계층이 쌓여서 신경망의 계층 구조가 정의된다. 이처럼 신경망의 요소들이 이루는 복잡한 신경망의 계층 구조 자체가 신경망의 함..

파송송
'Machine Learning/이론' 카테고리의 글 목록