시그모이드 함수와 크로스 엔트로피 손실 Sigmoid 함수는 분모에 지수항이 있기 때문에 함수의 양 끝부분에서 그레이디언트 포화 문제가 발생한다. 여기서 이를 보완할 수 있는 방법이 있는데 그것은 크로스 엔트로피 손실을 사용하는 방법이다. 출력 계층에서 Sigmoid 함수를 사용할 때 크로스 엔트로피 손실을 사용하면 일부 구간에서 그레이디언트 포화가 생기지 않게 만들 수 있다. Cross Entropy loss Function $$ J(\theta) = -\sum_{i=1}^{N}t_{i}\cdot log\mu (x_{i};\theta)+(1-t_{i})\cdot log(1-\mu(x_{i};\theta)) $$ 여기서 t = 1 이라고 한다면 \( J(\theta)=-log(\mu(x;\theta)) ..
신경망의 모델 크기는 너비(width)와 깊이(depth)로 정해진다. 너비: 계층별 뉴런 수 깊이: 계층 수 데이터가 특징이 많고 데이터 간의 관계가 복잡할수록 특징을 학습하는 뉴런의 수를 늘려줘야 한다. 특징의 추상화 수준이 높을수록 추상화를 수행하는 계층의 수를 늘려줘야 한다. 하지만 데이터만 보고 내재한 잠재적 특징의 수나 관계의 복잡도, 추상화 수준을 가늠하기란 쉽지 않다. 따라서 적절한 모델의 크기를 찾기 위해서는 경험적으로 크기의 범위를 정하고 성능 분석을 통해 취적의 크기를 탐색해 나가야 한다. 모델 크기 탐색 신경망 모델의 크기를 탐색할 때는 그리드 서치(Grid Search)나 랜덤 서치(Random Search)와 같은 탐색 방법을 사용한다. 그리드 서치 parameter별로 구간을 ..
FeedForward Neural Network로 기본적인 모델을 설계하기 위해 지도 학습의 대표적인 문제인 분류와 회귀 문제를 정의해 보자 분류 문제 Classification 분류 문제는 데이터의 class 또는 category를 예측하는 문제이다. 종류 이진 분류 (Binary Classification) 2개의 클래스로 분류하는 문제 ( 1, 0로 분류할 수 있는 문제) 다중 분류 (Multiclass classification) 여러 클래스로 분류하는 문제 ( 1, 0 가지고는 분류할 수 없는 문제) 분류 모델을 판별 함수(discriminative function)로 정의하면 모델은 입력 데이터가 속한 클래스를 예측한다. -> 고양이 사진을 넣었을 때 '고양이'라는 클래스를 출력한다. 분류 모..
Binary Classification y 값이 2가지의 경우로 나올 수 있는 classification y 의 경우의 수는 1 (cat), 0 (non cat)으로 2가지 임 64 x 64의 사진일 경우 input으로 들어갈 때 RGB를 고려하여 들어감 (x의 차원이 64 x 64 x 3인 이유) Notation https://www.youtube.com/c/Deeplearningai
Neural Network 신경망 뉴런의 구조를 모델링하여 만듦 하나의 neuron : perceptron 시냅스 : 여러 layer 연결주의 방식 Perceptron 하나의 Neuron 학습이 불가능한 Neuron을 학습이 가능하게 만든 것 input data를 통해 output data를 받는 구조 input, weights, activation function으로 구성됨 Multi Layer Perceptron XOR 문제를 풀기 위해 처음 고안됨 Input layer : Domain에서 입력을 받기 때문에 계산이 수행되지 않고 정보를 은닉층에 전달함 Hidden layer : 노출되어있는 layer가 아니고 abstraction만 전달함 Output layer : 최종 value를 전달하는 net..
오차역전파 경사 하강법의 방법으로 손실 함수에서 가중치까지 신경망의 역방향으로 실행하면 시간이 오래 걸리고 비효율성 문제가 생긴다. 이를 해결하기 위해 오차 역전파 알고리즘(Back Propagation Algorithm)이다. 공통부분은 한 번 계산해두면 같은 뉴런에 속한 모든 가중치의 미분을 계산할 때 재사용할 수 있다. 1. 손실 함수 미분 손실 함수 전역 미분 \( \frac{\partial J}{\partial y} \)을 출력 계층 \( O \)에 전달한다. 2. 출력 뉴런 미분 공통부분 계산 활성 함수 지역 미분: \( \frac{\partial y}{\partial z^{2}} \) 활성 함수 전역 미분 : \( \frac{\partial J}{\partial y} \) 와 \( \frac..
회귀 분석 독립변수와 종속변수 사이의 함수적 관계를 구하는데 사용되는 것 선형과 비선형이 있음 단순 선형 회귀 분석 한 개의 독립변수와 한 개의 종속 변수 사이의 함수적 관계를 선형으로 분석하는 것 독립변수 Independent Variable : 독립적으로 변하는 값 (\( x \)값) 종속변수 Dependent Variable : 독립변수에 따라 변하는 값 (\( y \) 값) 다중 선형 회귀 분석 두 개 이상의 독립변수와 한 개의 종속변수 사이의 함수적 관계 선형으로 분석하는 것 다중 선형 회귀의 Loss function 다중 선형 회귀의 오류를 측정하는 함수 $$ l^{(i)}(W,b) = \frac{1}{2}( \hat{y}^{(i)}-y^{(i)})^{2} $$ $$ L(W,b) = \frac..