Computer Vision 시각적 세계를 이해하고 해석하는 학습을 하는 인공지능 분야 Kinds of Problems Image classification : image를 보고 분류하는 것 Object detection : 특정 object를 찾아내는 것 Nerual Style Transfer : image를 재구성하는 것 등이 있음 Deep Learning on large images (Standard Neural Network) vision 문제의 input은 h x w x 3로 input의 크기가 큼 과적합이 생기기 쉬움 학습이 오래걸림 (계산량 증가) 메모리 공간이 부족함 이를 해결하기 위해 CNN 사용 CNN filter input image에서 특성을 추출하는 검출기 모서리 감지 모서리 감지..
K-mean Clustering 단점 초기 중심 값에 민감한 반응을 보임 noise와 outlier에 민감함 군집의 개수 k를 설정하는 것이 어려움 DBSCAN Clustering 밀도가 높은 부분으로 군집을 형성하는 방법 사용 Density - based clustering 중 유명하고 성능이 우수함 eps-neighbors 와 MinPts를 사용하여 군집을 구성함 eps-neighbors 한 데이터를 중심으로 \( \epsilon \)거리 이내의 데이터들을 한 군집으로 구성 MinPts 한 군집은 MinPts보다 많거나 같은 수의 데이터로 구성됨 Minpts보다 적은 수의 데이터가 eps-neighbors를 형성하면 noise로 취급 장점 K-means와 다르게 군집의 수를 설정할 필요가 없음 다양한..
Hierarchical clustering 개체들을 가까운 집단부터 순차적/ 계층적으로 차근차근 묶어 나가는 방식 유사한 개체들이 결함되는 dendogram을 통해 시각화 가능 사전에 군집의 개수를 정하지 않아도 수행이 가능함 step 모든 개체들 사이의 거리에 유사도 행렬 계산 거리가 인접한 관측치끼리 cluster 형성 유사도 행렬 update A B C D A 0 20 7 2 B 20 0 10 25 C 7 10 0 3 D 2 25 3 0 AD B C AD 0 20 3 B 20 0 10 C 3 10 0 ADC B ADC 0 10 B 10 0
Clustering (비지도 학습) 주어진 데이터의 집합을 유사한 데이터들의 그룹으로 나누는 것 이렇게 나누어진 유사한 데이터의 그룹을 군집 cluster라고 함 cluster 거리 K-means 장점 비교적 구현하기 간단함 레이블 된 학습 데이터가 필요하지 않음(비지도 학습의 특성) 새로운 데이터의 클러스터를 찾을 때 계산량이 적음 단점 차원이 커질수록 거리를 이용하여 clustering 하는 것은 정확도가 떨어짐 초기 중심 값에 민감한 반응을 보임 노이즈와 아웃라이어에 민감함 k를 구하기 어려움 비지도 학습 clustering은 비지도 학습의 일종 종속 변수 y 가 존재하지 않고, 독립 변수 x간의 관계에 대해 모델링 하는 것 군집 분석 : 유사한 데이터 끼리 그룹화 시키는 것 PCA : 독립 벽수들..
Regression Tree Tree 조건에 따라 x가 가질 수 있는 영역을 block으로 나누는 개념 \(c_{m}\) z축의 값 높이 $$ \hat{p}_{mk} = \sum_{m=1}^Mc_{m}I(x \epsilon R_{m}) $$ \( R_{m} \) 을 정하는 법 임의의 영역을 나눔 하나의 실수값을 왼쪽 오른쪽으로 쪼개고 무수히 많은 s를 넣는 것 \( R_{1}(j,s) = {X|X_{j} s} \) 각 영역들에 대해, measure를 가장 좋은 값으로 만드는 변수와 기준을 선택함 왼쪽 오른쪽 값에 대한 y와 c(평균값)의 차이의 합을 구할 수 있음 \( min_{j,s}[min_{c1} \sum_{x_{i} \epsilon R_{1}(j,s)} (y_{i}-c_{1})^{2} +min_{..
Classification Tree Tree 조건에 따라 x가 가질 수 있는 영역을 block으로 나누는 개념 $$ \hat{p}_{mk} = \frac{1}{N_{m}} \sum{x_{i} \epsilon R_{m}I(y_{i}=k)} $$ 상대 비율 \( R_{m} \)을 정하는 법 범주형 : 범주에 따라 구성 연속형 : 영역을 임의로 나누고 영역에 따라 구성 구성된 영역에 대해 measure를 가장 좋은 값으로 만드는 변수와 기준을 선택함 영역 나눌 때 사용되는 도구 아래의 값이 작아지도록 R을 나눔 엔트로피 오분류율 R안의 샘플 중 실제값과 예측값이 다른 경우의 개수를 셈 \( \frac{1}{N_{m}} \sum_{i \epsilon R_{m}} I(y_{i} != k(m)) = 1- \hat{..
의사결정나무 Decision Tree https://pasongsong.tistory.com/136?category=1026284 [자료구조] 트리 Tree 트리 Node와 Branch를 이용해서, 사이클을 이루지 않도록 구성한 데이터 구조 이진트리 (Binary Tree 형태, 가장 많이 쓰임)로, 탐색(검색) 알고리즘 구현을 위해 많이 사용됨 용어 Node : 트리에서 데이 pasongsong.tistory.com 의미 변수들로 기준을 만들고 이것을 통하여 샘플을 분류하고 분류된 집단의 성질을 이용하여 추정하는 모형 장점 위의 표를 보면 샘플의 play tennis의 결과에 영향을 미치는 요인들을 Tree 구조를 통해 직관적으로 볼 수 있음 해석력이 높음 직관적이고 범용적임(독립변수, 종속변수가 범용..