728x90
K-mean Clustering 단점
- 초기 중심 값에 민감한 반응을 보임
- noise와 outlier에 민감함
- 군집의 개수 k를 설정하는 것이 어려움
DBSCAN Clustering
- 밀도가 높은 부분으로 군집을 형성하는 방법 사용
- Density - based clustering 중 유명하고 성능이 우수함
- eps-neighbors 와 MinPts를 사용하여 군집을 구성함
- eps-neighbors
- 한 데이터를 중심으로 \( \epsilon \)거리 이내의 데이터들을 한 군집으로 구성
- MinPts
- 한 군집은 MinPts보다 많거나 같은 수의 데이터로 구성됨
- Minpts보다 적은 수의 데이터가 eps-neighbors를 형성하면 noise로 취급
장점
- K-means와 다르게 군집의 수를 설정할 필요가 없음
- 다양한 모양의 군집 형성이 가능하고 군집끼리 겹치는 경우가 없다
- 노이즈 개념이 있어 이상치에 대응할 수 있다
- hyperparameter가 2개(eps, minPts)로 적으며, 숙련도에 따라 쉽게 설정이 가능하다
단점
- 한 데이터는 하나의 군집에 속하게 되므로, 시작점에 따라 다른 모양의 군집이 형성됨
- eps의 크기에 의해 DBSCAN의 성능이 크게 좌우됨
- 군집별로 밀도가 다르다면 군집화가 제대로 이루어지지 않음
Step
- 랜덤하게 point를 잡음
- point에서 원을 그래서 군집에 속하게 만듦
Hyperparameter
- MinPts
- minPts = 변수의 수 + 1
- minPts는 3이상으로 설정
- Eps
- 작게 설정하면 상당 수의 데이터가 노이즈로 구분됨
- 크게 설정하면 군집의 수가 하나가 될 수 있음
- 일반적으로 KNN으로 distances를 구하고 거리가 급격하게 증가하는 지점을 eps로 설정함
728x90
'Machine Learning > Model' 카테고리의 다른 글
[CNN] CNN 패딩 Padding (Convolution Neural Network) (2) | 2022.09.29 |
---|---|
[CNN] CNN 필터 filter (Convolutional Neural Network) (0) | 2022.09.29 |
[ML] Hierarchical clustering (0) | 2022.09.06 |
[ML] K-means clustering (0) | 2022.09.06 |
[ML] 회귀 트리 Regression Tree (0) | 2022.09.04 |