'Machine Learning/기법' 카테고리의 글 목록 — 뚝딱이

Machine Learning/기법

Machine Learning/기법

Apriori 이란? - 장바구니, 연관성 분석

https://pasongsong.tistory.com/537 Association Rule 연관 규칙 Association Rule 추천 시스템에서 Baseline이 되는 것으로 어떤 사건이 얼마나 자주 함께 발생하는 지를 수치화 하는 방법이다. items 사이의 관계를 수치화 하는 방법으로 items끼리의 상호 연관관계를 pasongsong.tistory.com Association Rule을 적용하기 위해서는 각 item이 item Set에서 어떤 빈도로 출현했는지, 어떤 item과 함께 나왔는지 파악 해야 한다. Dataset의 모든 후보 itemset에 대해 하나하나 검사하는 것은 굉장히 비효율적이며 시간이 오래 걸린다. 이러한 문제를 해결하기 위해 Apriorim, FP-Growth Algor..

Machine Learning/기법

Association Rule 연관 규칙

Association Rule 추천 시스템에서 Baseline이 되는 것으로 어떤 사건이 얼마나 자주 함께 발생하는 지를 수치화 하는 방법이다. items 사이의 관계를 수치화 하는 방법으로 items끼리의 상호 연관관계를 나타냄 \( X \Rightarrow Y \): X를 선택하였을 때 Y가 선택될 확률 "X를 사면 Y를 산다"는 규칙을 찾는 것으로 추천 시스템의 Baseline으로 사용됨 용어 조건절 Antecedent, 결과절 Consequent \( X \Rightarrow Y \): X를 선택하였을 때 Y가 선택될 확률 Antecedent(IF): X Consequent(THEN): Y Item Set 조건절(Antecedent), 결과절(Consequent)을 구성하는 상품의 집합 Assoc..

Machine Learning/기법

[통계] 행렬(Matrix), 행렬 미분

Matrix 미분 표기법 Numerator layout 분자 중심의 행렬 미분으로 미분당하는 변수(혹는 함수)를 기준으로 결과의 형태를 표기함 y(피미분)의 형태로 미분 결과가 나옴 Denumerator layout 분모 중심의 행렬 미분으로 미분을 하는 변수(혹은 함수)를 기준으로 결과의 형태를 표기함 x(미분)의 형태로 미분 결과가 나옴 Scalar Vector 미분 Scalar를 Vector로 미분 Numerator layout Denumerator layout Denumerator layout을 T한것과 동일 \( \frac{\delta y}{\delta x}= \begin{bmatrix} \frac{\delta y}{\delta x_{1}} & \ldots &\frac{\delta y}{\del..

Machine Learning/기법

[통계] 행렬(Matrix), 행렬 연산

Matrix 표기법 행렬(Matrix) 수 또는 다항식을 직사각형 모양으로 배열한 것 $$ \begin{bmatrix}a_{11} & a_{12} & \cdot & \cdot & a_{1n} \\ a_{21} & a_{22} & \cdot & \cdot & a_{2n} \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ a_{m1} & a_{m2} & \cdot & \cdot & a_{mn} \\ \end{bmatrix} $$ 벡터(Vector) 행 또는 열의 수가 1인 경우 행이 1인 경우 Row Vector \( \begin{bmatrix}a_{11} & a_{12} & \cdot & \cdot & a..

Machine Learning/기법

[통계] Likelihood, MLE, 가능도함수, 우도함수

Likelihood(가능도함수, 우도함수) 데이터가 특정 분포로부터 만들어졌을 확률을 뜻한다. \( x = {1, 1, 1, 1} \)이라고 할 때 왼쪽의 분포를 따를 확률이 더 높고 아래와 같은 수식으로 적을 수 있다. $$ L( \theta) = p(X \mid \theta) $$ \( \theta \)의 파라미터를 가지는 분포 계산 $$ p(x_{n} \mid \theta)= \frac{1}{ \sqrt{2 \pi} \sigma }exp\{ - \frac{(x_{n}- \mu)^{2}}{2 \sigma ^{2}} \} $$ \( x_{n} \)이 \( \theta = ( \mu, \sigma) \)를 가지는 정규분포를 따를 확률 모든 데이터는 독립이기 때문에 그것을 적용하면 아래와 같은 likeli..

Machine Learning/기법

[통계] 통계 기초

통계학 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야 모집단 (Population) 연구자가 알고 싶어 하는 대상이 되는 모든 개체들을 모은 집합 (집단 전체) 표본 (Sample) 모집단에서 측정한 일부분의 관측값들로 연구자가 측정, 관찰한 결과들의 집합 일반적으로 시간적 공간적 제약으로 인해 모집단 전체를 분석하는 것을 불가능하여 표본을 통해 모집단의 특성을 이해함 모수 (parameter) 통계적 추론에서 연구자의 최종 목표, 모집단의 특성 통계량 (Statistic) 표본의 관측값들에 의해서 결정되는 양 대한민국 남자의 평균 키를 알아보기 위해 무작위로 대한민국 남자 100명을 선택해 그들의 키를 평균 내보았다. 모집단: 모든 대한민국..

Machine Learning/기법

[ML] 머신러닝 Machine Learning 앙상블 Ensemble

배경 No Free Lunch Theorem 모든 상황에서 우월한 성능을 내는 알고리즘은 존재하지 않음 문제의 목적, 데이터 형태등을 종합적으로 고려하여 최적의 알고리즘을 선택할 필요가 있음 Do we Need Hundreds of Classifiers to solve Real World Classification problems? 위의 배경을 입증하는 논문으로 각 121개의 dataset에 대한 179개의 알고리즘에 rank를 매긴 것 Random Forest, SVM 계열의 모델이 상대적으로 높은 Rank를 차지함 하나의 알고리즘이 우월한 경우는 없음 그러나 일반적으로 안정적인 성능을 보이는 알고리즘은 존재함 단일 알고리즘 보다 여러 알고리즘을 결합하면 성능이 향상되는 경우가 많다. > 서로 다른 사..

Machine Learning/기법

[ML] 정규화

최적해로 가는 길을 잘 찾을 수 있게 정규화(Regularization)하는 것이 중요함 최적화 과정에서 최적해를 잘 찾도록 정보를 추가하는 기법으로, 최적화 과정에서 성능을 개선할 수 있는 포괄적인 기법들을 포함한다. 1. 최적해가 어떤 공간에 있는지 알려줌 2. 손실함수를 부드럽게 만듦 3. 최적해 주변을 평평하게 만듦 4. 모델과 데이터에 확률적 성질을 부여하여 다양한 상황에서 학습하는 효과를 줄 수 있음 일반화 오류 모델의 훈련 성능과 검증/ 테스트 성능의 차를 일반화 오류(Generalization error)라고 함 일반화 오류가 적을수록 일반화가 잘된 모델임 신경망은 모델이 크고 복잡하기 때문에 파라미터 공간이 크고 학습 데이터가 많이 필요함 이러한 이유로 과적합되기 쉬우니 신경망을 학습할때..

파송송
'Machine Learning/기법' 카테고리의 글 목록