'Vision' 카테고리의 글 목록 — 뚝딱이

Vision

Vision

CLIP 모델 활용 및 학습

보호되어 있는 글입니다.

Vision

[CNN] 업샘플링 Upsampling

CNN에는 이미지 크기를 줄이는 연산뿐이 아니라 이미지 크기를 키우는 연산도 필요하다. 여기서 이미지 크기를 키우는 연산을 업샘플링이라고 하며, 주로 이미지 생성이나 세그멘테이션 모델에서 사용한다. Generator 잠재 벡터를 고차원의 이미지로 변환하며 저차원에서 고차원으로 데이터를 변환하는 방법이다. 잠재 벡터를 가지고 이미지를 생성할 수 있다. Segmentation segmentation은 이미지 영역을 분할하는 방법으로, 각 영역에 속하는 픽셀들을 영역을 나타내는 클래스로 분류한다. segmetatiion은 보통 다운샘플링과 업샘플링으로 구성되는데, 다운 샘플링 단계에서는 이미지 특징을 학습하고 업 샘플링 단계에서는 학습된 특징을 이용하여 픽셀 단위로 클래스를 분류해 나간다. CNN에서는 언풀링..

Vision

[CNN] 개선된 convolution 연산

사실 CNN의 기본적인 convolution 연산에는 문제가 존재한다. 파라미터 수와 계산량이 많다. 3차원 공간에서 한꺼번에 가중 합산을 하기 때문에 필터도 크고 계산량도 많다. 죽은 채널(Dead channel)이 발생해도 알기 어렵다. 채널이 죽으면 의미 있는 특징이 생성되지 않고 출력에 대한 영향이 사라진다. 여러 채널에 대해 한꺼번에 연산하므로 공간 특징과 채널 특징이 구분되지 않는다. 특히 채널 간 상관관계가 낮은 채널은 잡음과 같이 작용하여 학습 속도를 저하시킨다. 이러한 문제를 해결하기 위해 어떤 발전을 해왔는지 살펴보자. 팽창 콘벌루션 뉴런의 수용 영역을 넓힐 때 생기는 문제점을 해결하기 위해 고안됨 방법이다. 문제점 필터의 크기를 키우거나 신경망의 깊이를 늘리거나, subsampling..

Vision

[CNN] CNN의 성질

CNN은 뉴런이 지역 연결을 갖는 모델이기 때문에 parameter의 일부만 사용한다. 사용하지 않는 parameter는 해당 parameter의 확률이 없는 것으로 간주하는 매우 강한 사전 분포(Infinitely Strong Prior)를 가정한다. 이런 가정하에 convolution 연산과 pooling 연산이 정의되었기 때문에 CNN은 희소 연결(Sparse connectivity)을 갖고 파라미터 공유를 하는 구조를 가지게 되고 이동 등변성(Translation equivariance)과 위치 불변성(Positional invariance)을 갖는다. 위와 같은 구조와 성질을 가지고 있기 때문에 공간 데이터 처리시에 성능이 극대화 된다. 연산 성질 Convolution 연산은 일부 파라미터를 사..

Vision

[CNN] 서브샘플링 Subsampling

subsampling은 데이터를 낮은 빈도로 샘플링했을 때의 샘플을 근사하는 연산이다. 데이터가 이미지라면 이미지 크기를 줄이는 연산이기 때문에 다운샘플링(Downsampling)이라고도 부른다. Pooling https://pasongsong.tistory.com/210 [CNN] CNN 풀링 Pooling Convolutoinal network Convolution (Conv) Pooling (POOL) Fully connected (FC) Conv 예시 design의 대부분은 filter size, padding, stride 등 hyper parameter를 고르는 것 신경망이 깊어질 수록 크기가 H, W줄어듦, 채널을 늘어남 대 pasongsong.tistory.com 풀링 연산은 이미지상에서 ..

Vision

[CNN] CNN의 구조

convolution layer와 Subsampling layer로 이루어져 있다. convolution 연산을 통해 이미지의 다양한 특징을 학습하며 Subsampling의 pooling을 통해 이미지의 크기를 줄이고 위치불변성을 갖도록 한다. Convolution 연산 두 함수를 곱해 적분하는 연산으로 함수 \( f \)에 다른 함수 \( g \)를 적용하여 새로운 함수를 만들 때 사용한다. $$ (f*g)=\int_{-\infty}^{\infty}f(\tau)g(t-\tau)d\tau $$ \( g(t- \tau) \) 함수만 \( t \)를 가지고 있어 움직일 수 있고 이를 그림으로 표현하면 위와 같고 \( t \)를 따라 슬라이딩하며 내적 한다. Cross correlation 연산 두 함수의 유..

Vision

[CNN] Convolutions 사용 이유

FNN 와 비교했을때 CNN의 장점 적은 양의 parameter로 학습 가능함 CNN은 parameter 공유가 가능함 Sparsity of connections ( 결과값의 한 픽셀은 전체 이미지의 한 부분) https://www.youtube.com/c/Deeplearningai DeepLearningAI Welcome to the official DeepLearning.AI YouTube channel! Here you can find the videos from our Coursera programs on machine learning as well as recorded events. DeepLearning.AI was founded in 2017 by machine learning and edu..

Vision

[CNN] LeNet-5 구조

Layer layer를 나누는 것에 대한 2가지 시선 Conv, Pool을 하나의 layer로 보기 (본 블로그에서는 이 방법을 채택) Conv, Pool을 각각 다른 층으로 보기 pool층은 가중치와 변수가 없고 hyperparameter 만 있기 때문 hyperparameter는 문헌을 참고하여 자신의 모델에 맞게 선택함 깊어질 수록 wight와 heiht가 줄어들고 channel이 늘어남 https://www.youtube.com/c/Deeplearningai DeepLearningAI Welcome to the official DeepLearning.AI YouTube channel! Here you can find the videos from our Coursera programs on mach..

파송송
'Vision' 카테고리의 글 목록