https://arxiv.org/pdf/2102.12092v2.pdf
ABSTRACT
Text to image task는 fixed dataset에 대해 더 나은 modeling assumptions을 찾는데에 집중하였다
본 논문에서는 transformer를 활용하여 text, image tokens을 하나의 stream으로 변환하여 auto-regressive 하게 모델링하는 기법을 제안한다. 충분한 data와 scale을 기준으로 경쟁력 있는 Zero-shot 성능을 보인다.
INTRODUCTION
Background
Draw generative model -> Conditoin on image captions -> GAN
위의 순서로 text to image task models이 발전하였고 Reed et al는 RNN보다 GAN을 사용한 것이 fidelity가 높다는 것을 입증했고 GAN을 사용하였을 때 인식 가능한 속성을 가진 객체 생성과 zero-shot일반화의 가능성을 보여줬다.
그러나 GAN을 활용한 생성은 3개의 한계점을 가지고 있다.
1. 물체 왜곡
2. 실존할 수 없는 위치에 물체 존재
3. 배경과 이질적인 물체
multi-scale generators -> integrating attention and auxiliary losses -> leveraging additional sources of conditioning information beyond just text
Dataset
기존의 연구는 MS-COCO, CUB-200와 같이 적은 dataset에서의 학습만 이루어졌지만 본 논문에서는 large dataset을 사용했다 . -> conceptual caption Dataset, YFCC100 M, wikipedia의 이미지와 해당 이미지의 캡션 데이터셋을 활용하여 학습을 진행하였다.
8192개의 large vocabulary size를 통해 질감, 글씨, 얇은 선의 손실, 왜곡이 발생하지만 이미지의 주요 특징은 인식할 수 있다.
METHOD
Goal
'Attention is all you need'에서 제안된 Autoregressive Transformer를 학습하는 것으로 text와 image token들을 Single Stream으로 모델링하는 과정을 거친다.
Problem
image의 픽셀을 token으로 사용하면 고해상도의 image의 경우 많은 메모리가 필요하고 Likelihood objectives는 가까운 픽셀 간의 Depandency를 모델링하고 이는 전체적인 형상보다는 디테일에 지나치게 학습하는 것으로 모델링 자원을 낭비하게 된다.
위의 문제를 해결하기 위해 two-stage training procedure을 제안한다.
Overview
논문 이해가 힘들어 https://www.youtube.com/watch?v=CQoM0r2kMvI를 를 참고했다.
최대 256개의 BPE-encoded + 32 x 32 이미지 토큰을 통해 autoregressive를 진행한다.
그 과정에서 8192개의 vocabulary 확률을 구해 픽셀값을 지정한다.
Stage 1: Learning the Visual Codebok
Discrete VAE를 사용하여 256 x 256 RGB 이미지를 32 x 32 이미지 토큰으로 압축한다.
이를 통해 Transformer의 Context Size의 퀄리티를 큰 손실 없이 192배 줄일 수 있음
-> 인코더를 통해 공간적 해상도를 8배 줄이는 과정
정보의 손실이 있지만 Main Feature 인식가능
Stage 2: Learning the Prior
최대 256개의 Byte Pair Embedding - Encoded Text Tokens를 32x32 image tokens와 Concat하고, Text / Image Token 들의 결합 분포를 모델링하는 Autoregressive Transformer를 학습합니다.
전반적인 과정은 ELB(Evidence lower bound)를 최대화 하는 과정과 매우 유사하다.
$$ In\ p_{ \theta , \phi }(x,y) \geq \mathbb{E}_{z \sim q_{ \phi }(z|x)}(In\ p_{ \theta }(x|y,z)- \beta D_{KL}(q_{ \phi }(u,z|x),P_{ \psi }(y,z))) $$
n개의 다양한 이미지 생성후 가장 좋은 이미지를 선택하여 최종본으로 제출함
더 공부하고 다시 정리해야겠다.
https://www.youtube.com/watch?v=CQoM0r2kMvI
https://devocean.sk.com/blog/techBoardDetail.do?ID=164212