https://arxiv.org/abs/2112.10752 Abstract Diffusion Models(DMs) Image Formation을 denoising autoencoders로 분해하여 이미지를 합성하는 Diffusion models(DMs)은 synthesis results에서 SOTA를 달성하였다. 추가적으로 retraining 없이 image generation process를 their formulation으로 제어가 가능하다. DMs 단점 일반적으로 Pixel space를 직접적으로 denoising하여 최적화하는데 수백 개의 GPU가 소모되며 Inference에 많은 비용이 든다. quality와 flexibility는 유지하면서 limited computational resourc..
https://arxiv.org/pdf/2102.12092v2.pdf ABSTRACT Text to image task는 fixed dataset에 대해 더 나은 modeling assumptions을 찾는데에 집중하였다 본 논문에서는 transformer를 활용하여 text, image tokens을 하나의 stream으로 변환하여 auto-regressive 하게 모델링하는 기법을 제안한다. 충분한 data와 scale을 기준으로 경쟁력 있는 Zero-shot 성능을 보인다. INTRODUCTION Background Draw generative model -> Conditoin on image captions -> GAN 위의 순서로 text to image task models이 발전하였고 Ree..
https://arxiv.org/pdf/2205.11487v1.pdf Abstract Imagen: a text to image diffusion 모델로 높은 수준의 language understanding과 photorealism을 가짐 large transformer language models를 통해 text를 이해하고 이를 기반으로 diffusion model이 고화질 이미지를 생성함 T5와 같은 generic pre-trained large language models로 text를 encoding 하는 것은 image synthesis에 효과적이라는 것을 이 논문에서 밝혀냄 -> LM의 크기를 늘리는 것이 Diffusion 모델의 크기를 늘리는 것보다 성능이 좋게 나옴 벤치마크(어떤 것의 성능을..
https://arxiv.org/abs/1611.07004 https://github.com/phillipi/pix2pix Abstract Computer vision분야에는 많은 task들이 존재하며 그로 인해 우리는 각 task의 Input image에 대한 Output image의 translating 방법을 찾아야 했다. Traditional methods는 각 task에 알맞은 application specific algorithms을 사용했지만 저자는 pixel을 사용하여 pixel을 예측하는 공통적 문제를 하나의 architecture로 해결하기를 원했고 Input image에 대한 Output image의 translate 과정을 image to image translation으로 정의하고..