PAPER REVIEW
CLIPDraw: Exploring Text-to-Drawing Synthesis through Language-Image Encoders
https://proceedings.neurips.cc/paper_files/paper/2022/hash/21f76686538a5f06dc431efea5f475f5-Abstract-Conference.html Abstract CLIPDraw는 natural language를 통해 이미지를 합성하는 모델이다. 추가 학습이 필요하지 않으며 pre-trained CLIP languate-image encoder는 주어진 묘사와 생성된 이미지의 유사성을 극대화하기 위한 metric으로 사용된다. pixel image가 아닌 vector strokes에서 작동하기 때문에 사람이 인식할 수 있는 단순한 모양으로 도면이 편향된다. 본 논문에서 하고자 하는 것 CLIPDraw와 다른 최적화 합성 방법을 비교함 CLIP..
Stable Diffusion: High-Resolution Image Synthesis with Latent Diffusion Models
https://arxiv.org/abs/2112.10752 Abstract Diffusion Models(DMs) Image Formation을 denoising autoencoders로 분해하여 이미지를 합성하는 Diffusion models(DMs)은 synthesis results에서 SOTA를 달성하였다. 추가적으로 retraining 없이 image generation process를 their formulation으로 제어가 가능하다. DMs 단점 일반적으로 Pixel space를 직접적으로 denoising하여 최적화하는데 수백 개의 GPU가 소모되며 Inference에 많은 비용이 든다. quality와 flexibility는 유지하면서 limited computational resourc..