PAPER REVIEW

[CV] DALL-E: Zero-Shot Text-to-Image Generation (추가)
https://arxiv.org/pdf/2102.12092v2.pdf ABSTRACT Text to image task는 fixed dataset에 대해 더 나은 modeling assumptions을 찾는데에 집중하였다 본 논문에서는 transformer를 활용하여 text, image tokens을 하나의 stream으로 변환하여 auto-regressive 하게 모델링하는 기법을 제안한다. 충분한 data와 scale을 기준으로 경쟁력 있는 Zero-shot 성능을 보인다. INTRODUCTION Background Draw generative model -> Conditoin on image captions -> GAN 위의 순서로 text to image task models이 발전하였고 Ree..

[논문리뷰] Imagen: Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding
https://arxiv.org/pdf/2205.11487v1.pdf Abstract Imagen: a text to image diffusion 모델로 높은 수준의 language understanding과 photorealism을 가짐 large transformer language models를 통해 text를 이해하고 이를 기반으로 diffusion model이 고화질 이미지를 생성함 T5와 같은 generic pre-trained large language models로 text를 encoding 하는 것은 image synthesis에 효과적이라는 것을 이 논문에서 밝혀냄 -> LM의 크기를 늘리는 것이 Diffusion 모델의 크기를 늘리는 것보다 성능이 좋게 나옴 벤치마크(어떤 것의 성능을..

[논문] pix2pix: Image-to-Image Translation with Conditional Adversarial Networks
https://arxiv.org/abs/1611.07004 https://github.com/phillipi/pix2pix Abstract Computer vision분야에는 많은 task들이 존재하며 그로 인해 우리는 각 task의 Input image에 대한 Output image의 translating 방법을 찾아야 했다. Traditional methods는 각 task에 알맞은 application specific algorithms을 사용했지만 저자는 pixel을 사용하여 pixel을 예측하는 공통적 문제를 하나의 architecture로 해결하기를 원했고 Input image에 대한 Output image의 translate 과정을 image to image translation으로 정의하고..

DeLiGAN: Generative Adversarial Network for Diverse and Limited Data 논문 리뷰
Abstract GAN은 다양한 이미지를 가지고 사실적인 이미지를 생성하는 데 사용된다. 그러나 일반적으로 GAN 기반 학습 방식은 주어진 데이터 이미지의 양식의 다양성을 학습하기 위해 많은 양의 데이터가 필요하다. 본 논문에서는 다양하고 제한된 데이터셋에서 학습이 잘되도록 하는 GAN-based 기반 architecture인 DELIGAN을 제안한다. DeLiGAN은 latent generative space를 mixture model의 parameter를 학습시켜 추출한다. 이를 통해 제한된 데이터로 다양한 이미지를 생성할 수 있으며 이는 IS를 통해 효과를 증명했다. 또한 평가 지표인 modified version of IS를 소개한다. Introduction 다양한 이미지 categories는 e..

Polynomial Theory of Complex Systems
PAPER EDITOR'S PREFACE this paper의 algorithm은 일반적으로 2차 다항식을 사용함 각 요소가 일반적으로 2개의 입력을 받아들임 y=A2(X)=a0+a1x1+a2x2+a3x21+a4x22+a5x1x2 A2(X) 는 input의 차수가 2라는 뜻 first threshold self-selection; second threshold self selection; selection from all solutions; threshold optimization. threshold를 사용하여 harmful한 요소를 버리는 방식을 택하여 xi 에 맞는 m..

Deep Polynomial Neural Networks
Deep Polynomial Neural Networks https://arxiv.org/pdf/2006.13026.pdf Abstract Deep Convolutional Neural Networks discriminative Learning, generative을 위해 쓰임 DCNN의 성공 요인은 구성 요소를 신중하게 선택한 것 proposs Π-Net 다항식 확장을 기반으로 하는 a new class of function approximators output은 input의 high-order polynomial(고차다항식)이다 high-order tensors (high-order polynomial)의 parameters는 factors sharing의 a collective ten..