728x90
Deep Polynomial Neural Networks
https://arxiv.org/pdf/2006.13026.pdf
Abstract
- Deep Convolutional Neural Networks
- discriminative Learning, generative을 위해 쓰임
- DCNN의 성공 요인은 구성 요소를 신중하게 선택한 것
- proposs \( \Pi \)-Net
- 다항식 확장을 기반으로 하는 a new class of function approximators
- output은 input의 high-order polynomial(고차다항식)이다
- high-order tensors (high-order polynomial)의 parameters는 factors sharing의 a collective tensor factorization(텐서 인수분해) 로 구해짐
- \( \Pi \)-Net use 3개의 tensor decompositions(텐서 분해) -> tensor factorization
- tensor decomposition의 advantage
- parameters 수를 줄임
- hierarchical neurak networks를 효율적으로 구현함
- \( \Pi \)-Net 은 non-linear activation functions을 사용하지 않고도 good results를 냄, activation function 사용시 image generation, face verification, 3D mesh representation 등에서 SOTA를 달성함
1. Introduction
- DCNN
- architectural pipelines 선택도 중요하지만 core structure는 operators의 구성 기능에 에 의존함
- theoretical studies(이론적 연구), empirical studies(경험적 연구) 모두 구조적 한계가 있음
- theoretical and empirical results는 multiplicative interactions이 approximated(근사한) the class of functions를 확장함
- 이를 motivation으로 \( \Pi \)-Net을 연구함
- \( \Pi \)-Net
- \( G(z) : \mathbb{R} ^{d} \longrightarrow \mathbb{R} ^{o} \)
- \( G(x) \) : high-order multivariate polymial function
- \( z \) : high-order tensors input
- \( \mathbb{R} ^{o} \) : high-order tensors parameter -> 잘 모르겠음
- 원래라면 parameter의 수(input의 high-order correlations를 수용해야하는 수)는 multivaruate polynomial의 차수에 따라 explode 함
- 이를 해결하기 위해 polynomial parameter tensor를 tensor factorization(텐서 인수분해) 함
- introduce concept
- higher-order expansions for both generative and discriminative networks
- DCNN의 generative and discriminative networks에서 higher-order expansions를 추가한 것
- improvements 3가지
- 우리의 concept의 new intuitions는 새로운 모델 고안을 도움
- challenging task을 할 수 있게 experimental results를 extend한다
- \( \Pi \)-Net의 challenging task에 쓰이는 것에 대해 토론 할 것임
- The paper contributions
- output이 input의 high-order polynomial이라는 이론 도입
- explode를 해결하기 위해 tensor factorization with shared factors 도입
- the proposed architectures는 generarive models(GAN 등), discriminative networks에 적용됨
- non-linear activation function기능이 없는 high-dimensional distributions를 학습시키는데 사용됨
- \( \Pi \)-Net 를 사용하여 다양한 task에서 SOTA를 이뤘음
2. Related work and notation
- Deep neural networks는 impressive results를 가지고 광범위하게 적용됨
- hardware, ML libraries, optimizer, regularization 등은 지속적으로 발전했으나 각 layer에 대한 paradigm은 변하지 않았음
- 기존의 paradigm of layer
- each layer는 linear transformarion과 요소 별로 activation function이 있음
- hierarchical models은 generative models에서 stellar performance를 보여줌
Polynomial networks
- polynomial relationships는 2가지 network에서 연구됨
- hard-coded을 통한 self organizing networks
- pi-sigma networks
- learnable polynomial features의 아이디어는 GMDH (Group Method of Data Handling)에서 나옴
- GMDH :두개의 predefined input elements 사이의 quadratic correlations를 포착하는 partial descriptors(부분 설명자)를 학습함
- 이전의 higher-order polynomials는 더 많은 input elements가 필요함, partial descriptor는 미리 정의가 되어있기 때문에 기존의 방법으로는 high dimensional data로 확장이 불가능했음
- pi-sigma network, a single hidden layer
- Multiple affine transformations of the data를 학습함
- 모든 features를 곱해서 output을 얻음
- SPSNN (sigma-pi sigma neural network) : pi-sigma networks is extended
- output을 얻기 위해 each pi-sigma network를 더함
- high-dimensional signals에서는 성능이 좋지는 못함
- 3개의 입출력이 있는 signals에서만 사용 가능함
- ConvACs (Convolutional arithmetic circuits)
- arithmetic circuits(산술 회로)는 2가지 nodes를 가짐
- sum nodes (weighted sum of their inputs)
- product nodes (computing the product of their inputs)
- 이 2개의 nodes는 polynomial expansion하기 충분함
- arithmetic circuits(산술 회로)는 2가지 nodes를 가짐
- 참고 논문에서는 DCNN의 depth efficiency의 특성에 focus on 하기 위해 polynomial expansion을 사용함
- CP decomposition : shallow convolutional network에서 weights를 factorize하는데 사용
- hierarchical Tucker decomposition : deep network에서 weights를 factorize하는데 사용
- This paper에서는 target function을 approximate 하기 위해 polynomial을 expansion함
- Recently multiplicative interactions를 통해 우수한 성능을 내는 연구가 급증하고 있음
2.1 Notation
3. Method
3.1 Single polynomial
- parameter의 tensor decomposition은 매개변수를 줄이고 신경망을 구현하기에 자연스러움
728x90
'PAPER REVIEW' 카테고리의 다른 글
[Recommendation] CAPER: Context-Aware PersonalizedEmoji Recommendation (0) | 2023.08.16 |
---|---|
EMOTION CLASSIFICTION AND INTENSITY PREDICTION ON TWEETS (0) | 2023.08.16 |
[NER] Information Processing and Management (0) | 2023.08.14 |
DeLiGAN: Generative Adversarial Network for Diverse and Limited Data 논문 리뷰 (0) | 2023.03.06 |
Polynomial Theory of Complex Systems (0) | 2022.09.14 |