Paper

Network In Network (NIN)

mingyung 2024. 8. 2. 22:08

CNN

CNN은 conv layer와 pooling layer를 번갈아 배치하는 구조로 형성되어있다. 이를 통해서 입력되는 이미지의 특징을 추출하고 , 이후에 FC layer를 통해서 분류작업을 수행한다.

하지만 이런 CNN 에는 몇가지 한계가 있다.

비선형성의 제한

  • Convolution filter를 사용하므로 입력 데이터에 대해서 로컬한 선형 연산을 수행하게 된다. 따라서 이 부분에서는 비선형성이 떨어진다는 문제가 있다. 즉, 이로 인해서 복자한 데이터에 대한 패턴을 캡쳐하는것에 한계가 있다.

완전 연결 레이어 오버피팅

  • FC layer는 많은 파라미터가 필요한 layer이다. 따라서 이를 통해서 오버피팅이 발생하게 된다는 한계가 있다.

공간적 정보의 손실

  • 또한 FC layer에서 vector형태는 이미지의 공간적인 정보를 무시하게 된다는 한계가 있다.

Idea

Network in Netwok 논문은 2가지의 주요 아이디어를 통해 새로운 구조의 네트워크를 소개한다.

논문에서 말하는 주요 아이디어는 다음과 같다.

MLPConv layer

Universal Function Approximators

  • 좀 더 general 한 문제를 적용할 수 있게 하기 위해서 feature의 distribution과 관계없이 feature extraction할 수 있는Universal Function Approximators을 사용해야 한다.
  • 2가지의 잘 알려진 universal function approximatior는 Radial Basis Function Network(RBFN)와 Multilayer Perceptron(MLP)가 있다.
  • NIN에서는 두 approximator 중에서 MLP를 선택했다. 선택의 이유는 MLP가 CNN구조와 호환이 된다는 장점이 있고(back propagation), MLP로 deep model을 만들 수 있기 때문이다.

MLPConv Layer

  • mlpconv layer는 기존의 GLM(conv의 filter를 말함)을 대체하여 사용한다.
  • 기존의 GLM의 경우 선형 필터+비선형의 활성화 함수, mlpconv층의 경우 mlp로 인해 더 복잡한 특징 추출 가능

Mathmatical Representation

  • feature map/chnnel 간의 풀링에서 위의 방정식은 Cascaded Cross Channel Parametric Pooling을 하는것과 같다.(즉, 1x1 conv filter과 같은 원리로 동작한다.)

Global Average Pooliong

일반적으로 conv layer를 통해 feature map을 얻고, 불류를 위해서 Full Connected layer와 softmax layer를 사용하게 된다.

그런데, FC Layer의 경우 파라미터의 수가 많기 때문에 오버피팅을 유발하여 generalization을 방해한다.

이를 막기 위해서 이전에 Dropout 정규화 기법이 고안되었다.(dropout : activation을 dropoutrate만큼 무작위로 0으로 설정)

NIN에서는 feature extractor로 사용되는 FC layer를 추가하지 않고, Global Average Pooling을 사용한다.마지막 mlpconv층에서 각 label마다 한개의 feature map을 만들도록 하고, 각 feature map의 avg값을 계산하여 벡터를 얻는다.

Global avg pooling의 장점

  • conv structure에 적합함.
  • parameter가 필요없음!
  • spatial information에 robust함

NIN의 구조

3개의 mlp conv layers와 말단에 한개의 global avg pooling layer로 구성된다.