Batch Normalization: Accelerating Network Training by Reducing Internal Covariate Shift

Abstract

학습 도중 신경망 파라미터 변화에 의해서 발생하는 신경망의 activation 분포의 변화를 말함.
ReLU 함수를 이용하거나 적은 학습률을 적용하는 것과 같은 방식으로 이 문제를 해결할 수 있지만, ReLU 함수를 적용한다면 훈련 초기엔 괜찮을 수 있으나, 후반부로 갈수록 같은 문제가 발생할 수 있으며, 적은 학습률을 적용시 학습속도가 느려질 수 있는 문제점이 존재함.

Untitled

Batch Normalization 방법은 초기 입력 레이어만 정규화했던 과거의 방식을 확장시켜서 모든 각각의 Hidden Layers에 data가 input을 하기 전 정규화를 적용하는 방법이다.
Input : 사이즈가 m인 mini-batch
학습되는 파라미터 : m 차원의 γ, β
위의 알고리즘에서는 mini-batch(입력 데이터)의 평균과 분산을 구한 후, 이를 정규화 시킨 값에 scale과 shift 연산을 수행해 선형 변환된 값인 Batch Normalizing Transform 값($y_i$)을 구하게 된다.
Batch Normalization에 scale 과 shift 연산이 필요한 이유
- γ가 scale 연산을, β가 shift 연산을 수행
- 각 layer를 단순히 N(0,1)로 정규화할 때 대부분의 입력에 대해 선형적으로 동작하므로 기존 비선형 함수의 영향력이 사라지기 때문에 다음 연산이 필요하게 된다.
Sigmoid 함수의 [-1,1] 구간을 보면 거의 선형적이므로 활성 함수의 특징인 비선형성을 가질 수 없게 됨.