선정 논문 : Deep Residual Learning for Image Recognition
❔해당 논문 선정 이유
지난주와 마찬가지로 Deep Learning Architecture의 기본이 되는 논문을 알아보고 싶었습니다.
지난 주에 정리한 논문보다 학습 속도와 성능이 개선된 모델을 알아보고 싶어 선정하게 되었습니다.
Abstract / Introduction
이 당시 연구에서 network의 depth는 매우 중요해졌고, 실제로 많은 모델들이 깊은 네트워크로 좋은 성능을 보였는데, 더 많은 layer들을 쌓는 것만큼 더 쉽게 네트워크를 학습시킬 수 있는지에 대한 의문을 제기합니다.
더 많은 layer를 쌓았음에도 불구하고 error가 더 높은 것을 확인할 수 있음.
특히 더 깊은 신경망이 수렴할 때, 성능 저하 문제가 발생하는데, 예상과는 다르게 성능 저하가 overfitting으로 인한 것이 아니며, 그저 더 많은 layer들을 추가되었기 때문인데, 이는 test error 뿐만 아니라, train error도 함께 높아졌기 때문이라고 합니다.
그러나 더 깊은 모델에서도 최적화할 수 있는 방법은 존재하며, 이전에 사용된 것보다 훨씬 더 깊은 네트워크의 훈련을 쉽게 하기위해 layer에서 학습하는 양을 줄여서 optimization 과정을 더 쉽게 만드는 개념인 Residual Learning 개념을 도입했습니다.
Deep Residual Learning
Residual Learning 블록 다이어그램
먼저 Residual Learning 이란, 이전 layer의 결과를 다시 이용하는 것을 말합니다.
→ 입력 layer를 다시 이용(참조)하여 레이어를 명시적으로 재구성합니다.
→ 이를 이용한 Residual network는 최적화하기 쉽고, 상당 증가된 depth에서도 정확도를 얻을 수 있게 해줍니다.
Identity Mapping by Shortcuts
여러개의 stacked layer 마다 residual learning을 적용합니다.
function $F(x, {W_i})$ 는 학습할 residual mapping을 나타내며, Shortcut connection은 파라미터나 연산 복잡성을 추가하지 않습니다.