지난 주와 마찬가지로 논문을 찾아보던 중 이 논문도 흥미로워서 읽어보게 되었다.

먼저 논문의 저자들은 더 깊은 신경망일수록 훈련이 어려운 점을 해결하고자 했다. 그래서 이들은 이전에 사용된 것보다 훨씬 더 깊은 네트워크의 훈련을 쉽게 하기 위해 이전 layer의 결과를 다시 이용하는 Residual Learning 개념을 도입하였다. 이 당시 연구들에선 network의 depth는 매우 중요해졌고, 실제로 많은 모델들이 깊은 네트워크로 좋은 성능을 보였다고 하지만 gradient vanishing, exploding 문제가 발생하는 문제가 존재했다. 이 원인으로 깊은 신경망으로 overfitting이 주된 원인일거라 생각했지만 그저 더 많은 layer들의 추가로 인한 성능 저하라고 판단했다. 이를 해결하기 위해 Residual Learning 개념을 도입했다. 이를 이용한 network 를 구현한 ResNet과 Plain net을 비교하였을 때 degradation 문제를 잘 해결한 점과 depth가 증가하더라도 높은 정확도를 얻을 수 있음을 확인할 수 있었다.

나는 처음 보는 단어인 residual 라는 단어에 집중했고, 이 개념이 적용된 network가 기존과 다르게 성능 향상이 된 부분이 신기했다. 특히 적은 필터와 복잡성으로 더 나은 성능을 내는 부분이 인상깊었고, 딥러닝 분야에 흥미가 더 생기게 되었다.