가장 먼저 Object Detection을 위한 빠르고 정확한 알고리즘을 통해 컴퓨터의 활용 가능성에 대한 언급하고 있습니다.
R-CNN과 같은 최신 Object Detection 방식은 region proposal methods(영역 제안 방법)을 사용하여 이미지에서 potential bounding boxes를 생성 후 이 boxes에서 classifier를 실행하게 되는데, 개별 구성 요소들은 별도로 학습 해야하므로 이런 복잡한 파이프라인은 느리고 최적화가 어렵다는 단점이 있습니다.
이 논문의 저자들은 object detection을 이미지 픽셀에서 bounding box 좌표에서 class probabilities에 이르기까지 single regression problem으로 재구성하였습니다.
→ 이렇게 구성한 시스템을 사용할 때 어떤 물체가 있고, 어디에 있는지 예측하기 위해 이미지를 한 번만 보게 됩니다. (→ You Only Look Once, YOLO)
YOLO는 매우 빠르다.
→ 이는 real time 환경에서 25ms의 latency로 streaming video를 처리할 수 있음을 의미함.
→ 게다가, real time 시스템에서 다른 시스템의 평균 정확도보다 2배 이상의 높은 성능을 제공함.
YOLO는 예측할 때, 이미지에 대해 globally하게 추론함.
sliding window, region proposal-based techniques와 달리 YOLO는 학습 및 테스트 시간 동안 전체 이미지를 봄.
→ 클래스 및 클래스의 모양에 대한 context 정보를 암시적으로 인코딩함.
YOLO는 Fast R-CNN과 비교해서 절반보다 적은 수의 background errors를 만듦.
YOLO는 객체의 일반화가 가능한 표현들을 학습함.
YOLO는 매우 일반화가 가능함.
→ 새 도메인이나 예상치 못한 입력에 적용될 때 고장이 발생할 가능성이 적음.