HHYu_Week#5 | Notion

선정 논문 : You Only Look Once: Unified, Real-Time Object Detection

Object Detection에 대한 새로운 접근 방식인 YOLO
공간적으로 분리된 bounding boxes, 이와 관련된 class probabilities에 대한 regression 문제로 Object Detedction을 구성합니다.
Single Neural Network는 한 번의 평가로 전체 이미지에서 직접 bounding boxes와 class probabilities를 예측합니다.
이 당시 최신 Detection 시스템과 비교했을 때, YOLO는 더 많은 localization 오류가 나타났지만, background 에서 false positives를 예측할 가능성은 더 적었습니다.

가장 먼저 Object Detection을 위한 빠르고 정확한 알고리즘을 통해 컴퓨터의 활용 가능성에 대한 언급하고 있습니다.
R-CNN과 같은 최신 Object Detection 방식은 region proposal methods(영역 제안 방법)을 사용하여 이미지에서 potential bounding boxes를 생성 후 이 boxes에서 classifier를 실행하게 되는데, 개별 구성 요소들은 별도로 학습 해야하므로 이런 복잡한 파이프라인은 느리고 최적화가 어렵다는 단점이 있습니다.
이 논문의 저자들은 object detection을 이미지 픽셀에서 bounding box 좌표에서 class probabilities에 이르기까지 single regression problem으로 재구성하였습니다.

→ 이렇게 구성한 시스템을 사용할 때 어떤 물체가 있고, 어디에 있는지 예측하기 위해 이미지를 한 번만 보게 됩니다. (→ You Only Look Once, YOLO)

YOLO는 매우 빠르다.
- detection을 regression problem으로 frame화하기 때문에 복잡한 파이프라인이 필요없기 때문임.
- 기본 YOLO 모델은 Titan X GPU에서 batch processing 없이 초당 45 프레임을 처리할 수 있으며, 가장 빠른 처리 속도는 초당 150 프레임 이상이었음.
→ 이는 real time 환경에서 25ms의 latency로 streaming video를 처리할 수 있음을 의미함.

→ 게다가, real time 시스템에서 다른 시스템의 평균 정확도보다 2배 이상의 높은 성능을 제공함.
YOLO는 예측할 때, 이미지에 대해 globally하게 추론함.
- sliding window, region proposal-based techniques와 달리 YOLO는 학습 및 테스트 시간 동안 전체 이미지를 봄.
  
  → 클래스 및 클래스의 모양에 대한 context 정보를 암시적으로 인코딩함.
- YOLO는 Fast R-CNN과 비교해서 절반보다 적은 수의 background errors를 만듦.
YOLO는 객체의 일반화가 가능한 표현들을 학습함.
- YOLO는 매우 일반화가 가능함.
  
  → 새 도메인이나 예상치 못한 입력에 적용될 때 고장이 발생할 가능성이 적음.