My Vision, Computer Vision

[논문 리뷰/요약]Tiny Object Detection in Aerial Images 본문

Paper

[논문 리뷰/요약]Tiny Object Detection in Aerial Images

gyuilLim 2024. 3. 25. 14:08

 

 

AI-TOD_ICPR_camera_ready.pdf

 

drive.google.com


  • 본 논문의 main contribution
    • 항공 이미지의 소형 객체 탐지를 위한 AI-TOD dataset을 소개한다.
    • 소형 객체 탐지를 위한 네트워크 제안(M-CenterNet) → 이 내용은 본 글에 담지 않았음.

Abstract

AI-TOD dataset의 개요는 아래와 같다.

  • Image : 28,036개
  • Object : 700,621개
  • Class : 8개
  • 객체 평균 크기 : 12.8픽셀(제일 큰 객체 64픽셀)

Introduction

  • Tiny object detecion(소형 객체 탐지)는 대규모 감시, 지능형 교통, 위치 기반 서비스 등에 이용된다.
  • 기존 객체 검출 태스크에 비해 항공 이미지 내 객체가 미시적인 경우는 여전히 어려운 문제

  • 기존 dataset은 객체의 크기가 크기 때문에 소형 객체 검출 모델 학습에 적합하지 않다.
  • AI-TOD(보라색)은 8-16 픽셀의 객체가 다른 데이터셋이 비해 큰 비율을 차지한다.

Related Work

  • 여러 가지 항공 이미지 데이터셋이 제안되었으나 소형 객체 탐지보다 다중 객체 탐지용으로 설계
  • 기존 객체 검출 모델은 Anchor based 또는 One, Two stage에 따라 나뉜다.
    • Anchor-based(Two stage) : Faster R-CNN, FPN, Cascade R-CNN, Trident-Net
    • Anchor-based(One stage) : SSD, RetinaNet, YOLO
    • Anchor-free : CornerNet, Grid R-CNN, CenterNet, RepPoints
  • 소형 객체 탐지를 위한 접근
    • SSD : 다양한 scale의 특징맵을 사용하여 입력 이미지의 해상도 증가
    • FPN : 서로 다른 수준의 특징맵 융합
    • PSPNet : 맥락 정보 활용

Dataset Details

  • AI-TOD는 DOTA-v1.5, xView, VisDrone2018-Det, Airbus Ship, Dior 데이터셋(항공 이미지)을 기반으로 구축
    • Image size : 800 * 800 패치로 나누어짐(200 pixel overlap)
    • 비행기(AI), 다리(BR), 저장 탱크(ST), 배(SH), 수영장(SP), 차량(VE), 사람(PE), 풍력 발전기(VM)
  • Image selection 기준 : bounding box의 크기
    • 절대 크기(absolute size) $S_a(b_i) = \sqrt {w_i * h_i}$
    • 상대 크기(relative size) $S_r(b_i) = \sqrt {\frac {w_i * h_i}{W * H}}$
    • 이때, $b_i = (c_x, c_y, w, h)$
    • 이미지 $I$ 의 바운딩 박스 크기 집합 $S_a(I) = {S_a(b_1), S_a(b_2), \dots , S_a(b_N)}$, N은 이미지 내 bounding box의 개수
    • 소형 객체($N_t$)와 대형 객체($N_l$)는 다음과 같이 정의된다.
      $$
      N_t = \sum^N_{i=1} \mathbb {1}_A(S_a(b_i)), N_l = \sum^N_{i=1} \mathbb {1}_B(S_a(b_i)) \
      $$
      $$
      \mathbb{1}_{A}(x)=\left\{\begin{array}{ll} 1 & \text { if } x \leq 16 \\ 0 & \text { otherwise } \end {array}\right. \\
      $$
      $$
      \mathbb{1}_{B}(x)=\left\{\begin{array}{ll} 1 & \text { if } x \geq 64 \\ 0 & \text { otherwise } \end {array}\right.
      $$

    • 16픽셀 이하인 경우 소형 객체로 분류, 64픽셀 이상이면 대형 객체로 분류
    • 소형 객체가 전체의 50% 이상, 큰 객체의 수가 0개인 이미지 선택


  • Fig. 2. (a) : Class에 따른 Image 개수
    • VE가 가장 많고 SP, WM이 제일 적음.
  • Fig. 2. (b) : Instance 개수에 따른 Image 개수
    • 이미지당 최대 2,667개의 객체가 있음.
  • Fig. 2. (c) : 객체 크기에 따른 객체 개수
    • 주로 12픽셀 주변에 있음.
    • AI-TOD의 절대 크기의 평균과 표준 편차는 각각 12.8, 5.9 픽셀로 다른 데이터셋에 비해 훨씬 작다.
  • Fig. 2. (d) : class별 크기 통계
728x90