Notice

Recent Posts

Tags more

Archives

관리 메뉴

My Vision, Computer Vision

[논문 리뷰/요약]Tiny Object Detection in Aerial Images 본문

Paper

gyuilLim 2024. 3. 25. 14:08

AI-TOD_ICPR_camera_ready.pdf

drive.google.com

본 논문의 main contribution
- 항공 이미지의 소형 객체 탐지를 위한 AI-TOD dataset을 소개한다.
- 소형 객체 탐지를 위한 네트워크 제안(M-CenterNet) → 이 내용은 본 글에 담지 않았음.

AI-TOD dataset의 개요는 아래와 같다.

여러 가지 항공 이미지 데이터셋이 제안되었으나 소형 객체 탐지보다 다중 객체 탐지용으로 설계
기존 객체 검출 모델은 Anchor based 또는 One, Two stage에 따라 나뉜다.
- Anchor-based(Two stage) : Faster R-CNN, FPN, Cascade R-CNN, Trident-Net
- Anchor-based(One stage) : SSD, RetinaNet, YOLO
- Anchor-free : CornerNet, Grid R-CNN, CenterNet, RepPoints
소형 객체 탐지를 위한 접근
- SSD : 다양한 scale의 특징맵을 사용하여 입력 이미지의 해상도 증가
- FPN : 서로 다른 수준의 특징맵 융합
- PSPNet : 맥락 정보 활용

AI-TOD는 DOTA-v1.5, xView, VisDrone2018-Det, Airbus Ship, Dior 데이터셋(항공 이미지)을 기반으로 구축
- Image size : 800 * 800 패치로 나누어짐(200 pixel overlap)
- 비행기(AI), 다리(BR), 저장 탱크(ST), 배(SH), 수영장(SP), 차량(VE), 사람(PE), 풍력 발전기(VM)
Image selection 기준 : bounding box의 크기
- 절대 크기(absolute size) $S_a(b_i) = \sqrt {w_i * h_i}$
- 상대 크기(relative size) $S_r(b_i) = \sqrt {\frac {w_i * h_i}{W * H}}$
- 이때, $b_i = (c_x, c_y, w, h)$
- 이미지 $I$ 의 바운딩 박스 크기 집합 $S_a(I) = {S_a(b_1), S_a(b_2), \dots , S_a(b_N)}$, N은 이미지 내 bounding box의 개수
- 소형 객체($N_t$)와 대형 객체($N_l$)는 다음과 같이 정의된다.
  $$
  N_t = \sum^N_{i=1} \mathbb {1}_A(S_a(b_i)), N_l = \sum^N_{i=1} \mathbb {1}_B(S_a(b_i)) \
  $$
  $$
  \mathbb{1}_{A}(x)=\left\{\begin{array}{ll} 1 & \text { if } x \leq 16 \\ 0 & \text { otherwise } \end {array}\right. \\
  $$
  $$
  \mathbb{1}_{B}(x)=\left\{\begin{array}{ll} 1 & \text { if } x \geq 64 \\ 0 & \text { otherwise } \end {array}\right.
  $$
- 16픽셀 이하인 경우 소형 객체로 분류, 64픽셀 이상이면 대형 객체로 분류
- 소형 객체가 전체의 50% 이상, 큰 객체의 수가 0개인 이미지 선택

Fig. 2. (a) : Class에 따른 Image 개수
- VE가 가장 많고 SP, WM이 제일 적음.
Fig. 2. (b) : Instance 개수에 따른 Image 개수
- 이미지당 최대 2,667개의 객체가 있음.
Fig. 2. (c) : 객체 크기에 따른 객체 개수
- 주로 12픽셀 주변에 있음.
- AI-TOD의 절대 크기의 평균과 표준 편차는 각각 12.8, 5.9 픽셀로 다른 데이터셋에 비해 훨씬 작다.
Fig. 2. (d) : class별 크기 통계

[논문 리뷰/요약]MobileNetv1, MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications (0)	2024.03.29
[논문 리뷰/요약]ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness (2)	2024.03.25
[논문 리뷰/요약]SSD: Single Shot MultiBox Detector (0)	2024.02.22
[논문 리뷰/요약]How to Read a Paper (0)	2024.02.21
[논문 리뷰/요약]A Survey of Modern Deep Learning based Object Detection Models(2) (0)	2024.02.15

'Paper' Related Articles