반응형
250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- clip
- vlm
- 딥러닝 엔트로피
- clip adapter
- 1차 미분 마스크
- 에지 검출
- evaluating object hallucination in large vision-language models paper
- 이미지 필터링
- dinov2: learning robust visual features without supervision 논문
- 객체 검출
- mobilenetv1
- vlm hallucination paper
- evaluating object hallucination in large vision-language models 논문
- dinov2: learning robust visual features without supervision
- evaluating object hallucination in large vision-language models
- 원격 학습 안끊기게
- blip-2
- vlm 환각이란
- 딥러닝 목적함수
- 논문 리뷰
- 기계학습
- polling-based object probing evaluation
- 엔트로피란
- dinov2: learning robust visual features without supervision 논문 리뷰
- Object detection article
- object detection
- vlm 환각
- vlm hallucination
- dinov2 논문 리뷰
- 논문 요약
Archives
- Today
- Total
My Vision, Computer Vision
[논문 리뷰/요약]Tiny Object Detection in Aerial Images 본문
AI-TOD_ICPR_camera_ready.pdf
drive.google.com
- 본 논문의 main contribution
- 항공 이미지의 소형 객체 탐지를 위한 AI-TOD dataset을 소개한다.
- 소형 객체 탐지를 위한 네트워크 제안(M-CenterNet) → 이 내용은 본 글에 담지 않았음.
Abstract
AI-TOD dataset의 개요는 아래와 같다.
- Image : 28,036개
- Object : 700,621개
- Class : 8개
- 객체 평균 크기 : 12.8픽셀(제일 큰 객체 64픽셀)
Introduction
- Tiny object detecion(소형 객체 탐지)는 대규모 감시, 지능형 교통, 위치 기반 서비스 등에 이용된다.
- 기존 객체 검출 태스크에 비해 항공 이미지 내 객체가 미시적인 경우는 여전히 어려운 문제
- 기존 dataset은 객체의 크기가 크기 때문에 소형 객체 검출 모델 학습에 적합하지 않다.
- AI-TOD(보라색)은 8-16 픽셀의 객체가 다른 데이터셋이 비해 큰 비율을 차지한다.
Related Work
- 여러 가지 항공 이미지 데이터셋이 제안되었으나 소형 객체 탐지보다 다중 객체 탐지용으로 설계
- 기존 객체 검출 모델은 Anchor based 또는 One, Two stage에 따라 나뉜다.
- Anchor-based(Two stage) : Faster R-CNN, FPN, Cascade R-CNN, Trident-Net
- Anchor-based(One stage) : SSD, RetinaNet, YOLO
- Anchor-free : CornerNet, Grid R-CNN, CenterNet, RepPoints
- 소형 객체 탐지를 위한 접근
- SSD : 다양한 scale의 특징맵을 사용하여 입력 이미지의 해상도 증가
- FPN : 서로 다른 수준의 특징맵 융합
- PSPNet : 맥락 정보 활용
Dataset Details
- AI-TOD는 DOTA-v1.5, xView, VisDrone2018-Det, Airbus Ship, Dior 데이터셋(항공 이미지)을 기반으로 구축
- Image size : 800 * 800 패치로 나누어짐(200 pixel overlap)
- 비행기(AI), 다리(BR), 저장 탱크(ST), 배(SH), 수영장(SP), 차량(VE), 사람(PE), 풍력 발전기(VM)
- Image selection 기준 : bounding box의 크기
- 절대 크기(absolute size) $S_a(b_i) = \sqrt {w_i * h_i}$
- 상대 크기(relative size) $S_r(b_i) = \sqrt {\frac {w_i * h_i}{W * H}}$
- 이때, $b_i = (c_x, c_y, w, h)$
- 이미지 $I$ 의 바운딩 박스 크기 집합 $S_a(I) = {S_a(b_1), S_a(b_2), \dots , S_a(b_N)}$, N은 이미지 내 bounding box의 개수
- 소형 객체($N_t$)와 대형 객체($N_l$)는 다음과 같이 정의된다.
$$
N_t = \sum^N_{i=1} \mathbb {1}_A(S_a(b_i)), N_l = \sum^N_{i=1} \mathbb {1}_B(S_a(b_i)) \
$$
$$
\mathbb{1}_{A}(x)=\left\{\begin{array}{ll} 1 & \text { if } x \leq 16 \\ 0 & \text { otherwise } \end {array}\right. \\
$$
$$
\mathbb{1}_{B}(x)=\left\{\begin{array}{ll} 1 & \text { if } x \geq 64 \\ 0 & \text { otherwise } \end {array}\right.
$$ - 16픽셀 이하인 경우 소형 객체로 분류, 64픽셀 이상이면 대형 객체로 분류
- 소형 객체가 전체의 50% 이상, 큰 객체의 수가 0개인 이미지 선택
- Fig. 2. (a) : Class에 따른 Image 개수
- VE가 가장 많고 SP, WM이 제일 적음.
- Fig. 2. (b) : Instance 개수에 따른 Image 개수
- 이미지당 최대 2,667개의 객체가 있음.
- Fig. 2. (c) : 객체 크기에 따른 객체 개수
- 주로 12픽셀 주변에 있음.
- AI-TOD의 절대 크기의 평균과 표준 편차는 각각 12.8, 5.9 픽셀로 다른 데이터셋에 비해 훨씬 작다.
- Fig. 2. (d) : class별 크기 통계
728x90