일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 구글 서머 오브 코드 합격 후기
- blip-2
- gsoc 2025
- mobilenetv1
- open vocabulary
- open vocabulary segmentation
- 이미지 필터링
- taling2dino 논문 리뷰
- object detection
- 딥러닝 엔트로피
- 딥러닝 목적함수
- 객체 검출
- 기계학습
- talking2dino 논문
- 구글 서머 오브 코드 후기
- 구글 서머 오브 코드
- gsoc 후기
- vlm
- clip adapter
- gsoc 2025 후기
- 논문 요약
- 1차 미분 마스크
- gsoc 합격 후기
- 논문 리뷰
- 원격 학습 안끊기게
- 엔트로피란
- Object detection article
- clip
- talking2dino paper
- 에지 검출
- Today
- Total
목록전체 글 (77)
My Vision, Computer Vision

An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleWhile the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to reparxiv.orgAbstractTransformer가 사실상 NLP 분야의 표준이 되었지만 Computer vision에 ..

퓨리에 변환파형은 일정한 주기를 가지고 있다.파형의 성질을 적절히 수량화하면 분류기가 두 신호를 분류하는데 쓸모 있는 특징이 될 수 있다. 파형의 선형 결합위 두 개의 그래프는 아래 두 개의 그래프(기저 함수)의 선형 결합으로 나타낸 것이다.$s_1(x) = 0.5g_1(x) + 1.5g_2(x)$$s_2(x) = 1.5g_1(x) + 0.5g_2(x)$이 계수들을 특징으로 삼을 수 있다.실제 상황에서는 계수를 미리 알 수 없다. 따라서 퓨리에 변환을 통해 기저 함수의 계수를 구한다.입력 신호 : $\mathbf s = (s(0), s(1), \cdots, s(n-1))^T$입력 신호 $\mathbf s$는 $n$개의 값으로 구성된다.$s(i)$에서 $i$는 경우에 따라 시간 또는 위치를 나타내는 매개 ..
컴퓨터에 원격으로 접속해서 학습을 하다보면 세션이 다운되어 학습이 끊겨버리는 일이 많이 발생합니다. 이번 글에서는 학습이 안끊기게 설정하는 방법을 알아보겠습니다. 1. sshd_config 파일 열기$ sudo vim /etc/ssh/sshd_config 2. sshd_config 파일을 열고 "/client"로 검색하면 #ClientAliveInterval 0#ClientAliveCountMax 3 위처럼 설정되어있을 텐데, #ClientAliveInterval 180#ClientAliveCountMax 5 로 바꾸어줍니다. ClientAliveInterval은 클라이언트가 서버로 보내는 신호의 간격(초)를 의미하는데, 0은 보내지 않는다는 것을 의미합니다.ClientAliveCountMax는 클라이..

Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNsWe revisit large kernel design in modern convolutional neural networks (CNNs). Inspired by recent advances in vision transformers (ViTs), in this paper, we demonstrate that using a few large convolutional kernels instead of a stack of small kernels could barxiv.org이 논문은 2022년 3월 CVPR에서 발표되었다.Abstract이 논문은 ViT(Vision Transfor..

MobileNetV2: Inverted Residuals and Linear BottlenecksIn this paper we describe a new mobile architecture, MobileNetV2, that improves the state of the art performance of mobile models on multiple tasks and benchmarks as well as across a spectrum of different model sizes. We also describe efficient ways of apparxiv.orgAbstractMobileNet V1의 성능을 개선Object detection에 효율적인 적용 방법 SSDLite 소개Semantic seg..

MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications We present a class of efficient models called MobileNets for mobile and embedded vision applications. MobileNets are based on a streamlined architecture that uses depth-wise separable convolutions to build light weight deep neural networks. We introduce tw arxiv.org Abstract MobileNet 탄생 배경 : 모바일 및 임베디드 비전 응용 프로그램..