일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 딥러닝 목적함수
- google summer of code
- blip-2
- 객체 검출
- vlm
- res
- gsoc
- referring expression segmentation
- Object detection article
- 기계학습
- gsoc가 뭔가요
- clip
- gres
- gsoc 2025
- 이미지 필터링
- 1차 미분 마스크
- 딥러닝 엔트로피
- 논문 리뷰
- grefcoco
- object detection
- 논문 요약
- clip adapter
- 원격 학습 안끊기게
- gsoc 지원
- res paper
- mobilenetv1
- gsoc 후기
- 엔트로피란
- grefcoco dataset
- 에지 검출
- Today
- Total
목록전체 글 (85)
My Vision, Computer Vision
GSoC는 준비기간 1달을 포함하여 5월부터 8월까지 총 4개월 동안 진행된다.7월 초쯤 중간 평가, 8월 말에 최종 평가가 있는데 시험을 본다거나 발표를 하는건 아니고 설문조사 같은 걸 간단하게 한다. 내가 지원한 기업에서는 평가 기간에 맞춰 멘토, 멘티끼리 모여 데모 미팅을 하기도 했다.이 글에서는 프로젝트를 마무리하면서 정리한 것들에 대해 기록한다.Medium Blog Postinghttps://medium.com/openvino-toolkit/google-summer-of-code-2025-improve-otx-classification-via-peft-and-transformer-backbone-7736cbdaaf81 Google Summer of Code 2025: Improve OTX Cla..

연구실에 앉아만 있어 세상물정 아무것도 모르는 두 대학원생은공부에 집중이 되지 않자 2호선 따라걷기를 계획해봅니다... 출발 몇시간 전 유튜브 몇 개, 블로그 몇 개 뒤적여보고그냥 산책이네? 싶었습니다. 다들 안 힘들어 보였어요. 정말로 그럼에도 우리가 가장 간과했던 것은 2호선의 외선, 내선 역 수(43개) 총 거리(56KM) 날씨 몸 상태 입니다. 모든 것을 간과했죠.심지어 일행은 무슨 단화같은걸 신고왔습니다. 일단 운동화는 신으셔야 합니다. .. 아무튼 하루 12시간 앉아만 있는 우리가 무턱대고 할만한 볼륨은 아니었습니다. 만약 당신이 지하철을 따라 걷고싶은 기분이라면..6호선으로 향하십쇼. 우리의 스타팅 포인트는 서울대입구였습니다.그냥 집에서 제일 가까운 곳으로 버스타고 왔습니다. 토요..

지쏙(GSoC) 프로젝트가 시작한지 아직도 한 달 반이다..영어가 잘 안되는 걸 알면서 맨 땅에 해딩을 해보았지만 생각보다 빡세다.역시 제일 필요하고 제일 중요하고 제일 급한 건 언어 공부인가보다. 나는 독일 인텔에 계신 멘토 두 분과 함께하고 있는데 이 분들은 영어가 유창하다.미팅할 때 가끔 하나씩 물어보시는데 "Okay"라고만 대답한 적이 두어 번있다. 어찌됐든 이제 한 달 반이 지나서 이번주에 중간 평가가 끝이 났고 이제 후반이다.Midterm Evaluations지쏙(GSoC)은 6월부터 9월까지 3개월동안 진행되는데, 중간에 Midterm Evaluations가 한 번 있고 마지막에 Final Evaluations가 있다. 중간 평가가 무슨 시험이나 발표같은 건 줄 알았는데 그냥 설문조사였다.작..

Overview본 논문에서는 CLIP 모델을 REF(Referring Expression Segmentation) Task에 사용한다.동시에 Vision-Language Decoder 및 Text-to-pixel 대조 학습을 제안한다.Problem Statement(당시) Multi-modal 분야에서 CLIP 모델이 성공적인 결과를 보여준 바 있다. 따라서 본 논문에서는 CLIP을 RES에 도입한다.하지만 위 사진에서처럼, CLIP을 Naive하게 사용하는 방법으로는 최적의 성능을 내지 못하는데, 이유는 Pixel-level 예측 태스크인 RES와 다르게, CLIP은 Image-level(Contrastive)로 훈련되었기 때문이다.따라서 시각적 특징을 세부적으로 학습해야하는 목표와 맞지 않게, CLI..

GSVA: Generalized Segmentation via Multimodal Large Language ModelsGeneralized Referring Expression Segmentation (GRES) extends the scope of classic RES to refer to multiple objects in one expression or identify the empty targets absent in the image. GRES poses challenges in modeling the complex spatial relationships of tarxiv.orgAuthor: Xia, Zhuofan, et al.Journal: CVPR 20204Published Date: 202..

Bring Adaptive Binding Prototypes to Generalized Referring Expression SegmentationReferring Expression Segmentation (RES) has attracted rising attention, aiming to identify and segment objects based on natural language expressions. While substantial progress has been made in RES, the emergence of Generalized Referring Expression Segmentarxiv.orgAuthor : Li, Weize, et al.Journal : IEEE Transactio..