일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- vlm
- 1차 미분 마스크
- 2호선 따라걷기
- referring expression segmentation
- gsoc midterm evaluations
- blip-2
- res paper
- 논문 리뷰
- mobilenetv1
- 논문 요약
- 대학원 일상
- grefcoco
- gsoc 2025
- res
- clip adapter
- 기계학습
- object detection
- clip
- 딥러닝 목적함수
- 객체 검출
- 원격 학습 안끊기게
- 딥러닝 엔트로피
- 이미지 필터링
- gsoc 후기
- gres
- 엔트로피란
- 2호선 완주
- Object detection article
- 에지 검출
- grefcoco dataset
- Today
- Total
목록Paper (50)
My Vision, Computer Vision

[논문 링크 : https://aclanthology.org/P18-1238.pdf]Abstract본 논문은 Conceptual Captions라는, 이미지 캡션으로 어노테이션된 데이터셋을 제시한다.이 데이터셋은 이미지 캡션에서 주로 사용되는 데이터셋인 MS-COCO보다 약 20배 많은 330만개이다.약 10억개의 웹페이지로부터 이미지, 텍스트를 추출하고 필터링하여 데이터셋을 구축한다.1. Introduction딥러닝 모델의 발전으로 Automatic image description Task도 발전하고있다.이 분야에서는, Computer vision과 Natural Language Processing의 교집합을 어떻게 다루는지가 중요하다.본 논문에서는 두 가지 Contribution을 제시한다.첫번째는 ..

Scaling Up Visual and Vision-Language Representation Learning With Noisy Text SupervisionPre-trained representations are becoming crucial for many NLP and perception tasks. While representation learning in NLP has transitioned to training on raw text without human annotations, visual and vision-language representations still rely heavily on cuarxiv.org AbstractNLP에서 Representation Learning은, 사람의..

Learning Transferable Visual Models From Natural Language SupervisionState-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual coarxiv.orgAbstract기존 State-of-the-art 컴퓨터 비전 모델은 사전에 정의된, 고정된 객체 범주, Train..

Noise-contrastive estimation: A new estimation principle for unnormalized statistical modelsWe present a new estimation principle for parameterized statistical models. The idea is to perform nonlinear logistic regression to discriminate between the observed data and some artificially gene...proceedings.mlr.press이 논문은 대조 학습(Contrastive learning)의 개념을 수학적으로 설명한 논문이다.또한 Vision Langauge Model에서 주로 사..

VGA: Vision GUI Assistant -- Minimizing Hallucinations through Image-Centric Fine-TuningRecent advances in Large Vision-Language Models (LVLMs) have significantly improve performance in image comprehension tasks, such as formatted charts and rich-content images. Yet, Graphical User Interface (GUI) pose a greater challenge due to their structuarxiv.orgAbstract기존 VLM은 시각적 입력을 무시하고 텍스트에 과도하게 의존하는 경..

REDQT: a method for automated mobile application GUI testing based on deep reinforcement learning algorithmsAs mobile applications become increasingly prevalent in daily life, the demand for their functionality and reliability continues to grow. Traditional mobile application testing methods, particularly graphical user interface (GUI) testing, face …www.springerprofessional.deAbstract이 논문은 심층 강..