일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- gsoc 지원
- 객체 검출
- 이미지 필터링
- Object detection article
- res paper
- google summer of code
- gsoc
- gsoc 후기
- 에지 검출
- 1차 미분 마스크
- clip adapter
- 엔트로피란
- gsoc 2025
- 논문 리뷰
- referring expression segmentation
- 딥러닝 목적함수
- blip-2
- vlm
- grefcoco dataset
- gres
- 기계학습
- clip
- grefcoco
- object detection
- 딥러닝 엔트로피
- mobilenetv1
- gsoc가 뭔가요
- 원격 학습 안끊기게
- 논문 요약
- res
- Today
- Total
목록전체 글 (85)
My Vision, Computer Vision

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate ShiftTraining Deep Neural Networks is complicated by the fact that the distribution of each layer's inputs changes during training, as the parameters of the previous layers change. This slows down the training by requiring lower learning rates and careful paramarxiv.org Author : Ioffe, Sergey, and Christian Sz..

LoRA: Low-Rank Adaptation of Large Language ModelsAn important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks or domains. As we pre-train larger models, full fine-tuning, which retrains all model parameters, becomes learxiv.orgJournal : ICLR 2022Published Date : 2021년 6월 17일Keyword : LLM, RANK Abstract모델의 크기가..

Data-Efficient Multimodal Fusion on a Single GPUThe goal of multimodal alignment is to learn a single latent space that is shared between multimodal inputs. The most powerful models in this space have been trained using massive datasets of paired inputs and large-scale computational resources, making tharxiv.orgJournal: CVPR 20204Published Date: 2023년 12월 15일Keyword: Single GPU, Vision Language ..
1. 전체 디스크 사용량 및 마운트된 디스크별 사용량 확인# 시스템 전체 디스크 용량, 사용량 및 사용 가능한 공간 확인df -h2. 현재 디렉터리 내 폴더/파일 용량 확인 (기본적인 확인)du -hs * 3. 현재 디렉터리 내 폴더별 용량 정렬# 현재 디렉터리에 있는 모든 폴더를 크기 순으로 출력du -h --max-depth=1 . | sort -hrdu -h: 사람이 읽기 쉬운(human-readable) 단위(K, M, G)로 표시--max-depth=1: 현재 디렉터리의 1단계 하위 폴더까지만 출력sort -hr: 용량 기준으로 내림차순 정렬 4. 특정 폴더 내에서 가장 큰 10개 폴더 찾기# 홈 디렉터리(~/) 내에서 용량이 가장 큰 10개 폴더 출력du -h ~/ | sort -hr | he..

TinyLLaVA: A Framework of Small-scale Large Multimodal ModelsWe present the TinyLLaVA framework that provides a unified perspective in designing and analyzing the small-scale Large Multimodal Models (LMMs). We empirically study the effects of different vision encoders, connection modules, language models, training darxiv.orgJournal: ArxivPublished Date: 2024년 2월 22일본 논문은 TinyLLaVA 프레임워크를 소개한다.또한..

Evaluation Metrics for VLM BenchmarkVLM 벤치마크에서 자주 사용되는 평가 지표 5가지에 대해 알아보자.BLEU, METEOR, ROUGE, CIDEr, SPICE먼저 BLEU와 METEOR는 기계 번역(Machine Translation, MT)의 성능을 측정하기 위해 고안된 지표이다.ROUGE는 4가지 버전이 있고, 요약(Summary) 성능을 측정하기 위해 고안된 지표이다.CIDEr, SPICE는 이미지 캡셔닝 모델의 평가 지표로, 직접적으로 Vision-Langauge를 타겟팅한 메트릭이다.Candidation, Reference란?위 평가 지표들은 모두 모델의 성능을 측정하기 위해 만들어진 지표이다.따라서 모델이 출력한 답과 실제 정답을 비교하는 과정이 필요한데, 모..