반응형
250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- blip-2
- 에지 검출
- dinov2: learning robust visual features without supervision
- clip adapter
- evaluating object hallucination in large vision-language models paper
- vlm
- dinov2: learning robust visual features without supervision 논문
- vlm 환각이란
- clip
- 이미지 필터링
- 논문 리뷰
- Object detection article
- 논문 요약
- vlm 환각
- 엔트로피란
- 1차 미분 마스크
- 원격 학습 안끊기게
- 딥러닝 엔트로피
- dinov2 논문 리뷰
- vlm hallucination paper
- evaluating object hallucination in large vision-language models 논문
- object detection
- vlm hallucination
- evaluating object hallucination in large vision-language models
- 기계학습
- dinov2: learning robust visual features without supervision 논문 리뷰
- mobilenetv1
- 딥러닝 목적함수
- polling-based object probing evaluation
- 객체 검출
Archives
- Today
- Total
My Vision, Computer Vision
[졸업 논문/프로젝트] 딥러닝 알고리즘을 이용한 상황 검색 가능한 비디오 플레이어 구현 본문
Youtube 영상 장면 검색(Colab)
https://github.com/gyuilLim/youtube-scene-search-with-text
GitHub - gyuilLim/youtube-scene-search-with-text: Finding scenes that you want by text automatically
Finding scenes that you want by text automatically - gyuilLim/youtube-scene-search-with-text
github.com
장면 검색 비디오 플레이어
https://github.com/gyuilLim/Scene-search-video-player
GitHub - gyuilLim/Scene-search-video-player: This repo is created for project on a text-based scene search video player
This repo is created for project on a text-based scene search video player - gyuilLim/Scene-search-video-player
github.com
기존 시스템의 한계
- 장면 검색의 한계 : 기존 Video player는 특정 장면을 찾는데 번거로움(일일히 스킵) 존재
- 비슷한 기능으로 Chat GPT를 이용한 영상 요약 기능(크롬 확장 프로그램)이 있지만 Script가 있어야함
프로젝트 목표
- 스크립트 같은 별도의 조건 없이 사용자가 원하는 장면을 검색할 수 있는 시스템 구축
- 딥러닝 모델을 비디오 플레이어에 도입하여 접근성 확보
- 프레임 압축 알고리즘을 이용한 시스템 프로세스 시간 단축
프로젝트 소개

기능 및 UI 설명
- Drag&Drop : 사용자의 로컬에 있는 mp4 파일 업로드
- Inference : 해당 비디오의 Caption list 생성
- Caption list 생성이 완료되면 Serach 버튼과 Info 버튼 생성
- Serach : 사용자의 텍스트를 입력받아 유사한 장면 3개 시각화 -> 장면 클릭 재생
- Info : 영상의 요약본 및 선정/부정 정보 전달
정량평가(GPT Evaluation)
- 약 1분 가량의 5개 광고 영상 선정
선정 기준
1. 영상의 길이가 1분 내외인가
2. 영상이 스크립트를 모두 제공하고 있는가
3. 영상의 장면 전환이 빈번히 이루어지는가
- 광고 영상은 보통 짧은 시간, 집중적인 스토리 라인을 담고 있기 때문
- Chat GPT 엔지니어링을 통해 영상의 스크립트를 바탕으로 사용자가 입력 할만한 질문 영상 당 20개, 총 100개 생성
Hit Rate
- 각 질문에 대해 선정된 장면의 유사도가 특정 임계값(Hit threshold) 이상인 경우 Hit로 판단

- 임계값이 0.7에서 0.8로 증가할 때 급격하게 감소하는 것으로 보아, 사용자의 텍스트와 캡션의 유사도가 약 70% 정도라고 분석할 수 있음
기대 효과
- 별도 조건 없이 특정 장면을 검색하는 시스템 구축
- 일반 사용자의 접근성 확보
- 압축 알고리즘을 이용한 시스템 프로세스 시간 단축
한계 및 보완점
- GPU 사용성 : Vision-Language 모델을 운용하는데에 별도의 유료 서버 구축의 필요성
- 프로젝트에 맞는 직관적인 UI 보완 필요
728x90
'WorkPlace' 카테고리의 다른 글
이미지에서 원하는 텍스트 뽑아내기, 이미지 캡셔닝 BLIP-2(Colab 가능) (0) | 2024.03.28 |
---|---|
이미지와 텍스트 유사도 측정하기, Open AI CLIP(Colab 가능) (0) | 2024.03.27 |