[졸업 논문/프로젝트] 딥러닝 알고리즘을 이용한 상황 검색 가능한 비디오 플레이어 구현

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

My Vision, Computer Vision

[졸업 논문/프로젝트] 딥러닝 알고리즘을 이용한 상황 검색 가능한 비디오 플레이어 구현 본문

WorkPlace

[졸업 논문/프로젝트] 딥러닝 알고리즘을 이용한 상황 검색 가능한 비디오 플레이어 구현

gyuilLim 2024. 12. 4. 20:13

Youtube 영상 장면 검색(Colab)

https://github.com/gyuilLim/youtube-scene-search-with-text

GitHub - gyuilLim/youtube-scene-search-with-text: Finding scenes that you want by text automatically

Finding scenes that you want by text automatically - gyuilLim/youtube-scene-search-with-text

github.com

장면 검색 비디오 플레이어

https://github.com/gyuilLim/Scene-search-video-player

GitHub - gyuilLim/Scene-search-video-player: This repo is created for project on a text-based scene search video player

This repo is created for project on a text-based scene search video player - gyuilLim/Scene-search-video-player

github.com

기존 시스템의 한계

장면 검색의 한계 : 기존 Video player는 특정 장면을 찾는데 번거로움(일일히 스킵) 존재
비슷한 기능으로 Chat GPT를 이용한 영상 요약 기능(크롬 확장 프로그램)이 있지만 Script가 있어야함

프로젝트 목표

스크립트 같은 별도의 조건 없이 사용자가 원하는 장면을 검색할 수 있는 시스템 구축
딥러닝 모델을 비디오 플레이어에 도입하여 접근성 확보
프레임 압축 알고리즘을 이용한 시스템 프로세스 시간 단축

프로젝트 소개

기능 및 UI 설명

Drag&Drop : 사용자의 로컬에 있는 mp4 파일 업로드
Inference : 해당 비디오의 Caption list 생성
Caption list 생성이 완료되면 Serach 버튼과 Info 버튼 생성
- Serach : 사용자의 텍스트를 입력받아 유사한 장면 3개 시각화 -> 장면 클릭 재생
- Info : 영상의 요약본 및 선정/부정 정보 전달

정량평가(GPT Evaluation)

약 1분 가량의 5개 광고 영상 선정

선정 기준
1. 영상의 길이가 1분 내외인가
2. 영상이 스크립트를 모두 제공하고 있는가
3. 영상의 장면 전환이 빈번히 이루어지는가

광고 영상은 보통 짧은 시간, 집중적인 스토리 라인을 담고 있기 때문
Chat GPT 엔지니어링을 통해 영상의 스크립트를 바탕으로 사용자가 입력 할만한 질문 영상 당 20개, 총 100개 생성

Hit Rate

각 질문에 대해 선정된 장면의 유사도가 특정 임계값(Hit threshold) 이상인 경우 Hit로 판단

임계값이 0.7에서 0.8로 증가할 때 급격하게 감소하는 것으로 보아, 사용자의 텍스트와 캡션의 유사도가 약 70% 정도라고 분석할 수 있음

기대 효과

별도 조건 없이 특정 장면을 검색하는 시스템 구축
일반 사용자의 접근성 확보
압축 알고리즘을 이용한 시스템 프로세스 시간 단축

한계 및 보완점

GPU 사용성 : Vision-Language 모델을 운용하는데에 별도의 유료 서버 구축의 필요성
프로젝트에 맞는 직관적인 UI 보완 필요

728x90

'WorkPlace' 카테고리의 다른 글

이미지에서 원하는 텍스트 뽑아내기, 이미지 캡셔닝 BLIP-2(Colab 가능) (0)	2024.03.28
이미지와 텍스트 유사도 측정하기, Open AI CLIP(Colab 가능) (0)	2024.03.27

'WorkPlace' Related Articles

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

My Vision, Computer Vision

My Vision, Computer Vision

[졸업 논문/프로젝트] 딥러닝 알고리즘을 이용한 상황 검색 가능한 비디오 플레이어 구현 본문

[졸업 논문/프로젝트] 딥러닝 알고리즘을 이용한 상황 검색 가능한 비디오 플레이어 구현

기존 시스템의 한계

프로젝트 목표

프로젝트 소개

기능 및 UI 설명

정량평가(GPT Evaluation)

Hit Rate

기대 효과

한계 및 보완점

'WorkPlace' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역