My Vision, Computer Vision

[졸업 논문/프로젝트] 딥러닝 알고리즘을 이용한 상황 검색 가능한 비디오 플레이어 구현 본문

WorkPlace

[졸업 논문/프로젝트] 딥러닝 알고리즘을 이용한 상황 검색 가능한 비디오 플레이어 구현

gyuilLim 2024. 12. 4. 20:13

 

Youtube 영상 장면 검색(Colab)

https://github.com/gyuilLim/youtube-scene-search-with-text

 

GitHub - gyuilLim/youtube-scene-search-with-text: Finding scenes that you want by text automatically

Finding scenes that you want by text automatically - gyuilLim/youtube-scene-search-with-text

github.com

 

장면 검색 비디오 플레이어

https://github.com/gyuilLim/Scene-search-video-player

 

GitHub - gyuilLim/Scene-search-video-player: This repo is created for project on a text-based scene search video player

This repo is created for project on a text-based scene search video player - gyuilLim/Scene-search-video-player

github.com

 


기존 시스템의 한계

  • 장면 검색의 한계 : 기존 Video player는 특정 장면을 찾는데 번거로움(일일히 스킵) 존재
  • 비슷한 기능으로 Chat GPT를 이용한 영상 요약 기능(크롬 확장 프로그램)이 있지만 Script가 있어야함

프로젝트 목표

  • 스크립트 같은 별도의 조건 없이 사용자가 원하는 장면을 검색할 수 있는 시스템 구축
  • 딥러닝 모델을 비디오 플레이어에 도입하여 접근성 확보
  • 프레임 압축 알고리즘을 이용한 시스템 프로세스 시간 단축

프로젝트 소개

시스템 파이프라인

 

기능 및 UI 설명

  • Drag&Drop : 사용자의 로컬에 있는 mp4 파일 업로드
  • Inference : 해당 비디오의 Caption list 생성
  • Caption list 생성이 완료되면 Serach 버튼 Info 버튼 생성
    • Serach : 사용자의 텍스트를 입력받아 유사한 장면 3개 시각화 -> 장면 클릭 재생
    • Info : 영상의 요약본선정/부정 정보 전달

정량평가(GPT Evaluation)

  • 약 1분 가량의 5개 광고 영상 선정
선정 기준
1. 영상의 길이가 1분 내외인가
2. 영상이 스크립트를 모두 제공하고 있는가
3. 영상의 장면 전환이 빈번히 이루어지는가
  • 광고 영상은 보통 짧은 시간, 집중적인 스토리 라인을 담고 있기 때문
  • Chat GPT 엔지니어링을 통해 영상의 스크립트를 바탕으로 사용자가 입력 할만한 질문 영상 당 20개, 총 100개 생성

Hit Rate

  • 각 질문에 대해 선정된 장면의 유사도가 특정 임계값(Hit threshold) 이상인 경우 Hit로 판단

Hit rate 측정 결과

  • 임계값이 0.7에서 0.8로 증가할 때 급격하게 감소하는 것으로 보아, 사용자의 텍스트와 캡션의 유사도가 약 70% 정도라고 분석할 수 있음

기대 효과

  • 별도 조건 없이 특정 장면을 검색하는 시스템 구축
  • 일반 사용자의 접근성 확보
  • 압축 알고리즘을 이용한 시스템 프로세스 시간 단축

한계 및 보완점

  • GPU 사용성 : Vision-Language 모델을 운용하는데에 별도의 유료 서버 구축의 필요성
  • 프로젝트에 맞는 직관적인 UI 보완 필요

 

 

728x90