Search
👀

VDVT : 폭력 사태 감지 딥러닝 모델

️ 프로젝트 소개

약 4개월(23.09 - 23.12)동안 “이미지 및 자연어 처리를 위한 딥러닝” 수업에서 딥러닝에 대해서 학습하고 새로운 딥러닝 모델을 설계 및 구현하는 프로젝트를 진행했습니다. 이 프로젝트의 이름은 “VDVT : 비전 트랜스포머 기반의 폭력 사태를 감지하는 딥러닝 모델”입니다.
현재 자연어 처리 분야 발전을 Transformer(이하 트랜스포머) 모델이 주도하고 있습니다. 그리고 이 트랜스포머를 컴퓨터 비전 분야에 접목시킨 Vision Transformer(이하 ViT) 라는 모델이 있습니다.
이 ViT는 기존 CNN보다 높은 성능을 제공하지만, 데이터의 양이 충분하지 않다면 일반화가 제대로 이뤄지지 않아 성능이 저하된다는 치명적인 단점이 있습니다.
저는 이를 해결하고자 ViT 아키텍처 초반부에 있는 Tubelet Encoder(특징 맵을 평탄화하여 임베딩 벡터로 변환하는 역할)을 사전 학습된 CNN(Ex. MobileNetV3)으로 대체했고 이 CNN의 출력값인 특징 맵을 ViT의 인풋 시퀀스로 사용했습니다.
이를 통해 적은 데이터셋으로도 높은 정확도를 유지하면서도 빠른 학습이 가능한 모델을 직접 구현할 수 있었습니다. 실제로 베이스라인 모델 대비 VDVT 모델의 정확도(Precision)와 재현율(Recall) 모두 27.58%로 향상되었고 학습 속도는 76.64%나 빨라졌습니다.
이 VDVT 모델을 구현하기 위해서 선행연구 논문 7편 정도를 읽고 분석했으며 구글 코랩을 통해 여러 번 모델 학습을 진행했습니다. 베이스라인 모델 구현과 학습, VDVT 모델 구현과 학습 그리고 두 모델 간의 성능 비교 실험을 끝으로 VDVT 프로젝트를 마무리했습니다.
이 프로젝트를 통해서 AI(특히, 딥러닝 분야)에 대한 도메인 지식을 학습할 수 있었고 모델 학습에 메모리 용량이 생각보다 많이 중요하다는 것도 알게 되었습니다 (모델 학습 중간에 메모리 초과로 인해 학습이 중단되는 경우가 부지기수여서 모델 학습 때는 한시라도 눈을 뗄 수가 없었습니다).
 외부 링크들