본문 바로가기
Paper Review/Video Scene Graph Generation

[5] Beyond Short-Term Snippet: Video Relation Detection with Spatio-Temporal Global Context

by ga.0_0.ga 2023. 3. 6.
728x90
반응형

논문 링크 : https://openaccess.thecvf.com/content_CVPR_2020/papers/Liu_Beyond_Short-Term_Snippet_Video_Relation_Detection_With_Spatio-Temporal_Global_Context_CVPR_2020_paper.pdf

 

 

<Introduction>

기존의 논문들[1-4]은 비디오를 일정한 크기로 분할한 후 분할된 비디오에서 각각 물체와 관계를 탐지한 다음 별도의 association알고리즘을 이용하여 하나로 합쳐주는 방식을 사용하였습니다(segment 접근법). 이 논문에서는 이러한 접근 법의 문제점을 지적하고 새로운 sliding-window접근 방법을 제안합니다.

segment 접근법의 문제점

- 길이가 긴 관계는 탐지가 힘듦 : 여러 segment에 걸쳐 관계가 등장하는 경우 하나의 segment에서라도 관계가 잘못 탐지되면 association단계에서 관계를 통합하는데 문제 발생

- 동일 관계의 반복 탐지 : 역시 여러 segment에 걸쳐 관계가 등장하는 경우 동일한 관계를 반복적으로 탐지해야 한다는 문제 발생(비효율적)

=> 이러한 문제들을 해결하고자 sliding-window를 사용하는 새로운 접근 방법 제안

<Model>

전체 구조도

1) Object Tracklets Proposal

입력 비디오의 모든 프레임에서 등장하는 물체들을 탐지하고 전체 비디오에 걸쳐 하나의 트랙을 생성합니다.

-프레임별 물체 탐지: Faster R-CNN(ResNet101)을 물체 탐지기로 사용

-물체 추적 : deep sort 알고리즘 사용

위 과정을 거쳐 비디오 전체에 걸쳐 물체 트랙이 생성되면 다양한 길이의 물체 트랙들을 찾기 위한 슬라이딩 윈도우 기법이 적용됩니다. 다양한 길이의 물체 트랙들을 찾기 위해서, 최소 크기인 30 frames에서 시작해 다양한 크기의 윈도우들을 설정해줍니다. 윈도우 내에 포함된 물체 트랙들을 분할하여 다양한 길이의 물체 트랙을 생성해냅니다.

2) Relationship Pair Proposal

이전 논문들에는 없는 물체쌍 제안 단계입니다. 비디오 전체 범위에서 탐지한 물체 트랙들의 개수 n은 매우 많기 때문에 이중 실제로 관계가 있을 법한 물체 쌍만 골라내기위해 수행되는 단계입니다. 이 논문에서는 두개의 GCN을 사용합니다. 두 그래프의 초기 구성은 같습니다.

노드 : 물체 트랙들 => 각 물체 트랙의 visual feature로 초기화

엣지 : 모든 노드 연결(완전 연결 그래프)

- Spatio GCN:

공간 그래프로 간선에 sIoU 값을 기반으로 가중치를 준 후 이웃 노드들끼리 맥락 정보를 교환합니다.

- Temporal GCN:

시간 그래프로 간선에 tIoU값을 기반으로 가중치를 준 후 이웃 노드들끼리 맥락 정보를 교환합니다.

두 그래프에서 각각 맥락 정보 교환 과정이 끝나면 동일 노드들끼리 feature를 concat해줍니다. 그리고 모든 물체쌍들에 대해 코사인 유사도를 구하여 일정 값 이상인 물체 쌍들은 실제로 관계가 있는 물체쌍으로 판단합니다.

3) Relationship Classification

제안된 물체쌍들의 관계를 탐지합니다.

주어와 목적어의 visual/video feature, 두 물체의 relative motion feature를 모두 concat하여 판별합니다. 이전 단계에서 GCN을 통해 얻은 feature를 사용하지 않는것이 조금 의문...

<Result>

데이터 집합은 VidVRD와 VidOR을 사용합니다.

VidVRD 데이터 집합을 이용한 비교

VidOR 데이터 집합을 이용한 비교

<결론>

- 이전 연구들과는 다른 슬라이딩 윈도우 접근 방법 제안

- 시-공간 맥락 정보를 효과적으로 임베딩하여 물체 쌍 제안에 사용하기 위한 spatio-GCN과 Temporal GCN의 사용

728x90
반응형

댓글