[2] Video Relation Detection with Spatio-Temporal Graph

728x90

논문 링크: https://dl.acm.org/doi/pdf/10.1145/3343031.3351058?casa_token=9wavSf24OeUAAAAA:FPbjA4Z-FK-a9nsTqx_JHdw5Q0tBn5H3gVK_KaFgem2EY-sOHTCTvXQ1sEI5eWqlNo5tuDpCTvPjYQ

이 논문은 이전 논문에 이어서 비디오 관계 탐지에 관한 논문입니다.

<Introduction>

비디오에서의 관계 탐지를 위해 "시-공간 그래프(Spatio-Temporal Graph)"를 처음 적용한 논문입니다. 그래프 신경망을 사용하여 메세지를 전달하고 관계 추론을 수행합니다. 이러한 방식은 동영상에서의 시-공간 맥락(context)적 단서를 잘 활용할 수 있게하고, 그 결과로 물체와 관게의 예측률을 높입니다.

추가로, 이 논문에서는 [1] 논문의 Greedy Relational Association 알고리즘을 개선한 "Online Relational Association via Siamese Network"라는 새로운 알고리즘을 제안합니다.

<Model>

전체 구조도

1) Object trajectory proposal

[1] 의 논문과 동일한 방식으로 object trajectory를 추출합니다. [1] 논문과 마찬가지로 입력 비디오를 일정한 크기로 분할하는 segment방식을 사용합니다.

추출되는 feature는 아래와 같습니다.

-물체 feature => 각 tracklet의 물체 클래스 분포도 / 각 tracklet의 HoG, HoF, MBH

-관계 feature => relativity feature

2) Relationship detection

직관적으로, 같은 시간대 같은 공간에 서로 가까이 있는 물체들과 인접한 다른 시간대에 있는 물체들은 서로 관계를 맺고 있을 가능성이 높습니다. 이러한 사실을 바탕으로 완전 연결 시-공간 그래프를 설계합니다.

본 논문에서 현재 시간 n segment와 이전 시간 t-1 segment, 다음 시간 t+1 segment 총 3개의 segment를 모두 사용하여 다양한 시간대를 포함하는 시-공간 그래프를 설계합니다.

- Node

=> 각 segment에 등장하는 물체들

=> 단계 1에서 추출한 물체 feature들로 node를 초기화

-Edge

=> 등장하는 모든 물체들을 연결(완전 연결 시-공간 그래프)

위의 그림의 (b)부분에서 볼 수 있듯이 논문에서 제안하는 ST-GCN은 geometry GCN과 appearance GCN으로 나뉩니다. geometry GCN이 공간적 정보를, appearance GCN이 시간적 정보를 담는 GCN이라고 이해하면 될 것 같습니다.

- geometry GCN

인접 행렬 A는 vIoU를 사용하여 두 물체가 서로 얼마나 가까운지에 대한 정보를 담습니다. 가까울수록 가중치가 높습니다.

- appearance GCN

인접 행렬 A는 두 물체의 시각적 관련성을 나타냅니다. 먼저 feature들을 각각 다른 MLP를 적용하여 임베딩한 후 곱하여 모양 관련성값을 얻습니다. 학습된 관련성은 기하학적으로 겹침이 없는 경우에도 동일하거나 인접한 세그먼트의 관련 물체들이 더 높은 가중치를 가지도록 학습된다.

이렇게 설계된 ST-GCN으로 추론을 거친 후 최종적으로 얻어진 노드 feature로 물체를 분류합니다. 관계는 이 feature에 relative feature를 연결연산하여 예측합니다.

3) Relational association

- greedy 방법과 비교하자면 먼저 이 알고리즘은 online입니다. 모든 segment에 대해 <s-p-o>관계를 모두 탐지한 후 실행하는 greedy 방법과 다르게 한 segment에 대해 탐지가 끝나면 바로 association과정을 실행합니다.

- 또한, 기존의 rule 베이스이던 것을 개선하여 siamese network를 사용하였습니다. 현재 시간대 물체 트랙과 이전 시간의 물체 트랙이 얼마나 유사한지 신경망을 사용하여 confidence score를 계산하고 이를 바탕으로 association 여부를 결정합니다. 단순히 vIoU값만을 이용한다면 물체 카테고리가 같은 서로 다른 물체가 인접해 있는 경우를 분간할 수 없는 문제점을 개선한 것입니다.

<Result>

[1]의 논문인 vidVRD보다 모든 평가 지표에 대해 높은 성능을 보이고 있습니다. 이를 통해 ST-GCN을 이용한 시-공간 맥락 추론이 관계 탐지에 효과적이며 새로 제안하는 association알고리즘 또한 효과적임을 알 수 있습니다.

<결론>

- ST-GCN을 사용한 새로운 VRD-GCN 모델 제안

- Siamese Network를 사용하는 online association알고리즘 제안

=> 이러한 방법들을 real-time 작업에도 이용할 수 있도록 개선

728x90

저작자표시

'Paper Review > Video Scene Graph Generation' 카테고리의 다른 글

[6] Video Relation Detection via Multiple Hypothesis Association (0)	2023.03.06
[5] Beyond Short-Term Snippet: Video Relation Detection with Spatio-Temporal Global Context (0)	2023.03.06
[4] Video Visual Relation Detection via Multi-modal Feature Fusion (0)	2023.03.06
[3] Video Relationship Reasoning using Gated Spatio-Temporal Energy Graph (0)	2023.03.06
[1] Video Visual Relation Detection (1)	2023.01.29

##뚝딱뚝딱 딥러닝##

[2] Video Relation Detection with Spatio-Temporal Graph

'Paper Review > Video Scene Graph Generation' 카테고리의 다른 글

댓글

티스토리툴바

[2] Video Relation Detection with Spatio-Temporal Graph

'Paper Review > Video Scene Graph Generation' 카테고리의 다른 글

관련글

댓글

티스토리툴바