Github: https://github.com/yaohungt/Gated-Spatio-Temporal-Energy-Graph
GitHub - yaohungt/Gated-Spatio-Temporal-Energy-Graph: [CVPR'19] [PyTorch] Gated Spatio Temporal Energy Graph
[CVPR'19] [PyTorch] Gated Spatio Temporal Energy Graph - GitHub - yaohungt/Gated-Spatio-Temporal-Energy-Graph: [CVPR'19] [PyTorch] Gated Spatio Temporal Energy Graph
github.com
<Introduction>
먼저 이 논문의 제목을 해석해보자면 다음과 같습니다.
Gated Spatio-Temporal Energy Graph?
- Gated: 개체들 사이의 고정된 확률이 아닌 학습을 통한 확률 사용
- Spatio: input 비디오의 공간의 흐름
- Temporal: input 비디오의 시간의 흐름
따라서, 이 논문은 등장하는 관계를 확률과 공간, 시간에 따라 수학적(확률적)으로 모델링하는 방법을 제안한 논문입니다. 예를 들어 설명하자면, 아래와 같습니다.
예시 1) <mother-pay-money>
Mother/pay/money 사이에 spatio 제약 존재
=> 공간이 달라진다면 mother와 money사이에 다른 관계 가능
(한 segment)
예시 2) <infant-get-milk>, <infant-drink-milk>
get/drink 사이에 temporal 제약 존재
=> 두 관계 사이에는 서로 시간적 연관성 존재
(서로 다른 segment)
<Model>
![](https://blog.kakaocdn.net/dn/SuGYs/btr2vnFk8dm/llnzyb5jrtXwRRT2GwHE60/img.png)
전체 구조도
확률적으로 모델링한 논문인 만큼 수식이 많이 등장합니다. 수식의 의미만 간단히 적도록 하겠습니다.
1) input segment X에 대해 y라는 관계를 가질 확률
![](https://blog.kakaocdn.net/dn/vRR8L/btr2rDJbm3M/jKD0v4iSoSOzfsFbL0GKq1/img.png)
2) 다음 segment의 정보를 일정비율 감소시켜 적용
![](https://blog.kakaocdn.net/dn/b4U1a8/btr18DpJ3zY/D9xiKZKe4JVcp494B6KzP0/img.png)
3) 이렇게 모델링한 확률을 spatio-temporal graph를 설계해 message passing
- segment와 segment 사이에 message passing
- 관계 추론을 위해 probabilistic graphical model의 하나인 CRF(Conditional Random Field)를 사용
![](https://blog.kakaocdn.net/dn/ZLz9o/btr2tDPhxm8/RpdRMTqaTonPGEHKmmzli0/img.png)
<Result>
![](https://blog.kakaocdn.net/dn/bRyWPR/btr2hJ4rX0n/VTwsB0SKnAgyRXL0llUNMK/img.png)
ImageNet-Video에 대한 실험 성능입니다. 다른 모델들 보다 우수한 성능을 보이는 것을 확인할 수 있습니다.
<결론>
- 물체 쌍별 에너지 함수에 대한 상각된 gate 매개변수화를 사용하여 공간 및 시간적으로 완전히 연결된 구조를 고려한 그래프 제안
- gate 설계를 통해 모델이 현재 관찰(즉, 현재 비디오)을 조건으로 하는 물체<->물체, 물체<->관계 간의 적응 관계 감지 가능
'Paper Review > Video Scene Graph Generation' 카테고리의 다른 글
[6] Video Relation Detection via Multiple Hypothesis Association (0) | 2023.03.06 |
---|---|
[5] Beyond Short-Term Snippet: Video Relation Detection with Spatio-Temporal Global Context (0) | 2023.03.06 |
[4] Video Visual Relation Detection via Multi-modal Feature Fusion (0) | 2023.03.06 |
[2] Video Relation Detection with Spatio-Temporal Graph (0) | 2023.03.06 |
[1] Video Visual Relation Detection (1) | 2023.01.29 |
댓글