본문 바로가기
Paper Review/Image Scene Graph Generation

[2] Neural Motifs: Scene Graph Parsing with Global Context

by ga.0_0.ga 2023. 3. 6.
728x90
반응형

논문 링크 : https://openaccess.thecvf.com/content_cvpr_2018/papers/Zellers_Neural_Motifs_Scene_CVPR_2018_paper.pdf

Github : https://github.com/rowanz/neural-motifs

 

<Introduction>

이미지에서의 장면그래프를 생성하는 모델에 대한 논문입니다. 이 논문에서는 데이터 집합에서의 등장 패턴을 분석하여 그 분포를 예측에 사용합니다.

왼쪽의 표는 사용 데이터 집합인 Visual Genome의 object와 relation의 타입을 분석한 표입니다. object의 대부분은 "part"에 속하고, relation의 대부분은 "geometric"과 "possessive"에 속하는 것을 알 수 있습니다. 오른쪽 그림은 고 수준 간선들의 유형을 나타냅니다. "Geometric", "possessive" , "semantic"이 각각 50.9%, 40.9%, 8.7%를 차지합니다. 특히 semantic관계의 대부분은 사람과 차량, 구조물 사이의 위치관계임을 알 수 있습니다.

위 그림들을 통해서 알 수 있는 사실은 요소들 사이의 의존성이 매우 크다는 것입니다. 따라서 이러한 학습 데이터에서의 분포 비율을 통한 예측 또한 가능하다고 할 수 있습니다.

이와 관련하여 "motif" 라는 용어가 등장합니다. ("패턴" 정도로 이해하면 좋을 것 같습니다.)

이 논문에서는 반복적으로 등장하는 subgraph를 2개 이상의 triple로 구성합니다.

따라서 이 논문에서는 Object detection + 데이터 분포로부터 추정하고 물체 종류로부터 제일 많이 등장했던 관계를 선택하는 방식으로 모델을 구성합니다.

<Model>

전제 구조도

1) Object Detection

Faster R-CNN에 백본으로 VGG 네트워크를 이용합니다.

2) Object Context

1에서 제안된 물체 영역들을 bidirectional LSTM을 거쳐 물체의 전체적인 맥락 정보를 파악한 후 물체의 카테고리를 분류합니다.

3) Edge Context

2에서 얻은 물체의 카테고리, 맥락 정보를 동일하게 bidirectional LSTM을 거쳐 edge context 정보를 추출합니다.

2와 3의 과정에서 동일하게 highway LSTM이 적용됩니다.

이 방법을 통해 radient vanishing problem 보완하고 skip connection 처럼 깊이를 줄이는 효과를 얻을 수 있습니다.

<Result>

데이터 집합은 Visual Genome을 사용합니다.

- object 150, relation 50 (positive : negative = 1 : 3)

- 두 물체가 겹치지 않으면 relation 삭제

제안하는 MotifNet이 가장 높은 성능을 보이고 있음을 알 수 있습니다. 또한 LSTM의 입력으로 이미지의 왼쪽에서부터 등장하는 바운딩 박스를 먼저 넣엇을 때 가장 높은 성능을 보이고 있음을 알 수 있습니다.

<결론>

- 데이터집합 내에 존재하는 다양한 패턴분석

=> motif(패턴) 만을 이용하여 관계 분류 가능함을 실험을 통해 입증.

- 탐지된 물체로부터 맥락 정보를 활용

=> object 카테고리 분류

=> relationship 카테고리 분류

728x90
반응형

댓글