본문 바로가기
Paper Review/Image Scene Graph Generation

[1] Scene Graph Generation by Iterative Message Passing

by ga.0_0.ga 2023. 3. 6.
728x90
반응형

논문 링크 : https://openaccess.thecvf.com/content_cvpr_2017/papers/Xu_Scene_Graph_Generation_CVPR_2017_paper.pdf

Github : https://github.com/danfeiX/scene-graph-TF-release

 

 

<Introduction>

이 논문은 이미지에서의 장면 그래프를 처음 제안한 논문입니다.

- 장면 그래프란?

Visual scene graph generation (SGG)은 하나의 영상 장면을 그래프로 표현하는 작업입니다.장면 그래프는 영상에 등장 물체들과 그들의 속성들, 그리고 그들 간의 관계들을 모델링함으로써, 한 영상 장면의 자세한 의미와 지식들을 표현할 수 있습니다. 일반적으로 scene graph generation (SGG) 과정에 가장 중요한 부분 중의 하나가 물체들의 다양한 맥락 정보를 활용해 그래프의 특징 정보를 갱신하는 것이다. 이를 Message Passing이라고 합니다.

기존의 Visual Relationship Detection(VRD)연구와 비슷해보이지만 차이점이 존재합니다. VRD는 물체 탐지와 관계 탐지를 독립적 프로세스로 생각합니다. 그렇기 때문에, 물체 탐지의 결과가 관계 탐지의 결과를 토대로 개선된다거나 하는 과정이 존재하지 않아 주변 맥락이 무시되었습니다.(반대의 경우도 마찬가지) 이러한 방식은 맥락 정보가 무시되기 때문에 SGG에는 둘 사이에 정보를 주고 받을 수 있도록 합니다.

제안하는 모델은 RNN을 사용하여 생성될 그래프를 추론하고 Message Passing 기법을 통해 예측된 그래프를 반복적으로 개선하는 방법을 제안합니다.

<Model>

전체 구조

(a)

제안된 물체 영역으로부터 노드와 엣지의 visul feature 추출합니다, 이 feature는 노드 GRU와 엣지 GRU에 초기 값으로 설정합니다.

엣지의 visual feature는 두 물체를 둘러싸는 union box의 visual feature를 사용합니다.

Q(x| )는 x의 확률을 나타내며 각 노드와 엣지의 현재 상태에만 의존한다고 가정합니다.

(b)

message pooling은 현재 t에서의 hidden state의 메세지를 다음 노드 GRU(또는 엣지 GRU)로 전달하기 위해 계산합니다. 이때, 노드 부분의 primal graph와 엣지 부분의 dual graph가 존재합니다. primal graph는 노드의 inbound와 outbound 엣지로 부터 메세지를 받고, dual graph는 주어노드와 목적어 노드로 부터 메세지를 받습니다. 두 그래프가 여러 정보를 받은 후 이를 하나로 통합할 때는 아래의 식을 따릅니다.

(c)

(b)방법과 동일하게 반복적인 hidden state업데이트합니다

(d)

GRU의 최동 hidden state가 물체의 클래스, 바운딩박스 위치, 관계 클래스를 예측하는데 사용합니다

<Result>

장면 그래프 생성에서만 사용되는 평가 지표들입니다.

▪ PredCls(Predicate Classification) : 물체들 간의 관계 예측

▪ PhrCls(Phrase Classification) : 물체의 종류와 물체들 간의 관계 예측

▪ SGGen(Scene Graph Generation) : 물체의 영역, 종류, 물체들 간의 관계 모두 예측

Visual Genome 데이터 집합을 사용하여 학습 및 실험하였습니다.

VRD연구 모델과 비교하였을 때 높은 성능을 보이는 것을 알 수 있습니다.

<결론>

- 장면 그래프 생성 연구를 제안

- 물체와 관계의 primal graph와 dual graph 를 생성한 후 GRU를 이용하여 메시지를 주고 받을 수 있는 모델 설계

=> 맥락적 단서를 통합함으로써 노드와 엣지 예측에 큰 도움을 줌

 
728x90
반응형

댓글