본문 바로가기
Paper Review/Image Scene Graph Generation

[4] Factorizable Net: An Ecient Subgraph-based Framework for Scene Graph Generation

by ga.0_0.ga 2023. 3. 7.
728x90
반응형

논문 링크 : https://www.ecva.net/papers/eccv_2018/papers_ECCV/papers/Yikang_LI_Factorizable_Net_An_ECCV_2018_paper.pdf

Github : https://github.com/yikang-li/FactorizableNet

 

 

<Introduction>

이 논문에서는 장면 그래프를 간결하게 표현하는 subgraph를 생성 한 후 전체 장면 그래프를 생성하는 방법을 제안합니다. 전체 그래프를 여러개의 하위 그래프로 분할함으로써 방대한 relationship을 적은 수의 subgraph로 표현하고 계산량 감소, 속도 향상등의 효과를 얻을 수 있습니다.

이전 연구들은 각 트리플마다 영역을 따로 생성하였습니다. 그러나 이런 방식은 그림에서 보듯이 상당히 많은 부분 영역이 중복되었고 이는 물체와 관계수가 증가하면 feature수 증가하고 그로 인해 연산 속도와 성능 감소하는 결과를 가져왔습니다. 따라서 본 논문에서는 중첩된 영역을 찾아 표현법을 공유하였으며, 이로 인해 feature수가 감소하고 연산 속도를 증가 시킬 수 있었습니다.​​

추가로, Spatial-weighted Message Passing(SMP)라는 Object feature와 subgraph feature사이의 message passing 모듈과 Spatial-sensitive Relation Interface(SRI)라는 Relationship을 인식하기 위한 모듈을 설계 하였습니다.

<Model>

전체 구조도

1) Image and RPN proposals

물체 영역 제안을 위해 Region Proposal Network(RPN)이용

2) Fully-connected Graph

가능한 모든 물체 쌍들을 연결하여 완전 연결 그래프 생성

모든 물체 쌍들을 연결하기 때문에 물체 영역들이 많이 제안될수록 계산이 느려지고 성능이 저하되게됨

=> 이를 해결하기 위해 다음 단계에 Subgraph생성

3) Subgraph-based Representation

서론의 그림에서 볼 수 있듯이 많은 영역이 중복됨 => 중복되는 영역은 공유

중복되는 영역 중 가장 대표 영역을 정하기 위해 아래와 같은 과정 수행

1. Confidence score와 Object의 union box이용

2. Confidence score: object제안 점수의 곱

3. Union box들 간의 NMS를 적용하여 최적의 union box를 구함

=>완전 연결된 subgraph생성

4) ROI-pooling and Feature Preparation

subgraph와 object에 해당하는 feature를 찾기 위해 ROI-Pooling 수행

=> subgraph의 공간적 정보 유지를 위해 2차원 feature-map 사용

=> subgraph의 feature가 여러 관계 추론에 의해 공유되어 사용되기 때문에 2차원 feature-map은 영역을 보다 일반적인 표현을 학습할 수 있게됨.

5) Spatial - weighted Message Passing

Spatial-weighted Message Passing(SMP)

Obj feature와 subgraph feature사이의 message passing 모듈

- Obj feature: Subgraph feature와 target object feature를 이용해 업데이트

- Subgraph feature: obj feature와 subgraph feature이용해 업데이트

Spatial-sensitive Relation Interface(SRI)

Relationship을 인식하기 위한 모듈

6) Object and Relation Recognition

물체와 관계 인식

<Result>

Visual Relationship Detection(VRD)와 Visual Genome 두 가지 사용

Visual Genome dataset에는 많은 노이즈 포함 = > cleansing하여 사용

성능 또한 개선되었고 속도면에서도 다른 모델들에 비해 향상된 것을 알 수 있습니다.

<결론>

- subgraph를 사용하는 장면 그래프 생성 모델인 F-Net(Factorizable Network)제안

=> 추론하는 동안 중복되는 영역의 표현수를 줄이기 위해 간결한 subgraph 사용

- subgraph의 정보를 유지하기 위해 2차원 feature-map사용

- 추가로 이 feature-map을 사용하는 Spatial-weighted Message Passing(SMP) 모듈과 Spatial-sensitive Relation Interface(SRI)라는 모듈을 설계

 
728x90
반응형

댓글