<Introduction>
이 논문에서는 기존의 GNN(Graph Neural Network)을 사용하는 관계 탐지 연구의 문제점을 지적하고 이를 해결하고자 하였습니다. 기존의 GNN을 사용한 연구의 문제점으로는,
1. Object 레벨만 그래프에 표현 -> triple 레벨은 무시
2. 공간 정보에만 의존하여 그래프 설계
등이 있습니다. 특히, 공간 정보에만 의존하여 그래프를 설계하다보면 아래 그림처럼 불필요한 관계가 발생하거나, 놓치는 관계가 발생하게 됩니다.
(a)의 man1 - wearing - jacket2는 위치 상으로는 가깝지만 크게 의미도 없고, 불필요한 관계입니다. (b)의 boy - watching at - kite는 의미가 있는 관계임에도 거리가 너무 멀어 탐지가 되지 않았습니다.
이를 해결하기 위해, 본 논문에서는 아래 세가지의 개선 방안을 제안합니다.
1) Object-level과 triplet-level모두 사용 => Triple 사이의 의존성을 이용할 수 있도록 개선
2) Visual, semantic, spatial, prior knowledge 등 다양한 정보 사용
3) Visual과 semantic 정보에 기반한 attention 메커니즘
<Model>
Feature Representation Module(FRM), Hierarchical graph Attention Network(HGAT), Relation Prediction Module(RPM)로 구성됩니다.
1) Feature Representation Module(FRM)
▶ VGG-16을 백본 네트워크로 사용하는 Faster R-CNN을 이용하여 등장 물체들 탐지
- Visual Feature : 물체 탐지기로부터 추출된 시각적 정보
- Spatial Feature : 각 등장 물체들 bounding box의 위치 정보
- Semantic Feature : 등장 물체들의 예측 클래스의 단어 벡터(word2vec)
▶ Prior Knowledge Distillation
데이터 집합내 물체 쌍의 동시 등장 빈도수 계산 => 개별로 등장 수 보다 동시 등장수가 많아질수록 더 큰 값을 가짐
2) Hierarchical graph Attention Network(HGAT)
▶ Object-level Reasoning
- 등장 물체들 하나하나를 노드로 표현
- visual, spatial, semantic feature를 이용하여 노드 특징 값 초기화
- 노드들 사이의 attention 및 message passing
▶ Triplet-level Reasoning
- 등장 물체쌍들 하나하나를 노드로 표현
- 노드들 사이의 attention 및 message passing
3) Relation Prediction Module(RPM)
- 최종 feature
각 물체 쌍의 최종 관계 예측
<Result>
Dataset
- Visual Genome(VG)
- Visual Relationship Detection(VRD)
Metrics
- Predicate Detection(Predicate Det): 물체의 위치, 종류는 정답 사용
- Relationship Detection(Relationship Det): 물체의 위치, 종류, 관계 예측
<결론>
- 시각적 관계 탐지를 위해 HGAT(Hierarchical Graph Attention Network)라는 새로운 프레임워크를 제안 => object-level과 triplet-level사이의 종속성 이용
- triplet 간의 종속성을 명시적으로 모델링하여 더 많은 맥락 정보를 관계 추론 프로세스에 통합
- 또한 데이터 집합을 기반으로 설계한 사전 지식과 attention 기법 사용
'Paper Review > Image Scene Graph Generation' 카테고리의 다른 글
[14] Natural Language Guided Visual Relationship Detection (0) | 2023.03.08 |
---|---|
[13] Memory-Based Network for Scene Graph with Unbalanced Relations (0) | 2023.03.08 |
[11] Knowledge-Embedded Routing Network for Scene Graph Generation (0) | 2023.03.08 |
[10] On Exploring Undetermined Relationships for Visual Relationship Detection (0) | 2023.03.08 |
[9] Relation Transformer Network (0) | 2023.03.07 |