본문 바로가기
Paper Review/Image Scene Graph Generation

[12] Hierarchical Graph Attention Network for Visual Relationship Detection

by ga.0_0.ga 2023. 3. 8.
728x90
반응형

논문 링크 : https://openaccess.thecvf.com/content_CVPR_2020/papers/Mi_Hierarchical_Graph_Attention_Network_for_Visual_Relationship_Detection_CVPR_2020_paper.pdf

 

 

<Introduction>

이 논문에서는 기존의 GNN(Graph Neural Network)을 사용하는 관계 탐지 연구의 문제점을 지적하고 이를 해결하고자 하였습니다. 기존의 GNN을 사용한 연구의 문제점으로는,

1. Object 레벨만 그래프에 표현 -> triple 레벨은 무시

2. 공간 정보에만 의존하여 그래프 설계

등이 있습니다. 특히, 공간 정보에만 의존하여 그래프를 설계하다보면 아래 그림처럼 불필요한 관계가 발생하거나, 놓치는 관계가 발생하게 됩니다.

(a)의 man1 - wearing - jacket2는 위치 상으로는 가깝지만 크게 의미도 없고, 불필요한 관계입니다. (b)의 boy - watching at - kite는 의미가 있는 관계임에도 거리가 너무 멀어 탐지가 되지 않았습니다.

이를 해결하기 위해, 본 논문에서는 아래 세가지의 개선 방안을 제안합니다.

1) Object-level과 triplet-level모두 사용 => Triple 사이의 의존성을 이용할 수 있도록 개선

2) Visual, semantic, spatial, prior knowledge 등 다양한 정보 사용

3) Visual과 semantic 정보에 기반한 attention 메커니즘

<Model>

전체 구조도

Feature Representation Module(FRM), Hierarchical graph Attention Network(HGAT), Relation Prediction Module(RPM)로 구성됩니다.

1) Feature Representation Module(FRM)

▶ VGG-16을 백본 네트워크로 사용하는 Faster R-CNN을 이용하여 등장 물체들 탐지

- Visual Feature : 물체 탐지기로부터 추출된 시각적 정보

- Spatial Feature : 각 등장 물체들 bounding box의 위치 정보

- Semantic Feature : 등장 물체들의 예측 클래스의 단어 벡터(word2vec)

▶ Prior Knowledge Distillation

데이터 집합내 물체 쌍의 동시 등장 빈도수 계산 => 개별로 등장 수 보다 동시 등장수가 많아질수록 더 큰 값을 가짐

2) Hierarchical graph Attention Network(HGAT)

▶ Object-level Reasoning

- 등장 물체들 하나하나를 노드로 표현

- visual, spatial, semantic feature를 이용하여 노드 특징 값 초기화

- 노드들 사이의 attention 및 message passing

▶ Triplet-level Reasoning

- 등장 물체쌍들 하나하나를 노드로 표현

- 노드들 사이의 attention 및 message passing

3) Relation Prediction Module(RPM)

- 최종 feature

각 물체 쌍의 최종 관계 예측

<Result>

Dataset

- Visual Genome(VG)

- Visual Relationship Detection(VRD)

Metrics

- Predicate Detection(Predicate Det): 물체의 위치, 종류는 정답 사용

- Relationship Detection(Relationship Det): 물체의 위치, 종류, 관계 예측

VRD 데이터 집합을 이용한 실험 결과
VG 데이터 집합을 이용한 실험 결과

<결론>

- 시각적 관계 탐지를 위해 HGAT(Hierarchical Graph Attention Network)라는 새로운 프레임워크를 제안 => object-level과 triplet-level사이의 종속성 이용

- triplet 간의 종속성을 명시적으로 모델링하여 더 많은 맥락 정보를 관계 추론 프로세스에 통합

- 또한 데이터 집합을 기반으로 설계한 사전 지식과 attention 기법 사용

 

728x90
반응형

댓글