본문 바로가기
Paper Review/Image Scene Graph Generation

[9] Relation Transformer Network

by ga.0_0.ga 2023. 3. 7.
728x90
반응형

논문 링크 : https://deepai.org/publication/relation-transformer-network

 

 

<Introduction>

이 논문은 기존 Transformer Network를 변형하여 Scene Graph Generation에 적용한 논문입니다.

Transformer Network에 대한 자세한 설명은 여기를 참고해주세요.

Transformer의 edcoder-decoder 구조를 활용하여 노드와 엣지의 풍부한 feature를 임베딩할 수 있습니다. 또한 transformer edcoder의 self-attention을 이용해하여 node-node의 상호 작용을, decoder의 cross attention을 이용해 node-edge의 상호 작용을 가능하게 합니다.

Transformer Network는 Object와 Object, object와 relation사이의 상호작용 모델링을 위하여 사용됩니다.

위 그림을 통해서 node와 edge사이의 다양한 상호 작용을 확인할 수 있습니다. (N2N, N2E, E2E)

<Model>

전체 구조도

1) Object detection

VGG-16을 백본 네트워크로 하는 Faster R-CNN을 사용하여 물체 영역을 탐지합니다.

2) Node embedding

- self-attention

기존 transformer의 방법과 동일

- 최종 node feature

- 물체 분류

3) Edge Embedding

- 초기 edge feature

- positional encoding

- 최종 edge feature

4) Relation classification

<Result>

Dataset

- Visual Genome

Metrics

Scene graph classification(SGCLS) : 물체 class와 관계 class예측

Predicate classification(PREDCLS) : 관계 class예측

제안하는 모델이 가장 높은 성능을 보이고 있음을 확인할 수 있습니다.

<결론>

- Transformer Network를 기반으로 N2N, E2N 및 E2E 사이의 attention이 통합된 Relation Transformer Network모델을 제안

 
728x90
반응형

댓글