논문 링크 : https://deepai.org/publication/relation-transformer-network
<Introduction>
이 논문은 기존 Transformer Network를 변형하여 Scene Graph Generation에 적용한 논문입니다.
Transformer Network에 대한 자세한 설명은 여기를 참고해주세요.
Transformer의 edcoder-decoder 구조를 활용하여 노드와 엣지의 풍부한 feature를 임베딩할 수 있습니다. 또한 transformer edcoder의 self-attention을 이용해하여 node-node의 상호 작용을, decoder의 cross attention을 이용해 node-edge의 상호 작용을 가능하게 합니다.
Transformer Network는 Object와 Object, object와 relation사이의 상호작용 모델링을 위하여 사용됩니다.
위 그림을 통해서 node와 edge사이의 다양한 상호 작용을 확인할 수 있습니다. (N2N, N2E, E2E)
<Model>
1) Object detection
VGG-16을 백본 네트워크로 하는 Faster R-CNN을 사용하여 물체 영역을 탐지합니다.
2) Node embedding
- self-attention
기존 transformer의 방법과 동일
- 최종 node feature
- 물체 분류
3) Edge Embedding
- 초기 edge feature
- positional encoding
- 최종 edge feature
4) Relation classification
<Result>
Dataset
- Visual Genome
Metrics
Scene graph classification(SGCLS) : 물체 class와 관계 class예측
Predicate classification(PREDCLS) : 관계 class예측
제안하는 모델이 가장 높은 성능을 보이고 있음을 확인할 수 있습니다.
<결론>
- Transformer Network를 기반으로 N2N, E2N 및 E2E 사이의 attention이 통합된 Relation Transformer Network모델을 제안