논문 링크 : https://deepai.org/publication/relation-transformer-network
<Introduction>
이 논문은 기존 Transformer Network를 변형하여 Scene Graph Generation에 적용한 논문입니다.
Transformer Network에 대한 자세한 설명은 여기를 참고해주세요.
Transformer의 edcoder-decoder 구조를 활용하여 노드와 엣지의 풍부한 feature를 임베딩할 수 있습니다. 또한 transformer edcoder의 self-attention을 이용해하여 node-node의 상호 작용을, decoder의 cross attention을 이용해 node-edge의 상호 작용을 가능하게 합니다.
Transformer Network는 Object와 Object, object와 relation사이의 상호작용 모델링을 위하여 사용됩니다.
![](https://blog.kakaocdn.net/dn/b3kg94/btr2H5D3UEk/tbntFDpQu3DXS6FITdX3L0/img.png)
위 그림을 통해서 node와 edge사이의 다양한 상호 작용을 확인할 수 있습니다. (N2N, N2E, E2E)
<Model>
![](https://blog.kakaocdn.net/dn/VMX8e/btr2vVXFdUb/XcnvnxPLxyGEY8U9EI3Ayk/img.png)
1) Object detection
VGG-16을 백본 네트워크로 하는 Faster R-CNN을 사용하여 물체 영역을 탐지합니다.
2) Node embedding
![](https://blog.kakaocdn.net/dn/sOVvJ/btr2GLlwrv7/aF99PVmK1xbualDSWAK7kk/img.png)
- self-attention
기존 transformer의 방법과 동일
![](https://blog.kakaocdn.net/dn/xYshd/btr2GLTlEgv/eWHK82MTqkbGu5B5nHtuC0/img.png)
- 최종 node feature
![](https://blog.kakaocdn.net/dn/mbtZV/btr2FfUILJt/SpsmvxjxrKwVKFFJRSMXW0/img.png)
- 물체 분류
![](https://blog.kakaocdn.net/dn/bm9BS2/btr2CxaMAqI/akzYl1FVOWuSrB0Je3jWtK/img.png)
3) Edge Embedding
- 초기 edge feature
![](https://blog.kakaocdn.net/dn/bGNeIj/btr2FgzjCuB/v3tZdKq1l7pWbmVtBC49x0/img.png)
- positional encoding
![](https://blog.kakaocdn.net/dn/N9DP1/btr2DDBNr53/PO1ZhBROX4lTwvUkDaPgr0/img.png)
- 최종 edge feature
![](https://blog.kakaocdn.net/dn/bWgqXH/btr2D1Jd1ud/KtCoSGgkvrIhvgv6QliWs1/img.png)
4) Relation classification
![](https://blog.kakaocdn.net/dn/bG3PvN/btr2Eazmau5/47PtjcjzWgkGvtPDLVCUk0/img.png)
<Result>
Dataset
- Visual Genome
Metrics
Scene graph classification(SGCLS) : 물체 class와 관계 class예측
Predicate classification(PREDCLS) : 관계 class예측
![](https://blog.kakaocdn.net/dn/sJof7/btr2DEHwYpB/k4elmReltfWUBCXT9D6vek/img.png)
제안하는 모델이 가장 높은 성능을 보이고 있음을 확인할 수 있습니다.
<결론>
- Transformer Network를 기반으로 N2N, E2N 및 E2E 사이의 attention이 통합된 Relation Transformer Network모델을 제안
댓글