[9] Relation Transformer Network

728x90

논문 링크 : https://deepai.org/publication/relation-transformer-network

<Introduction>

이 논문은 기존 Transformer Network를 변형하여 Scene Graph Generation에 적용한 논문입니다.

Transformer Network에 대한 자세한 설명은 여기를 참고해주세요.

Transformer의 edcoder-decoder 구조를 활용하여 노드와 엣지의 풍부한 feature를 임베딩할 수 있습니다. 또한 transformer edcoder의 self-attention을 이용해하여 node-node의 상호 작용을, decoder의 cross attention을 이용해 node-edge의 상호 작용을 가능하게 합니다.

Transformer Network는 Object와 Object, object와 relation사이의 상호작용 모델링을 위하여 사용됩니다.

위 그림을 통해서 node와 edge사이의 다양한 상호 작용을 확인할 수 있습니다. (N2N, N2E, E2E)

<Model>

1) Object detection

VGG-16을 백본 네트워크로 하는 Faster R-CNN을 사용하여 물체 영역을 탐지합니다.

2) Node embedding

- self-attention

기존 transformer의 방법과 동일

- 최종 node feature

- 물체 분류

3) Edge Embedding

- 초기 edge feature

- positional encoding

- 최종 edge feature

4) Relation classification

<Result>

Dataset

- Visual Genome

Metrics

Scene graph classification(SGCLS) : 물체 class와 관계 class예측

Predicate classification(PREDCLS) : 관계 class예측

제안하는 모델이 가장 높은 성능을 보이고 있음을 확인할 수 있습니다.

<결론>

- Transformer Network를 기반으로 N2N, E2N 및 E2E 사이의 attention이 통합된 Relation Transformer Network모델을 제안

728x90

저작자표시

'Paper Review > Image Scene Graph Generation' 카테고리의 다른 글

[11] Knowledge-Embedded Routing Network for Scene Graph Generation (0)	2023.03.08
[10] On Exploring Undetermined Relationships for Visual Relationship Detection (0)	2023.03.08
[8] Bridging Knowledge Graphs to Generate Scene Graphs (0)	2023.03.07
[7] Scene Graph Generation with External Knowledge and Image Reconstruction (0)	2023.03.07
[6] Exploring the Semantics for Visual Relationship Detection (0)	2023.03.07

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[9] Relation Transformer Network

'Paper Review > Image Scene Graph Generation' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역