<Introduction>
본 논문에서는 visual genome 데이터셋이 가지는 문제점을 해결하고자 하였습니다. 문제 점들을 아래 그림처럼 총 4가지로 나누어 설명합니다.
b : 관계가 있음에도 라벨링 되어있지 않음(b)
c : 관계가 없는 물체들 (c)
d : 잘못 탐지된 물체들(d)
=> 이러한 관계들을 undetermined relationship이라고 칭하며 이러한 것들 또한 관계탐지에 도움을 주는 정보를 제공할 수 있다고 보고있습니다.
따라서 이 논문은 undetermined relationship을 이용하여 옳은 관계를 탐지하기 위한 MF-URLN(Multi-modal Feature based Undetermined Relationship Learning Network) 모델을 제안합니다.
<Model>
1) Object Detector
VGG-16을 백본 네트워크로 하는 Faster R-CNN을 사용하여 물체 영역을 탐지합니다.
2) Undetermined Relationship Generator
Object Detector를 통해 얻은 subject, predicate, object 라벨 정보를 이용하여 Undetermined Relationship을 생성합니다.
3) Undetermined Relationship Learning Network
- 외부 지식 베이스인 wikipedia와 데이터 집합의 등장 빈도수에 관한 정보로 부터 feature추출 => Linguistic Feature
- (1)에서 얻어진 정보들중 Spatial Location와 Visual Appearances 정보 이용
=> 두 개의 feature를 융합
- Determinate Confidence Subnetwork : 융합된 feature로 determinate한 정보를 계산
- Relationship Detection Subnetwork
Determinate Confidence Subnetwork의 정보와 융합된 feature를 이용하여 최종 predicate 예측
<Result>
Dataset
- VRD
- Visual Genome
Metrics
- Predicate detection: 관계만 예측
- Phrase Detection: relation triple + bounding box(union box)
- Relation detection: relation triple + bounding box(individual box)
<결론>
- Visual Relationship Detection에서 undetermined relationship을 이용하는 MF-URLN모델 제안
- determined relationship과 undetermined relationship을 기반으로 다양한 feature를 추출하고 융합하는 새로운 관계 탐지 방법제안
'Paper Review > Image Scene Graph Generation' 카테고리의 다른 글
[12] Hierarchical Graph Attention Network for Visual Relationship Detection (0) | 2023.03.08 |
---|---|
[11] Knowledge-Embedded Routing Network for Scene Graph Generation (0) | 2023.03.08 |
[9] Relation Transformer Network (0) | 2023.03.07 |
[8] Bridging Knowledge Graphs to Generate Scene Graphs (0) | 2023.03.07 |
[7] Scene Graph Generation with External Knowledge and Image Reconstruction (0) | 2023.03.07 |