논문 링크 : https://onlinelibrary.wiley.com/doi/full/10.4218/etrij.2019-0093
<Introduction>
이전 논문과 비슷하게 관계 탐지에 있어 자연어를 사용하고자 한 논문입니다.
▶ ‘관계’를 language, visual, spatial cue로 연관지어 생각
- language: monkey와 banana는 ‘wear’보다 ‘eat’이 더 적합함
- visual: 이미지 feature
- spatial: banana는 monkey의 손과 입에 더 가까이 있을 수 있음
=> 세 가지 정보가 서로 다른 네트워크를 거치도록 설계
▶ 보다 정교한 언어 공간벡터를 얻기 위해 노력
<Model>
![](https://blog.kakaocdn.net/dn/bvqrIw/btr2PSSBirw/8t28vC1msYyXvVCdReRIw0/img.png)
1. Object Detection
- Faster R-CNN사용
2. 다양한 모듈들
▶ Spatial Module
주어 물체와 목적어 물체의 위치 정보
![](https://blog.kakaocdn.net/dn/ctSJQF/btr2QK74CrF/BhGWdr3ARxUVYypp5u2Y11/img.png)
▶Langauge Module
물체 예측 클래스의 단어벡터 사용
L loss와 K loss:
![](https://blog.kakaocdn.net/dn/bGOVfp/btr2NjDDCIG/5cHY2odFRAqMzrTPX5Reyk/img.png)
![](https://blog.kakaocdn.net/dn/Wk1FF/btr2H7cs0pa/Tkfsk7oDmfYPVvoMi6C4K1/img.png)
비슷한 종류의 단어들은 vector space에서 비슷한 위치에 놓이게 됨
▶Visual Module
VGG-16을 이용하여 추출
![](https://blog.kakaocdn.net/dn/rHy9Y/btr2D6yqohG/b1zeADHvNERtQk1GZ4PzO0/img.png)
3. Relationship Detection
![](https://blog.kakaocdn.net/dn/lCaMS/btr2QLsojsk/fJEIoAqmgIlgTm4yNb6jO1/img.png)
spatial module의 결과와 language+visual module의 결과를 합하여 최종 관계 클래스 결정
<Result>
Dataset
- Visual Genome
- VRD
Metrics
- Predicate detection: relation만 예측
- Phrase detection: object class와 relation예측
- Relationship detection: 물체의 영역, class, relation 모두 예측
![](https://blog.kakaocdn.net/dn/bLlVHJ/btr2QKG0agF/xKCkCMAtnhtELhwBZWfMmk/img.png)
![](https://blog.kakaocdn.net/dn/cUJCBu/btr2H6xOSX4/M8KBmrYkDbXROe7STdfu11/img.png)
<결론>
- language, visual, spatial 정보를 모두 사용하는 관계 탐지 모델 제안
- 비슷한 종류의 물체는 비슷한 vector space에 위치 시키기 위한 language module 제안