본문 바로가기
Paper Review/Image Scene Graph Generation

[13] Memory-Based Network for Scene Graph with Unbalanced Relations

by ga.0_0.ga 2023. 3. 8.
728x90
반응형

논문 링크 : https://dl.acm.org/doi/pdf/10.1145/3394171.3413507?casa_token=sw18nIO1RXQAAAAA:gmh_7WpDKiJqu4KZ95Wa8-c2ZLN4DEuII1KC-XKzFNChiwn8sO44ZTRQHggFml-nK50KLDLCIh34yA

 

 

<Intorduction>

이 논문은 데이터 집합에 존재하는 문제점들을 memory를 사용하여 해결하고자 하였습니다. 논문에서 제안하는 문제점은 아래와 같습니다.

그림의 (a)는 “on”, “on a”, “on an” 처럼 표준화되지 않은 라벨링을 나타냅니다. 같은 triple이지만 일관성이 없는 것을 알 수 있습니다.

그림의 (b)는 주어와 목적어가 같은 경우 feature가 overlap되어 관계에 따라 feature가 다양해지지 않는다는 문제점을 나타냅니다. 이러한 문제점들은 관계 클래스의 개수가 적을수록 심화됩니다. (데이터 집합 불균형)

이러한 데이터 집합의 문제점을 해결하기 위해 memory를 도입하였습니다. 이 memory는 각 관계에 대한 정보를 저장하며, 메모리에서 feature를 가져와 현재 관계 feature가 보강 될 수 있도록 합니다.

<Model>

전체 구조도

1) Feature Extraction Module

Faster R-CNN을 사용

- Spatial Feature : 물체 bounding box의 위치 정보

- Visual Feature : CNN을 이용해 추출한 시각 정보들

- Linguistic Feature : 물체 예측 클래스의 단어벡터를 word2vec을 이용해 추출

2) Visual Memory Extraction Module

각 관계의 프로토 타입

메모리에서의 feature와 현재 관계 feature의 결합

3) Semantic Module

관계 feature의 결과와 주어와 목적어의 종류에 따른 관계의 분포 정보를 함께 사용

=> 주어, 목적어 클래스 동시 발생 빈도에 대한 관계 클래스 예측을 조정하고 주어와 목적어 클래스 s와 o가 주어 졌을 때 predicate 클래스의 발생 확률을 계산

<Result>

Dataset

- Visual Genome

Metrics

- SGGen: 물체의 위치, 종류, 관계 탐지

- SGCls: 물체의 종류, 관계 탐지

- PredCls: 관계 탐지

<결론>

- 장면 그래프 생성 작업에서 데이터 집합의 불균형 문제를 다루기 위해 메모리 모듈을 사용하여 서로 다른 관계 정보를 융합

- 적은 관계에 대한 탐지율이 향상될 수 있도록 개선 가능

728x90
반응형

댓글