[2] Neural Motifs: Scene Graph Parsing with Global Context

2023. 3. 6. 23:29·Paper Review/Image Scene Graph Generation
728x90
반응형

논문 링크 : https://openaccess.thecvf.com/content_cvpr_2018/papers/Zellers_Neural_Motifs_Scene_CVPR_2018_paper.pdf

​

Github : https://github.com/rowanz/neural-motifs

 

<Introduction>

이미지에서의 장면그래프를 생성하는 모델에 대한 논문입니다. 이 논문에서는 데이터 집합에서의 등장 패턴을 분석하여 그 분포를 예측에 사용합니다.

왼쪽의 표는 사용 데이터 집합인 Visual Genome의 object와 relation의 타입을 분석한 표입니다. object의 대부분은 "part"에 속하고, relation의 대부분은 "geometric"과 "possessive"에 속하는 것을 알 수 있습니다. 오른쪽 그림은 고 수준 간선들의 유형을 나타냅니다. "Geometric", "possessive" , "semantic"이 각각 50.9%, 40.9%, 8.7%를 차지합니다. 특히 semantic관계의 대부분은 사람과 차량, 구조물 사이의 위치관계임을 알 수 있습니다.

위 그림들을 통해서 알 수 있는 사실은 요소들 사이의 의존성이 매우 크다는 것입니다. 따라서 이러한 학습 데이터에서의 분포 비율을 통한 예측 또한 가능하다고 할 수 있습니다.

이와 관련하여 "motif" 라는 용어가 등장합니다. ("패턴" 정도로 이해하면 좋을 것 같습니다.)

이 논문에서는 반복적으로 등장하는 subgraph를 2개 이상의 triple로 구성합니다.

따라서 이 논문에서는 Object detection + 데이터 분포로부터 추정하고 물체 종류로부터 제일 많이 등장했던 관계를 선택하는 방식으로 모델을 구성합니다.

​

​

<Model>

전제 구조도

1) Object Detection

Faster R-CNN에 백본으로 VGG 네트워크를 이용합니다.

​

2) Object Context

1에서 제안된 물체 영역들을 bidirectional LSTM을 거쳐 물체의 전체적인 맥락 정보를 파악한 후 물체의 카테고리를 분류합니다.

​

3) Edge Context

2에서 얻은 물체의 카테고리, 맥락 정보를 동일하게 bidirectional LSTM을 거쳐 edge context 정보를 추출합니다.

​

2와 3의 과정에서 동일하게 highway LSTM이 적용됩니다.

이 방법을 통해 radient vanishing problem 보완하고 skip connection 처럼 깊이를 줄이는 효과를 얻을 수 있습니다.

​

​

​<Result>

데이터 집합은 Visual Genome을 사용합니다.

- object 150, relation 50 (positive : negative = 1 : 3)

- 두 물체가 겹치지 않으면 relation 삭제

​

제안하는 MotifNet이 가장 높은 성능을 보이고 있음을 알 수 있습니다. 또한 LSTM의 입력으로 이미지의 왼쪽에서부터 등장하는 바운딩 박스를 먼저 넣엇을 때 가장 높은 성능을 보이고 있음을 알 수 있습니다.

​

​

​

<결론>

- 데이터집합 내에 존재하는 다양한 패턴분석

=> motif(패턴) 만을 이용하여 관계 분류 가능함을 실험을 통해 입증.

​

- 탐지된 물체로부터 맥락 정보를 활용

=> object 카테고리 분류

=> relationship 카테고리 분류

728x90
반응형
저작자표시 (새창열림)

'Paper Review > Image Scene Graph Generation' 카테고리의 다른 글

[6] Exploring the Semantics for Visual Relationship Detection  (0) 2023.03.07
[5] Graph R-CNN for Scene Graph Generation  (0) 2023.03.07
[4] Factorizable Net: An Ecient Subgraph-based Framework for Scene Graph Generation  (0) 2023.03.07
[3] Scene Graph Generation from Objects, Phrases and Region Captions  (0) 2023.03.06
[1] Scene Graph Generation by Iterative Message Passing  (0) 2023.03.06
'Paper Review/Image Scene Graph Generation' 카테고리의 다른 글
  • [5] Graph R-CNN for Scene Graph Generation
  • [4] Factorizable Net: An Ecient Subgraph-based Framework for Scene Graph Generation
  • [3] Scene Graph Generation from Objects, Phrases and Region Captions
  • [1] Scene Graph Generation by Iterative Message Passing
ga.0_0.ga
ga.0_0.ga
    반응형
    250x250
  • ga.0_0.ga
    ##뚝딱뚝딱 딥러닝##
    ga.0_0.ga
  • 전체
    오늘
    어제
    • 분류 전체보기 (181)
      • Paper Review (51)
        • Video Scene Graph Generation (6)
        • Image Scene Graph Generation (18)
        • Graph Model (5)
        • Key Information Extraction (4)
        • Fake Detection (2)
        • Text to Image (1)
        • Diffusion Personalization (4)
        • etc (11)
      • AI Research (49)
        • Deep Learning (30)
        • Artificial Intelligence (15)
        • Data Analysis (4)
      • Pytorch (10)
      • ONNX (5)
      • OpenCV (2)
      • Error Note (34)
      • Linux (2)
      • Docker (3)
      • Etc (7)
      • My Study (16)
        • Algorithm (10)
        • Project (4)
        • Interview (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    torch.nn
    RuntimeError
    Inductive bias
    정규화
    알고리즘
    fine tuning
    차원의 저주
    transformer
    Logistic regression
    tensorflow
    dataset
    그래프신경망
    dataloader
    GCN
    i3d
    Activation Function
    forch.nn.functional
    ONNX
    나이브 베이즈 분류
    pytorch
    permute
    오차 역전파
    JNI
    pandas
    linear regression
    HRNet
    TypeError
    contiguous
    3dinput
    활성화 함수
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.0
ga.0_0.ga
[2] Neural Motifs: Scene Graph Parsing with Global Context
상단으로

티스토리툴바