참고 자료 : https://www2.cs.sfu.ca/~oschulte/files/talks/ACCV2018_presentation.pdf
<Introduction>
[15], [16] 논문과 마찬가지로 강화학습 Q-Learning을 이용하여 장면 그래프를 생성하는 모델입니다. 추가로 메세지 패싱을 위해 Graph Neural Network를 사용하였습니다.
▶Deep Generative Probabilistic Graph Neural Networks(DG-PGNN)
▶Q-learning사용(state, action, reward 존재)
=> State: 현재의 그래프 상태
=> Action: 새로운 노드를 선택하는 것
=> Reward: ground truth와 IoU를 비교하여 결정
▶노드수가 고정된 다른 연구들과 달리 매 스텝마다 그래프에 새로운 노드 추가
강화 학습을 사용하는 세 논문의 비교도 마지막 부분에 추가하도록 하겠습니다.
<Model>
![](https://blog.kakaocdn.net/dn/eqi1Zp/btr2FcrO0RK/d1Jwks0jCkZd9DgH6fnKcK/img.png)
[학습을 위해 이용하는 정보]
▶Global type information(이미지 전체에 대한 정보)
- M개의 노드 타입
- 물체 클래스 쌍 마다 가능한 관계들을 미리 정의
ex) e-types(man, horse) ={riding, next to, on, has}
▶Image node and type candidates(한 장의 이미지에서 탐지된 bbox에 대한 정보)
- Confidence score: 해당 bbox가 물체일 확률
- n-types = {…} : 해당 bbox가 가질
- 바운딩 박스의 cnn feature
- Vic(v) : 해당 바운딩 박스와 가까이 있는 바운딩 박스들의 집합(좌표로 판단)
=> 이 집합에 포함되지 않으면 노드v와 관계를 가질 수 없음
논문에 포함된 알고리즘 순서도를 이용하여 설명하겠습니다.
- Input
![](https://blog.kakaocdn.net/dn/D3uid/btr2Org7DhJ/L2YxFxXE5ZH1T2GzCctys0/img.png)
![](https://blog.kakaocdn.net/dn/dYKLnJ/btr2D7xnLht/dgKjyPaVGQGvGuP5strTwk/img.png)
<Result>
Dataset
- Visual Genome
Metrics
- PredCls: relation만 예측
- SGCls: object class와 relation예측
- SGGen: 물체의 영역, class, relation 모두 예측
![](https://blog.kakaocdn.net/dn/G2YzN/btr2Gt06fYu/PtRhqykZ7wyLVq1r8bng10/img.png)
- [16, 17, 18] 논문의 비교
![](https://blog.kakaocdn.net/dn/dbcYNr/btr2D5TMD5Z/GSzHBeDd8xdDQglTHz4Nv0/img.png)
![](https://blog.kakaocdn.net/dn/EsO73/btr2OqbqWD3/voOHDxSR6FZKtWbBNw0dtk/img.png)
![](https://blog.kakaocdn.net/dn/z9BMw/btr2OqidsvO/OBnE8JQ9BK9ZbUea0rdrik/img.png)
![](https://blog.kakaocdn.net/dn/Hn166/btr2PUQrDcM/ipqXAKLyuKk9Y0DiEQTD2k/img.png)
![](https://blog.kakaocdn.net/dn/t6cZp/btr2Otlxyed/6SXc7183wXrN7K5Sq3ZXCK/img.png)