728x90
반응형
논문 링크: https://arxiv.org/pdf/2103.14470v1.pdf
github: https://github.com/open-mmlab/mmocr
https://github.com/PaddlePaddle/PaddleOCR
Introduction
- 이전 연구에서는 학습 시 보지 못한 문서 템플릿에 대해서는 일반화를 할 수 없었다.
- 또한, 연결된 문자열에서만 pre-context와 after-context를 최대한 활용하지만 같은 줄에 있지 않은 인접 텍스트 영역은 사용하지 않는다.
- 따라서, 본 논문에서는!
- 다양한 상황, 다양한 템플릿을 가지는 WildReceipt 데이터 집합을 생성하고,
- 공간적으로 인접한 영역들의 text, visual을 모두 이용할 수 있도록 Graph Reasoning 모듈을 포함하는 Spatial Dual-Modality Graph Reasoning 모델을 제안한다.
Architecture
SDMGR
- Dual-Modality Fusion Module
- Visual Feature: U-Net을 통해 추출
- Text Feature: Bi-LSTM을 통해 추출
- Graph Reasoning Module
- Node: 문서내 text, visual fusion feature로 초기화
- Edge: 노드들 사이의 연결관계, spatial 정보로 초기화
- Node Update
- Classification: 노드가 어떤 key 또는 value에 해당하는지 분류
- Loss
- Cross Entropy
Dataset
- Wildreceipt
결과 이미지
Conclusion
- 공간적으로 인접한 영역들의 text, visual을 모두 이용할 수 있도록 Graph Reasoning 모듈을 사용한다.
- 영수증 이미지에서는 key와 value 클래스가 많지 않지만, 항목이 많은 데이터에서는 클래스들이 훨씬 많아 클래스를 정의하는데 어려움이 있다.
728x90
반응형