728x90
반응형
논문 링크: https://arxiv.org/pdf/2104.08836.pdf
github: https://github.com/microsoft/unilm
hugging face: https://huggingface.co/docs/transformers/model_doc/layoutxlm
Introduction
- LayoutLMv2 모델을 언어에 관계 없이 사용하고자 다양한 multilingual 문서에 대해서 학습
- 한국어 포함 총 53개의 언어에 대해 학습
- 다양한 언어로 이루어진 XFUND 문서 데이터 집합 구축
Architecture
LayoutXLM
- LayoutLMv2 구조와 동일
- text, image, layout 정보 사용
- 세 가지의 정보를 각각 embedding 한 후 concat해 input embedding 생성
- multi-modal transformer로 들어가 self-attention 과정을 거침
Experiment
여러 task에 fine-tuning시킨 후 학습 결과
Result Image
red: header / green: key / blue: value
Conclusion
- 다양한 언어로 이루어진 문서를 이해하기 위한 multi-modal pre-train 모델인 LayoutXLM 모델 제안
- XFUND 데이터집합 구축
728x90
반응형