[4] LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding

2023. 3. 14. 22:42·Paper Review/Key Information Extraction
728x90
반응형

논문 링크: https://arxiv.org/pdf/2104.08836.pdf

github: https://github.com/microsoft/unilm

 

GitHub - microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities

Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities - GitHub - microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities

github.com

hugging face: https://huggingface.co/docs/transformers/model_doc/layoutxlm

 

LayoutXLM

When building a sequence using special tokens, this is not the token that is used for the beginning of sequence. The token used is the cls_token.

huggingface.co

 

 

Introduction

  • LayoutLMv2 모델을 언어에 관계 없이 사용하고자 다양한 multilingual 문서에 대해서 학습
  • 한국어 포함 총 53개의 언어에 대해 학습
  • 다양한 언어로 이루어진 XFUND 문서 데이터 집합 구축

 

Architecture

LayoutXLM

  • LayoutLMv2 구조와 동일
    • text, image, layout 정보 사용
    • 세 가지의 정보를 각각 embedding 한 후 concat해 input embedding 생성
    • multi-modal transformer로 들어가 self-attention 과정을 거침

 

Experiment

여러 task에 fine-tuning시킨 후 학습 결과

 

Result Image

red: header / green: key / blue: value

 

Conclusion

  • 다양한 언어로 이루어진 문서를 이해하기 위한 multi-modal pre-train 모델인 LayoutXLM 모델 제안
  • XFUND 데이터집합 구축
728x90
반응형
저작자표시 (새창열림)

'Paper Review > Key Information Extraction' 카테고리의 다른 글

[3] LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding  (0) 2023.03.14
[2] Spatial Dual-Modality Graph Reasoning for Key Information Extraction  (0) 2023.03.14
[1] Visual FUDGE: Form Understanding via Dynamic Graph Editing  (0) 2023.03.14
'Paper Review/Key Information Extraction' 카테고리의 다른 글
  • [3] LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding
  • [2] Spatial Dual-Modality Graph Reasoning for Key Information Extraction
  • [1] Visual FUDGE: Form Understanding via Dynamic Graph Editing
ga.0_0.ga
ga.0_0.ga
    반응형
    250x250
  • ga.0_0.ga
    ##뚝딱뚝딱 딥러닝##
    ga.0_0.ga
  • 전체
    오늘
    어제
    • 분류 전체보기 (181)
      • Paper Review (51)
        • Video Scene Graph Generation (6)
        • Image Scene Graph Generation (18)
        • Graph Model (5)
        • Key Information Extraction (4)
        • Fake Detection (2)
        • Text to Image (1)
        • Diffusion Personalization (4)
        • etc (11)
      • AI Research (49)
        • Deep Learning (30)
        • Artificial Intelligence (15)
        • Data Analysis (4)
      • Pytorch (10)
      • ONNX (5)
      • OpenCV (2)
      • Error Note (34)
      • Linux (2)
      • Docker (3)
      • Etc (7)
      • My Study (16)
        • Algorithm (10)
        • Project (4)
        • Interview (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    Logistic regression
    그래프신경망
    permute
    Inductive bias
    fine tuning
    i3d
    HRNet
    나이브 베이즈 분류
    linear regression
    dataset
    GCN
    dataloader
    ONNX
    차원의 저주
    3dinput
    pytorch
    오차 역전파
    정규화
    활성화 함수
    tensorflow
    알고리즘
    JNI
    Activation Function
    RuntimeError
    forch.nn.functional
    torch.nn
    pandas
    TypeError
    transformer
    contiguous
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.0
ga.0_0.ga
[4] LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding
상단으로

티스토리툴바