[ONNX] ONNX Model Quantization

2023. 9. 5. 22:22·ONNX
728x90
반응형

- Quantization (양자화) 란? 

딥러닝 모델의 파라미터를 낮은 bit(Float32 => Int8)로 변환하여 계산 시간과 메모리 접근 속도를 높이는 경량화 기법입니다. 보통 부동소수점 연산인 Float32를 정수인 Int8 로 변환하는 방식이 많이 사용됩니다. 

 

 

- ONNX로 모델 양자화 하기  

onnxruntime.quantization에서 제공하는 quantize_dynamic 함수를 이용하면 됩니다.

import onnx
from onnxruntime.quantization import quantize_dynamic, QuantType

model_fp32 = 'model.onnx'
model_quant = 'model_quant.onnx'
quantize_dynamic(model_fp32, model_quant, weight_type=QuantType.QUInt8)

양자화 후의 모습입니다. 

아래 명령어를 통해 변환 전,후의 onnx 파일의 용량을 확인해보면

ls -alh

아래 사진에서 확인할 수 있듯이 양자화 후 onnx 파일의 용량이 감소한 것을 알 수 있습니다 : )

 

728x90
반응형
저작자표시 (새창열림)

'ONNX' 카테고리의 다른 글

[ONNX] ONNX Model Visualization(Netron)  (0) 2023.04.04
[ONNX] ONNX 변환모델에 메타데이터 추가하기  (0) 2023.04.01
[ONNX] ONNX Runtime에서 실행하기  (0) 2023.03.31
[ONNX] Pytorch 모델을 ONNX 모델로 변환하기  (0) 2023.03.30
'ONNX' 카테고리의 다른 글
  • [ONNX] ONNX Model Visualization(Netron)
  • [ONNX] ONNX 변환모델에 메타데이터 추가하기
  • [ONNX] ONNX Runtime에서 실행하기
  • [ONNX] Pytorch 모델을 ONNX 모델로 변환하기
ga.0_0.ga
ga.0_0.ga
    반응형
    250x250
  • ga.0_0.ga
    ##뚝딱뚝딱 딥러닝##
    ga.0_0.ga
  • 전체
    오늘
    어제
    • 분류 전체보기 (181)
      • Paper Review (51)
        • Video Scene Graph Generation (6)
        • Image Scene Graph Generation (18)
        • Graph Model (5)
        • Key Information Extraction (4)
        • Fake Detection (2)
        • Text to Image (1)
        • Diffusion Personalization (4)
        • etc (11)
      • AI Research (49)
        • Deep Learning (30)
        • Artificial Intelligence (15)
        • Data Analysis (4)
      • Pytorch (10)
      • ONNX (5)
      • OpenCV (2)
      • Error Note (34)
      • Linux (2)
      • Docker (3)
      • Etc (7)
      • My Study (16)
        • Algorithm (10)
        • Project (4)
        • Interview (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    transformer
    dataset
    TypeError
    linear regression
    나이브 베이즈 분류
    오차 역전파
    torch.nn
    tensorflow
    정규화
    GCN
    Activation Function
    RuntimeError
    3dinput
    forch.nn.functional
    Logistic regression
    활성화 함수
    HRNet
    i3d
    pandas
    pytorch
    알고리즘
    contiguous
    차원의 저주
    fine tuning
    dataloader
    그래프신경망
    ONNX
    Inductive bias
    JNI
    permute
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.0
ga.0_0.ga
[ONNX] ONNX Model Quantization
상단으로

티스토리툴바