[ONNX] ONNX Model Quantization
·
ONNX
- Quantization (양자화) 란? 딥러닝 모델의 파라미터를 낮은 bit(Float32 => Int8)로 변환하여 계산 시간과 메모리 접근 속도를 높이는 경량화 기법입니다. 보통 부동소수점 연산인 Float32를 정수인 Int8 로 변환하는 방식이 많이 사용됩니다. - ONNX로 모델 양자화 하기 onnxruntime.quantization에서 제공하는 quantize_dynamic 함수를 이용하면 됩니다.import onnxfrom onnxruntime.quantization import quantize_dynamic, QuantTypemodel_fp32 = 'model.onnx'model_quant = 'model_quant.onnx'quantize_dynamic(model_fp32, m..