[딥러닝 기본지식] batch size가 학습에 미치는 영향 / 적절한 batch size 선택하기

728x90

- batch size가 학습에 미치는 영향

batch size 의 값에 따라 학습 결과는 직접적인 영향을 받게 됩니다. 클때와 작을 때 각각의 장단점은 아래와 같습니다.

✅ 배치 크기가 클 때 (예: 256~1024)

✔ 장점:

❌ 단점:

✅ 배치 크기가 작을 때 (예: 2~32)

✔ 장점:

❌ 단점:

- 적절한 batch size를 선택하는 방법

✅ 일반적인 추천 값

단! batch size가 큰 경우 마지막 batch에 몇개의 데이터가 들어가는지에 따라 성능에 악영향을 미칠 수 있습니다.

예를들어, batch size가 300인데 마지막 batch에 6개의 데이터만 들어간다면 이는 아래와 같은 이유들로 성능에 악영향을 미치게 됩니다.

1️⃣ Batch Normalization (BN) 문제

2️⃣ Optimizer의 Gradient Update 문제

마지막 배치 크기가 6이므로, 이전 배치(300)보다 Gradient Update 크기가 매우 작아질 수 있음
만약 momentum이 높은 Optimizer (예: SGD with momentum=0.9)를 사용하면, 이전 배치(300)의 큰 gradient가 유지되고 마지막 배치(6)의 작은 gradient는 거의 무시됨
특히 Adam, RMSProp 등의 Adaptive Optimizer는 배치 크기가 작아질수록 학습 속도가 불안정해질 수 있음

이 때 가장 간단한 해결책으로는 DataLoader에 drop_Last 옵션을 추가하여 마지막 작은 배치를 제거해주면 됩니다.

dataloader = DataLoader(dataset, batch_size=300, shuffle=True, drop_last=True)

728x90

[딥러닝 기본지식] Text-to-Image의 원리(Multi-Modal AI) (1)	2025.01.02
[딥러닝 기본지식] Inductive Bias (1)	2023.10.01
[딥러닝 기본지식] Self Attention과 Transformer (2) (0)	2023.08.24
[딥러닝 기본지식] Self Attention과 Transformer (1) (0)	2023.08.19
[딥러닝 기본지식] Auto Regressive Models (0)	2023.05.07

티스토리툴바