'AI Research' 카테고리의 글 목록

- batch size가 학습에 미치는 영향 batch size 의 값에 따라 학습 결과는 직접적인 영향을 받게 됩니다. 클때와 작을 때 각각의 장단점은 아래와 같습니다. ✅ 배치 크기가 클 때 (예: 256~1024) ✔ 장점:병렬 연산이 최적화됨 → GPU 활용도가 높아짐학습이 빠름 (한 번의 forward/backward pass에서 많은 샘플을 처리)Gradient가 안정적 (많은 샘플을 평균내므로 변화가 작음)❌ 단점:일반화 성능이 낮아질 가능성 (Gradient가 안정적이라 local minima에 빠질 위험 있음)메모리 사용량이 많음 (큰 모델에서는 Out of Memory(OOM) 발생 가능)배치 내 데이터 다양성이 감소하여 Overfitting 위험 증가✅ 배치 크기가 작을 때 ..

[ Multi-Modal(멀티모달)이란? ]과거에는 이미지를 입력으로 주면 결과물로 이미지만 나오고, 텍스트를 입력으로 주면 결과물로 텍스트만 내보내는 모델이 주를 이뤘는데요. 요즘에는 이미지를 입력으로 주면 이미지를 설명해주는 텍스트가 나오기도 하고, 텍스트로 설명을 주면 이미지를 만들어내는 모델에 대한 연구가 활발히 진행되고 있습니다.이렇게 단일 데이터만 사용하는 것이 아닌 여러 데이터를 한번에 사용하는 것을 "Multi-Modal(멀티모달)"이라고 합니다. [ 하나의 모델이 Multi-Modal 데이터를 이해하는 방법 ]이미지를 다루는 신경망들은 대부분 CNN으로 이루어져있고, 텍스트를 다루는 대표적인 신경망에는 Transformer가 있습니다. 그럼 하나의 모델이 이미지도 이해하고 텍스트도 이..

요즘 논문을 읽다보면 Inductive Bias라는 단어를 자주 볼 수 있는데요! 이번 포스팅은 Inductive Bias에 대해 작성해보겠습니다 :D 1. Inductive Bias란? 우리는 딥러닝 모델을 학습시킬 때 모델이 일반화가 잘 되게 학습되길 기대합니다. 일반화가 잘 됐다는 것은 학습 시에 보지 못한 데이터도 적절히 잘 분류함을 뜻합니다. 이 떄 Inductive Bias가 사용됩니다. Inductive Bias란 모델이 주어지지 않은 데이터의 output을 예측하는 것입니다. 모델의 일반화 능력을 높이기 위해 사용하는 추가적인 가정을 의미합니다. 모델이 한 번도 보지 못한 데이터에 대해서도 정확한 output을 내기 위해서는 추가적인 가정이 필수적입니다. 이 추가된 가정은 사전 정보를 통해..

이전 포스팅에서는 Transformer의 가장 핵심이라 할 수 있는 Self-Attention에 대해 설명했습니다. 이번 포스팅에서는 Transformer의 전반적인 작동 과정에 대해 알아보겠습니다. [Paper] https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf [Github] https://github.com/huggingface/transformers GitHub - huggingface/transformers: 🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX. 🤗 Tr..

티스토리툴바