[딥러닝 기본지식] Inductive Bias

728x90

요즘 논문을 읽다보면 Inductive Bias라는 단어를 자주 볼 수 있는데요! 이번 포스팅은 Inductive Bias에 대해 작성해보겠습니다 :D

1. Inductive Bias란?

우리는 딥러닝 모델을 학습시킬 때 모델이 일반화가 잘 되게 학습되길 기대합니다. 일반화가 잘 됐다는 것은 학습 시에 보지 못한 데이터도 적절히 잘 분류함을 뜻합니다. 이 떄 Inductive Bias가 사용됩니다.

Inductive Bias란 모델이 주어지지 않은 데이터의 output을 예측하는 것입니다. 모델의 일반화 능력을 높이기 위해 사용하는 추가적인 가정을 의미합니다. 모델이 한 번도 보지 못한 데이터에 대해서도 정확한 output을 내기 위해서는 추가적인 가정이 필수적입니다. 이 추가된 가정은 사전 정보를 통해 얻게 됩니다. 때문에 일반화가 잘 된 모델들은 특정한 유형의 Inductive Bias를 갖게 됩니다. 즉! Inductive Bias는 "처음보는 데이터에 대해 귀납적 추론이 가능하도록 하는 알고리즘이 가지고 있는 가정의 집합이다."라고 할 수 있습니다.

2. 여러 신경망들의 Inductive Bias

FCN, CNN, RNN, GNN, Transformer들의 Inductive Bias에 대해 알아보겠습니다.- FCN: 가장 일반적인 형태의 신경망입니다. 신경망 내의 모든 유닛들이 서로 연결되어 있는 형태입니다. 따라서, 입력의 모든 요소들이 출력의 모든 요소에 영향을 미치기 때문에 Inductive Bias가 매우 약합니다.

- CNN: vision 분야에서 가장 많이 사용되는 신경이죠! 일정 크기의 filter가 이미지 전체를 훑습니다. 항상 filter 크기만한 정보만 받아들이므로 locality가 굉장히 강합니다. 이미지내에 같은 물체가 다른 위치에 존재해도 어렵지 않게 찾아낼 수 있습니다. 때문에 CNN은 Locality & Translation Invariance의 Inductive Biases를 갖습니다.

- RNN: sequential한 정보를 처리하기 위해 설계된 신경망입니다. CNN과 유사하게 Sequential & Temporal Invariance의 Inductive Biases를 갖습니다.

-GNN: GNN 또한 유사합니다. 연결된 노드들끼리만 feature를 주고받기 때문에 Permutational Invarianced의 Inductive Biases를 갖습니다.

- Transformer: Vision Transformer(ViT) 논문에는 다음과 같은 내용이 등장합니다.

Transformers lack some of the inductive biases inherent to CNNs, such as translation equivariance and locality, and therefore do not generalize well when trained on insufficient amounts of data.

Transformer는 CNN과 다르게 positional encoding과 self-attention을 사용합니다. 그렇기 때문에 CNN에 비해 Inductive Bias가 부족할 수 밖에 없습니다. Transformer에서는 부족한 Inductive Bias문제를 해결하기 위해 대용량 데이터에 사전학습 시키는 방법을 사용하고 있습니다. 결론은,, 글로벌한 정보가 필요하다면 Transformer를 선택하는 것이 바람직하지만, 지역적인 정보가 많아 Inductive bias를 최대한 활용하겠다면 CNN을 선택하는 것이 더 좋을 것입니다.

728x90

저작자표시

'AI Research > Deep Learning' 카테고리의 다른 글

[딥러닝 기본지식] Text-to-Image의 원리(Multi-Modal AI) (1)	2025.01.02
[딥러닝 기본지식] Self Attention과 Transformer (2) (0)	2023.08.24
[딥러닝 기본지식] Self Attention과 Transformer (1) (0)	2023.08.19
[딥러닝 기본지식] Auto Regressive Models (0)	2023.05.07
[딥러닝 기본지식] Diffusion Model (0)	2023.05.01

'AI Research > Deep Learning' 카테고리의 다른 글

티스토리툴바