
[딥러닝 기본지식] Text-to-Image의 원리(Multi-Modal AI)
·
AI Research/Deep Learning
[ Multi-Modal(멀티모달)이란? ]과거에는 이미지를 입력으로 주면 결과물로 이미지만 나오고, 텍스트를 입력으로 주면 결과물로 텍스트만 내보내는 모델이 주를 이뤘는데요. 요즘에는 이미지를 입력으로 주면 이미지를 설명해주는 텍스트가 나오기도 하고, 텍스트로 설명을 주면 이미지를 만들어내는 모델에 대한 연구가 활발히 진행되고 있습니다.이렇게 단일 데이터만 사용하는 것이 아닌 여러 데이터를 한번에 사용하는 것을 "Multi-Modal(멀티모달)"이라고 합니다. [ 하나의 모델이 Multi-Modal 데이터를 이해하는 방법 ]이미지를 다루는 신경망들은 대부분 CNN으로 이루어져있고, 텍스트를 다루는 대표적인 신경망에는 Transformer가 있습니다. 그럼 하나의 모델이 이미지도 이해하고 텍스트도 이..