[4] SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs

728x90

GitHub - Accio-Lab/SwimBird

Contribute to Accio-Lab/SwimBird development by creating an account on GitHub.

github.com

기존 MLLM모델들의 추론패턴 문제점을 지적
- 항상 텍스트 CoT만 사용하거나 latent Visual Token만 사용하는 방식
⇒ 질문마다 필요한 사고방식이 다른데 왜 항상 같은 추론 패턴을 사용할까?
- 다양한 유형의 쿼리에 유연하게 대응하지 못하는 한계 직면
- 텍스트 중심의 논리적 문제에서 불필요한 시각적 연산을 초래하여 성능을 저하시키거나, 반대로 시각 정보를 주로 사용해야 하는 문제에서 텍스트만으로는 표현할 수 없는 정보의 손실을 야기
이를 해결하기 위해 SwimBird는..
- 질의에 따라 text-only / vision-only / vision-text interleave의 3가지 모드를 모델이 스스로 선택하도록 만들고, latent token 길이도 문제 난이도에 따라 동적으로 할당하도록 함
  - text-only 추론: <reason>…</reason>로 표기되는 텍스트 CoT 중심
  - vision-only 추론: <|latent_start|> … <|latent_end|> 구간에서 연속 잠재 토큰(임베딩) 을 생성하며, 텍스트 CoT를 최소화.
  - vision-text interleave 추론: 필요할 때 latent token과 텍스트 추론을 번갈아 수행
- Hybrid Autoregressive를 사용하여 텍스트 토큰에 대한 예측과 visual token의 임베딩 예측을 단일 프레임워크 내에서 통합 → 위의 3가지 모드 선택 자체를 학습한다!

3.1 Hybrid Autoregressive Modeling

Textual thought as next-token prediction
- shifted cross-entropy loss사용
  - x: 이미지, w: 단어토큰

Visual thought as next-embedding prediction
- MSE loss 사용
  - z: visual latent tokens

Mode switching with special delimiters
- output space 를 토큰과 임베딩 두 종류로 확장했기에 이를 구분하는 토큰 필요
  - 학습시 <|latent_start|> … <|latent_end|> 로 visual thought 영역 표시
    - 모델이 텍스트 토큰이 아닌 연속적인 latent embedding을 생성해야 함을 알려줌
  - system prompt

추론 단계에서는 어떻게?
- 예를 들어, 모델이 <|latent_start|> 를 출력하면 그 다음부터는 임베딩 생성 단계로 전환 → <|latent_end|> 를 출력하면 텍스트토큰 생성으로 복귀

3.2 Dynamic Latent Token Budget

3.3 Switchable Reasoning SFT Dataset Construction

Step 1) 후보수집 + 쉬운 데이터 제거: ThinkMorph, Zebra-CoT, MathCanvas-Instruct 이용(중간 사고이미지가 포함된 데이터셋들)

Step 2) 모델을 이용한 라벨링: pass@8 지표 이용, Qwen3-235B-Instruct를 판정자로 사용해 score 0.75 이상인 것만 라벨링

Step 3) 텍스트 전용 CoT 추가: OpenMMReasoner 등에서 50,000개의 텍스트 전용 CoT 데이터를 추가

Training Details
- backbone: Qwen3-VL 8B
- 학습: SFT (SwimBird-SFT-92K)
- GPU: A100-80GB
- bs: 128
- LLM만 업데이트(vision encoder 와 multimodal projector 는 frozen)
- 스케줄러/학습률: cosine LR scheduler, 초기 LR = 1e-5
Fine-grained Visual Understanding ( 고해상도 )

- 잠재 토큰 개수와 MSE 가중치에 따른 성능변화

728x90

[3] Context Cascade Compression: Exploring the UpperLimits of Text Compression (0)	2025.12.31
[2] FLAVA: A Foundational Language And Vision Alignment Model (1)	2025.10.20
[1] Learning Transferable Visual Models From Natural Language Supervision(CLIP) (3)	2025.08.31

티스토리툴바