โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-073 LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model
arXiv: 2604.20796 ๊ธฐ๊ด: inclusionAI Upvotes: 227 | Comments: 2 ์์: ์ด๋ฒ ์ฃผ Top 2
LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ๋ค์ ๋ณดํต ํ ์คํธ๋ฅผ ์ดํดํ๋ ์ธ์ด ๋ชจ๋ธ๊ณผ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ํ์ฐ ๋ชจ๋ธ(Diffusion Model)์ ๋ฐ๋ก ๋๊ฑฐ๋, ์ต์ง๋ก ์ฐ๊ฒฐํ๋ ๋ฐฉ์์ ์ฌ์ฉํ์ฌ ํจ์จ์ฑ์ด ๋จ์ด์ง๊ณ ํตํฉ๋ ์ดํด๊ฐ ์ด๋ ค์ ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ธ์ด์ ์ด๋ฏธ์ง๋ฅผ ๋ชจ๋ โ์ด์ฐ์ ์ธ ํ ํฐโ์ผ๋ก ํต์ผํ์ฌ ์ฒ๋ฆฌํ๋ ํ์ฐ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ(dLLM)์ ์ ์ํจ์ผ๋ก์จ, ์ดํด์ ์์ฑ์ ํ๋์ ๋คํธ์ํฌ์์ ์๋ฒฝํ๊ฒ ์ํํ ์ ์๋ ๊ธธ์ ์ด์์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ๋ณต์ก๋๋ฅผ ์ค์ด๋ฉด์๋ ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ ์์ ๋กญ๊ฒ ์ค๊ฐ๋ ์์ค ๋์ ํตํฉ ์ง๋ฅ์ ๊ตฌํํ๋ค๋ ์ ์์ ํ๊ธฐ์ ์ ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ ๋ก ์ค๋ช
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ โ๋ง๋ฅ ํต์ญ์ฌโ์ โ๋ ๊ณ ์กฐ๋ฆฝโ์ ๊ฒฐํฉํ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ๋ณดํต ์ฐ๋ฆฌ๋ ์ฑ ์ ์ฝ๋ ์ฌ๋(์ธ์ด ๋ชจ๋ธ)๊ณผ ๊ทธ๋ฆผ์ ๊ทธ๋ฆฌ๋ ํ๊ฐ(์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ)๊ฐ ๋ฐ๋ก ์๋ค๊ณ ์๊ฐํฉ๋๋ค. ํ์ง๋ง LLaDA2.0-Uni๋ ์ธ์์ ๋ชจ๋ ์ ๋ณด๋ฅผ โ๋ ๊ณ ๋ธ๋ก(์ด์ฐ ํ ํฐ)โ์ด๋ผ๋ ๊ณตํต๋ ์ธ์ด๋ก ๋ฒ์ญํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋์ ์ด ๋ ๊ณ ๋ธ๋ก๋ค์ ๋ฌด์์๋ก ์์ธ ์ํ์์ ์์ํด, ์จ๋ฐ๊ผญ์ง์ฒ๋ผ ํ๋์ฉ ๋ง์ถฐ๊ฐ๋ฉฐ(original denoising) ์์ฑ๋ ๊ธ์ด๋ ๊ทธ๋ฆผ์ ๋ง๋ค์ด๋ ๋๋ค. ์ฆ, ํ ์คํธ๋ ์ด๋ฏธ์ง๋ ๊ฒฐ๊ตญ์๋ โ๋ ๊ณ ๋ธ๋กโ์ ์กฐ๋ฆฝํ๋ ๊ณผ์ ์ด๋ผ๋ ์๋ฆฌ๋ฅผ ์ด์ฉํ ๊ฒ์ ๋๋ค.
๋จ๊ณ๋ณ ๋์ ๋ฐฉ์
์ฒซ์งธ, ๋ชจ๋ธ์ ๋ค์ด์ค๋ ์ด๋ฏธ์ง๋ฅผ SigLIP-VQ๋ผ๋ ๋๊ตฌ๋ฅผ ํตํด ์ปดํจํฐ๊ฐ ์ดํดํ๊ธฐ ์ฌ์ด ๋์งํธ ์ฝ๋๋ถ(์ด์ฐ ํ ํฐ)์ผ๋ก ๋ฐ๊ฟ๋๋ค. ์ด๋ ๊ณ ํด์๋ ์ฌ์ง์ ๋ชจ์์ดํฌ ๊ฐ์ ์ซ์ ๋ฉ์ด๋ฆฌ๋ก ์์ถํ๋ ๋จ๊ณ์ ๋๋ค. ๋์งธ, ๋ณํ๋ ์ด ํ ํฐ๋ค์ MoE(Mixture of Experts) ๊ธฐ๋ฐ์ ๋ผ๋ ๋ชจ๋ธ๋ก ๋ค์ด๊ฐ๋๋ค. ์ด๋ ์ ๋ฌธ๊ฐ๋ค์ด ๋ถ๋ดํด์ ๋ฌธ์ ๋ฅผ ํธ๋ ๊ฒ์ฒ๋ผ, ํ ์คํธ ์ฒ๋ฆฌ ์ ๋ฌธ๊ฐ์ ์ด๋ฏธ์ง ์ฒ๋ฆฌ ์ ๋ฌธ๊ฐ๊ฐ ๊ฐ์ ๋งก์ ๋ถ๋ถ์ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค. ์ ์งธ, ํ์ฐ ๋์ฝ๋(Diffusion Decoder)๊ฐ ๋ ธ์ด์ฆ๊ฐ ์์ธ ํ ํฐ๋ค์ ๋จ๊ณ์ ์ผ๋ก ์ ์ ํ์ฌ, ์ฐ๋ฆฌ๊ฐ ๋ณด๋ ์์ฐ์ค๋ฌ์ด ๋ฌธ์ฅ์ด๋ ์ ๋ช ํ ์ด๋ฏธ์ง๋ก ๋ณต์ํด ๋ ๋๋ค.
ํต์ฌ ์์๊ณผ ์๊ณ ๋ฆฌ์ฆ
์ด ๋ชจ๋ธ์ ํต์ฌ์ ์ด์ฐ ํ์ฐ ๊ณผ์ (Discrete Diffusion Process)์ ์์ต๋๋ค. ๊ธฐ์กด์ ์ฐ์์ ์ธ ํ์ฐ๊ณผ ๋ฌ๋ฆฌ, ์ด ๋ชจ๋ธ์ ๋ง์คํน(Masking) ๊ธฐ๋ฒ์ ์ฌ์ฉํฉ๋๋ค. ์์์ผ๋ก ํํํ์๋ฉด, ์๋ณธ ๋ฐ์ดํฐ x0๋ฅผ ์๊ฐ ๋จ๊ณ t๋ง๋ค ์ผ๋ถ ํ ํฐ์ [MASK]๋ก ๊ต์ฒดํ๋ ๊ณผ์ ์ ๊ฑฐ์ณ ๋ ธ์ด์ฆ ๋ฐ์ดํฐ xt๋ฅผ ๋ง๋ญ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ญ์ผ๋ก ๋ชจ๋ธ์ xt์์ masked ํ ํฐ์ ์์ธกํ์ฌ ์๋์ x0๋ก ๋ณต์ํ๋ ํ๋ฅ P(x_{t-1}|x_t)๋ฅผ ํ์ตํฉ๋๋ค. ์ด๋ ๋ธ๋ก ๋ ๋ฒจ์ ๋ง์คํน์ ์ ์ฉํ์ฌ ์ฒ๋ฆฌ ์๋๋ฅผ ๋์ด๊ณ ํจ์จ์ฑ์ ๊ทน๋ํํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ด ๋ ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ ์ดํด๋ฅผ ํ๊ฐํ๋ MMBench์ VQAv2 ๊ฐ์ ๋ฒค์น๋งํฌ์์ ํ ์คํธ๋ฅผ ์ํํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ๊ธฐ์กด์ ์ต์ ๋ชจ๋ธ์ธ LLaVA๋ ๊ฐ์ ๊ณ์ด์ ๋ชจ๋ธ๋ค๋ณด๋ค ์๋ฑํ ๋์ ์ ํ๋๋ฅผ ๊ธฐ๋กํ๋ฉฐ ์ดํด ๋ฅ๋ ฅ์์ SOTA(State-of-the-art) ์์ค์ ์ฑ๋ฅ์ ์ ์ฆํ์ต๋๋ค. ํนํ ์ด๋ฏธ์ง ์์ฑ ํ์ง์ ํ๊ฐํ๋ FID(Frechet Inception Distance) ์งํ์์๋ ๊ธฐ์กด ํ์ฐ ๋ชจ๋ธ ๋๋น ์์ฑ ์๋๋ ์ ์งํ๊ฑฐ๋ ๊ฐ์ ํ๋ฉด์๋, ํจ์ฌ ๋ ํ ์คํธ ์๋๋ฅผ ์ ๋ฐ์ํ๋ ๊ณ ํ์ง ์ด๋ฏธ์ง๋ฅผ ์์ฑํ์ต๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ํ ์คํธ์ ์๋ฏธ๋ฅผ ๊น์ด ์ดํดํ๊ณ ๊ทธ๊ฒ์ ์๊ฐ์ ์์๋ก ์ ํํ ๋ณํํ ์ ์์์ ๋ณด์ฌ์ฃผ๋ ์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ์ ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๋ค์ ์ด์ฐ ํ ํฐํ ๊ณผ์ ์์ ์ด๋ฏธ์ง์ ๋ฏธ์ธํ ๋ํ ์ผ์ด ์์ค๋ ์ ์๋ค๋ ์ ์ ๊ธฐ์ ์ ํ๊ณ๋ก ์ธ๊ธํ์ต๋๋ค. ๋ ๊ณ ๋ธ๋ก์ผ๋ก ์ธ๋ฐํ ๊ทธ๋ฆผ์ ๊ทธ๋ฆฌ๋ ๋ฐ ํ๊ณ๊ฐ ์๋ ๊ฒ๊ณผ ๋น์ทํฉ๋๋ค. ๋ํ MoE ๊ตฌ์กฐ ํน์ฑ์ ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์ปค์ ์ด์์ ๋ง์ ๋ฉ๋ชจ๋ฆฌ ์์์ด ์๋ชจ๋๋ค๋ ์ ๋ ์ง์ ํ์ต๋๋ค. ํฅํ ์ฐ๊ตฌ๋ก๋ ๋ ๋์ ์์ถ์จ์ ๊ฐ์ง๋ฉด์ ๋ํ ์ผ์ ๋ณด์กดํ ์ ์๋ ํฅ์๋ ํ ํฌ๋์ด์ ๊ฐ๋ฐ๊ณผ, ๋ชจ๋ธ์ ๊ฒฝ๋ํ๋ฅผ ํตํด ๋ ๋์ ๊ธฐ๊ธฐ์์ ๋์ํ ์ ์๊ฒ ๋ง๋๋ ์ฐ๊ตฌ๊ฐ ์ ์๋์์ต๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด ๊ธฐ์ ์ ์ฑ๋ด๊ณผ ์ด๋ฏธ์ง ์์ฑ์ด ๊ฒฐํฉ๋ ํตํฉํ ์ฐฝ์ ๋๊ตฌ์ ์ฆ์ ์ ์ฉํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ์ฉ์๊ฐ โ์ด ์ฌ์ง์ ๋ถ์ํด์ ๋ถ์๊ธฐ๊ฐ ๋น์ทํ ์๋ก์ด ์ผ๋ฌ์คํธ๋ฅผ ๊ทธ๋ ค์คโ๋ผ๊ณ ์์ฒญํ๋ฉด, ํ๋์ ๋ชจ๋ธ์ด ์ดํด์ ์์ฑ์ ๋์์ ์ํํ๋ ์๋น์ค๋ฅผ ๋ง๋ค ์ ์์ต๋๋ค. ๋ค๋ง, MoE ๊ธฐ๋ฐ์ ๋๊ท๋ชจ ๋ชจ๋ธ์ด๋ฏ๋ก ์๋น์ค๋ฅผ ๊ตฌ์ถํ๋ ค๋ฉด ๊ณ ์ฌ์์ GPU(A100 80GB ์ด์) ํด๋ฌ์คํฐ๊ฐ ํ์ํ๋ฉฐ, ์ถ๋ก ์๋๋ฅผ ๋์ด๊ธฐ ์ํ ์ต์ ํ ์์ ์ด ํ์์ ์ ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- Discrete Diffusion Model (์ฐ์์ ์ธ ๋ฐ์ดํฐ ๋์ ์ด์ฐ์ ์ธ ํ ํฐ ๋จ์๋ก ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๊ณ ์ ๊ฑฐํ๋ ์์ฑ ๋ชจ๋ธ)
- Large Language Model (LLM) (๋๊ท๋ชจ ํ ์คํธ ๋ฐ์ดํฐ๋ก ํ์ต๋์ด ์์ฐ์ด ์ฒ๋ฆฌ๋ฅผ ์ํํ๋ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ)
- Vector Quantization (VQ) (์ฐ์์ ์ธ ๋ฒกํฐ ๋ฐ์ดํฐ๋ฅผ ๋ฏธ๋ฆฌ ์ ์๋ ์ฝ๋๋ถ์ ์ธ๋ฑ์ค๋ก ๋ณํํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์์ถํ๋ ๊ธฐ๋ฒ)
- Mixture of Experts (MoE) (์ ๊ฒฝ๋ง์ ํน์ ๋ถ๋ถ์ ์ ๋ฌธํ๋ ํ์ ๋คํธ์ํฌ(์ ๋ฌธ๊ฐ)๋ค๋ก ๊ตฌ์ฑํ์ฌ ํจ์จ์ฑ์ ๋์ด๋ ๊ตฌ์กฐ)
- Multimodal Learning (ํ ์คํธ, ์ด๋ฏธ์ง, ์ค๋์ค ๋ฑ ์๋ก ๋ค๋ฅธ ์ข ๋ฅ์ ๋ฐ์ดํฐ๋ฅผ ํตํฉํ์ฌ ์ฒ๋ฆฌํ๋ ๋จธ์ ๋ฌ๋ ์ ๊ทผ๋ฒ)
- SigLIP (Sigmoid Loss for Language Image Pre-training) (์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๋งค์นญํ๋ ํ์ต์ ์๊ทธ๋ชจ์ด๋ ์์ค ํจ์๋ฅผ ์ฌ์ฉํ๋ ํจ์จ์ ์ธ ๋น์ -์ธ์ด ๋ชจ๋ธ)
- Masked Modeling (๋ฐ์ดํฐ์ ์ผ๋ถ๋ฅผ ๊ฐ๋ฆฌ๊ณ (Masking), ๋ชจ๋ธ์ด ๊ฐ๋ ค์ง ๋ถ๋ถ์ ์์ธกํ๋๋ก ํ์ตํ๋ ์๊ธฐ ์ง๋ ํ์ต ๋ฐฉ๋ฒ)
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Tstars-Tryon 1.0: Robust and Realisโฆ | DD-072 |
| ๐ฅ | LLaDA2.0-Uni: Unifying Multimodal Uโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | AgentSPEX: An Agent SPecification aโฆ | DD-074 |
| 4. | Extending One-Step Image Generationโฆ | DD-075 |
| 5. | OneVL: One-Step Latent Reasoning anโฆ | DD-076 |
๐ ์์ฑ์ผ: 2026-04-26 | ๐ค GLM-4.7 Deep Dive