โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-073 LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

arXiv: 2604.20796 ๊ธฐ๊ด€: inclusionAI Upvotes: 227 | Comments: 2 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 2


LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ๋“ค์€ ๋ณดํ†ต ํ…์ŠคํŠธ๋ฅผ ์ดํ•ดํ•˜๋Š” ์–ธ์–ด ๋ชจ๋ธ๊ณผ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ํ™•์‚ฐ ๋ชจ๋ธ(Diffusion Model)์„ ๋”ฐ๋กœ ๋‘๊ฑฐ๋‚˜, ์–ต์ง€๋กœ ์—ฐ๊ฒฐํ•˜๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์—ฌ ํšจ์œจ์„ฑ์ด ๋–จ์–ด์ง€๊ณ  ํ†ตํ•ฉ๋œ ์ดํ•ด๊ฐ€ ์–ด๋ ค์› ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์–ธ์–ด์™€ ์ด๋ฏธ์ง€๋ฅผ ๋ชจ๋‘ โ€˜์ด์‚ฐ์ ์ธ ํ† ํฐโ€™์œผ๋กœ ํ†ต์ผํ•˜์—ฌ ์ฒ˜๋ฆฌํ•˜๋Š” ํ™•์‚ฐ ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ(dLLM)์„ ์ œ์‹œํ•จ์œผ๋กœ์จ, ์ดํ•ด์™€ ์ƒ์„ฑ์„ ํ•˜๋‚˜์˜ ๋„คํŠธ์›Œํฌ์—์„œ ์™„๋ฒฝํ•˜๊ฒŒ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๊ธธ์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์˜ ๋ณต์žก๋„๋ฅผ ์ค„์ด๋ฉด์„œ๋„ ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€๋ฅผ ์ž์œ ๋กญ๊ฒŒ ์˜ค๊ฐ€๋Š” ์ˆ˜์ค€ ๋†’์€ ํ†ตํ•ฉ ์ง€๋Šฅ์„ ๊ตฌํ˜„ํ–ˆ๋‹ค๋Š” ์ ์—์„œ ํš๊ธฐ์ ์ž…๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ ๋กœ ์„ค๋ช…

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์€ โ€˜๋งŒ๋Šฅ ํ†ต์—ญ์‚ฌโ€™์™€ โ€˜๋ ˆ๊ณ  ์กฐ๋ฆฝโ€™์„ ๊ฒฐํ•ฉํ•œ ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ๋ณดํ†ต ์šฐ๋ฆฌ๋Š” ์ฑ…์„ ์ฝ๋Š” ์‚ฌ๋žŒ(์–ธ์–ด ๋ชจ๋ธ)๊ณผ ๊ทธ๋ฆผ์„ ๊ทธ๋ฆฌ๋Š” ํ™”๊ฐ€(์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ)๊ฐ€ ๋”ฐ๋กœ ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ LLaDA2.0-Uni๋Š” ์„ธ์ƒ์˜ ๋ชจ๋“  ์ •๋ณด๋ฅผ โ€˜๋ ˆ๊ณ  ๋ธ”๋ก(์ด์‚ฐ ํ† ํฐ)โ€˜์ด๋ผ๋Š” ๊ณตํ†ต๋œ ์–ธ์–ด๋กœ ๋ฒˆ์—ญํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋‚˜์„œ ์ด ๋ ˆ๊ณ  ๋ธ”๋ก๋“ค์„ ๋ฌด์ž‘์œ„๋กœ ์„ž์ธ ์ƒํƒœ์—์„œ ์‹œ์ž‘ํ•ด, ์ˆจ๋ฐ”๊ผญ์งˆ์ฒ˜๋Ÿผ ํ•˜๋‚˜์”ฉ ๋งž์ถฐ๊ฐ€๋ฉฐ(original denoising) ์™„์„ฑ๋œ ๊ธ€์ด๋‚˜ ๊ทธ๋ฆผ์„ ๋งŒ๋“ค์–ด๋ƒ…๋‹ˆ๋‹ค. ์ฆ‰, ํ…์ŠคํŠธ๋„ ์ด๋ฏธ์ง€๋„ ๊ฒฐ๊ตญ์—๋Š” โ€˜๋ ˆ๊ณ  ๋ธ”๋กโ€™์„ ์กฐ๋ฆฝํ•˜๋Š” ๊ณผ์ •์ด๋ผ๋Š” ์›๋ฆฌ๋ฅผ ์ด์šฉํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ๋ฐฉ์‹

์ฒซ์งธ, ๋ชจ๋ธ์€ ๋“ค์–ด์˜ค๋Š” ์ด๋ฏธ์ง€๋ฅผ SigLIP-VQ๋ผ๋Š” ๋„๊ตฌ๋ฅผ ํ†ตํ•ด ์ปดํ“จํ„ฐ๊ฐ€ ์ดํ•ดํ•˜๊ธฐ ์‰ฌ์šด ๋””์ง€ํ„ธ ์ฝ”๋“œ๋ถ(์ด์‚ฐ ํ† ํฐ)์œผ๋กœ ๋ฐ”๊ฟ‰๋‹ˆ๋‹ค. ์ด๋Š” ๊ณ ํ•ด์ƒ๋„ ์‚ฌ์ง„์„ ๋ชจ์ž์ดํฌ ๊ฐ™์€ ์ˆซ์ž ๋ฉ์–ด๋ฆฌ๋กœ ์••์ถ•ํ•˜๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. ๋‘˜์งธ, ๋ณ€ํ™˜๋œ ์ด ํ† ํฐ๋“ค์€ MoE(Mixture of Experts) ๊ธฐ๋ฐ˜์˜ ๋ผˆ๋Œ€ ๋ชจ๋ธ๋กœ ๋“ค์–ด๊ฐ‘๋‹ˆ๋‹ค. ์ด๋Š” ์ „๋ฌธ๊ฐ€๋“ค์ด ๋ถ„๋‹ดํ•ด์„œ ๋ฌธ์ œ๋ฅผ ํ‘ธ๋Š” ๊ฒƒ์ฒ˜๋Ÿผ, ํ…์ŠคํŠธ ์ฒ˜๋ฆฌ ์ „๋ฌธ๊ฐ€์™€ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ ์ „๋ฌธ๊ฐ€๊ฐ€ ๊ฐ์ž ๋งก์€ ๋ถ€๋ถ„์„ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์…‹์งธ, ํ™•์‚ฐ ๋””์ฝ”๋”(Diffusion Decoder)๊ฐ€ ๋…ธ์ด์ฆˆ๊ฐ€ ์„ž์ธ ํ† ํฐ๋“ค์„ ๋‹จ๊ณ„์ ์œผ๋กœ ์ •์ œํ•˜์—ฌ, ์šฐ๋ฆฌ๊ฐ€ ๋ณด๋Š” ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ฌธ์žฅ์ด๋‚˜ ์„ ๋ช…ํ•œ ์ด๋ฏธ์ง€๋กœ ๋ณต์›ํ•ด ๋ƒ…๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์ˆ˜์‹๊ณผ ์•Œ๊ณ ๋ฆฌ์ฆ˜

์ด ๋ชจ๋ธ์˜ ํ•ต์‹ฌ์€ ์ด์‚ฐ ํ™•์‚ฐ ๊ณผ์ •(Discrete Diffusion Process)์— ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ์—ฐ์†์ ์ธ ํ™•์‚ฐ๊ณผ ๋‹ฌ๋ฆฌ, ์ด ๋ชจ๋ธ์€ ๋งˆ์Šคํ‚น(Masking) ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„ํ•˜์ž๋ฉด, ์›๋ณธ ๋ฐ์ดํ„ฐ x0๋ฅผ ์‹œ๊ฐ„ ๋‹จ๊ณ„ t๋งˆ๋‹ค ์ผ๋ถ€ ํ† ํฐ์„ [MASK]๋กœ ๊ต์ฒดํ•˜๋Š” ๊ณผ์ •์„ ๊ฑฐ์ณ ๋…ธ์ด์ฆˆ ๋ฐ์ดํ„ฐ xt๋ฅผ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์—ญ์œผ๋กœ ๋ชจ๋ธ์€ xt์—์„œ masked ํ† ํฐ์„ ์˜ˆ์ธกํ•˜์—ฌ ์›๋ž˜์˜ x0๋กœ ๋ณต์›ํ•˜๋Š” ํ™•๋ฅ  P(x_{t-1}|x_t)๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ๋ธ”๋ก ๋ ˆ๋ฒจ์˜ ๋งˆ์Šคํ‚น์„ ์ ์šฉํ•˜์—ฌ ์ฒ˜๋ฆฌ ์†๋„๋ฅผ ๋†’์ด๊ณ  ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์ด ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” MMBench์™€ VQAv2 ๊ฐ™์€ ๋ฒค์น˜๋งˆํฌ์—์„œ ํ…Œ์ŠคํŠธ๋ฅผ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ๊ธฐ์กด์˜ ์ตœ์‹  ๋ชจ๋ธ์ธ LLaVA๋‚˜ ๊ฐ™์€ ๊ณ„์—ด์˜ ๋ชจ๋ธ๋“ค๋ณด๋‹ค ์›”๋“ฑํžˆ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ ์ดํ•ด ๋Šฅ๋ ฅ์—์„œ SOTA(State-of-the-art) ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•˜๋Š” FID(Frechet Inception Distance) ์ง€ํ‘œ์—์„œ๋Š” ๊ธฐ์กด ํ™•์‚ฐ ๋ชจ๋ธ ๋Œ€๋น„ ์ƒ์„ฑ ์†๋„๋Š” ์œ ์ง€ํ•˜๊ฑฐ๋‚˜ ๊ฐœ์„ ํ•˜๋ฉด์„œ๋„, ํ›จ์”ฌ ๋” ํ…์ŠคํŠธ ์˜๋„๋ฅผ ์ž˜ ๋ฐ˜์˜ํ•˜๋Š” ๊ณ ํ’ˆ์งˆ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ํ…์ŠคํŠธ์˜ ์˜๋ฏธ๋ฅผ ๊นŠ์ด ์ดํ•ดํ•˜๊ณ  ๊ทธ๊ฒƒ์„ ์‹œ๊ฐ์  ์š”์†Œ๋กœ ์ •ํ™•ํžˆ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ๋Š” ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ์ž…๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๋“ค์€ ์ด์‚ฐ ํ† ํฐํ™” ๊ณผ์ •์—์„œ ์ด๋ฏธ์ง€์˜ ๋ฏธ์„ธํ•œ ๋””ํ…Œ์ผ์ด ์†์‹ค๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์„ ๊ธฐ์ˆ ์  ํ•œ๊ณ„๋กœ ์–ธ๊ธ‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ ˆ๊ณ  ๋ธ”๋ก์œผ๋กœ ์„ธ๋ฐ€ํ•œ ๊ทธ๋ฆผ์„ ๊ทธ๋ฆฌ๋Š” ๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ๋Š” ๊ฒƒ๊ณผ ๋น„์Šทํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ MoE ๊ตฌ์กฐ ํŠน์„ฑ์ƒ ๋ชจ๋ธ์˜ ํฌ๊ธฐ๊ฐ€ ์ปค์„œ ์šด์˜์— ๋งŽ์€ ๋ฉ”๋ชจ๋ฆฌ ์ž์›์ด ์†Œ๋ชจ๋œ๋‹ค๋Š” ์ ๋„ ์ง€์ ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ๋กœ๋Š” ๋” ๋†’์€ ์••์ถ•์œจ์„ ๊ฐ€์ง€๋ฉด์„œ ๋””ํ…Œ์ผ์„ ๋ณด์กดํ•  ์ˆ˜ ์žˆ๋Š” ํ–ฅ์ƒ๋œ ํ† ํฌ๋‚˜์ด์ € ๊ฐœ๋ฐœ๊ณผ, ๋ชจ๋ธ์˜ ๊ฒฝ๋Ÿ‰ํ™”๋ฅผ ํ†ตํ•ด ๋” ๋„“์€ ๊ธฐ๊ธฐ์—์„œ ๋™์ž‘ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“œ๋Š” ์—ฐ๊ตฌ๊ฐ€ ์ œ์•ˆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์ด ๊ธฐ์ˆ ์€ ์ฑ—๋ด‡๊ณผ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์ด ๊ฒฐํ•ฉ๋œ ํ†ตํ•ฉํ˜• ์ฐฝ์˜ ๋„๊ตฌ์— ์ฆ‰์‹œ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‚ฌ์šฉ์ž๊ฐ€ โ€œ์ด ์‚ฌ์ง„์„ ๋ถ„์„ํ•ด์„œ ๋ถ„์œ„๊ธฐ๊ฐ€ ๋น„์Šทํ•œ ์ƒˆ๋กœ์šด ์ผ๋Ÿฌ์ŠคํŠธ๋ฅผ ๊ทธ๋ ค์ค˜โ€๋ผ๊ณ  ์š”์ฒญํ•˜๋ฉด, ํ•˜๋‚˜์˜ ๋ชจ๋ธ์ด ์ดํ•ด์™€ ์ƒ์„ฑ์„ ๋™์‹œ์— ์ˆ˜ํ–‰ํ•˜๋Š” ์„œ๋น„์Šค๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ, MoE ๊ธฐ๋ฐ˜์˜ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์ด๋ฏ€๋กœ ์„œ๋น„์Šค๋ฅผ ๊ตฌ์ถ•ํ•˜๋ ค๋ฉด ๊ณ ์‚ฌ์–‘์˜ GPU(A100 80GB ์ด์ƒ) ํด๋Ÿฌ์Šคํ„ฐ๊ฐ€ ํ•„์š”ํ•˜๋ฉฐ, ์ถ”๋ก  ์†๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•œ ์ตœ์ ํ™” ์ž‘์—…์ด ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • Discrete Diffusion Model (์—ฐ์†์ ์ธ ๋ฐ์ดํ„ฐ ๋Œ€์‹  ์ด์‚ฐ์ ์ธ ํ† ํฐ ๋‹จ์œ„๋กœ ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ•˜๊ณ  ์ œ๊ฑฐํ•˜๋Š” ์ƒ์„ฑ ๋ชจ๋ธ)
  • Large Language Model (LLM) (๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋˜์–ด ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ)
  • Vector Quantization (VQ) (์—ฐ์†์ ์ธ ๋ฒกํ„ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฏธ๋ฆฌ ์ •์˜๋œ ์ฝ”๋“œ๋ถ์˜ ์ธ๋ฑ์Šค๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์••์ถ•ํ•˜๋Š” ๊ธฐ๋ฒ•)
  • Mixture of Experts (MoE) (์‹ ๊ฒฝ๋ง์˜ ํŠน์ • ๋ถ€๋ถ„์„ ์ „๋ฌธํ™”๋œ ํ•˜์œ„ ๋„คํŠธ์›Œํฌ(์ „๋ฌธ๊ฐ€)๋“ค๋กœ ๊ตฌ์„ฑํ•˜์—ฌ ํšจ์œจ์„ฑ์„ ๋†’์ด๋Š” ๊ตฌ์กฐ)
  • Multimodal Learning (ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค ๋“ฑ ์„œ๋กœ ๋‹ค๋ฅธ ์ข…๋ฅ˜์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ์ฒ˜๋ฆฌํ•˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ ์ ‘๊ทผ๋ฒ•)
  • SigLIP (Sigmoid Loss for Language Image Pre-training) (์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ๋งค์นญํ•˜๋Š” ํ•™์Šต์— ์‹œ๊ทธ๋ชจ์ด๋“œ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ํšจ์œจ์ ์ธ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ)
  • Masked Modeling (๋ฐ์ดํ„ฐ์˜ ์ผ๋ถ€๋ฅผ ๊ฐ€๋ฆฌ๊ณ (Masking), ๋ชจ๋ธ์ด ๊ฐ€๋ ค์ง„ ๋ถ€๋ถ„์„ ์˜ˆ์ธกํ•˜๋„๋ก ํ•™์Šตํ•˜๋Š” ์ž๊ธฐ ์ง€๋„ ํ•™์Šต ๋ฐฉ๋ฒ•)

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Tstars-Tryon 1.0: Robust and Realisโ€ฆDD-072
๐ŸฅˆLLaDA2.0-Uni: Unifying Multimodal Uโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐Ÿฅ‰AgentSPEX: An Agent SPecification aโ€ฆDD-074
4.Extending One-Step Image Generationโ€ฆDD-075
5.OneVL: One-Step Latent Reasoning anโ€ฆDD-076

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-04-26 | ๐Ÿค– GLM-4.7 Deep Dive