โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-075 Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation

arXiv: 2604.18168 ๊ธฐ๊ด€: AMAP-ML Upvotes: 94 | Comments: 3 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 4


๋…ผ๋ฌธ ๋ฆฌ๋ทฐ: Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ MeanFlow์™€ ๊ฐ™์€ ์›์Šคํ… ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ๋“ค์€ ์ฃผ๋กœ โ€˜๊ฐ•์•„์ง€โ€™, โ€˜๊ณ ์–‘์ดโ€™์™€ ๊ฐ™์€ ๋‹จ์ˆœํ•œ ํด๋ž˜์Šค ๋ ˆ์ด๋ธ”(Class Label)๋งŒ์„ ์กฐ๊ฑด์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ, ๋ณต์žกํ•œ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋ฅผ ํ†ตํ•œ ์ž์œ ๋กœ์šด ์ฐฝ์ž‘์—๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ MeanFlow ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ™•์žฅํ•˜์—ฌ ๊ฐ•๋ ฅํ•œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ˜์˜ ํ…์ŠคํŠธ ์ธ์ฝ”๋”๋ฅผ ํ†ตํ•ฉํ•จ์œผ๋กœ์จ, ๋‹จ ํ•œ ๋ฒˆ์˜ ์ถ”๋ก  ์Šคํ…๋งŒ์œผ๋กœ๋„ ํ…์ŠคํŠธ๋ฅผ ์ด๋ฏธ์ง€๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ์Œ์„ ์ตœ์ดˆ๋กœ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‚˜์•„๊ฐ€ ์›์Šคํ… ์ƒ์„ฑ ํ™˜๊ฒฝ์—์„œ ํ…์ŠคํŠธ ์ธ์ฝ”๋”๊ฐ€ ๊ฐ€์ง„ โ€˜์˜๋ฏธ์  ๋ถ„๋ณ„๋ ฅ(Semantic Discriminability)โ€˜๊ณผ โ€˜์˜๋ฏธ์  ๋น„๊ฐœ๋…ํ™”(Semantic Disentanglement)โ€˜์˜ ์ค‘์š”์„ฑ์„ ๊ทœ๋ช…ํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด ๋ณต์ˆ˜ ์Šคํ… ๋ชจ๋ธ๊ณผ ๋Œ€๋“ฑํ•  ๋งŒํ•œ ์„ฑ๋Šฅ์„ ํšจ์œจ์ ์œผ๋กœ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์€ โ€˜์›์Šคํ…(One-step) ์ƒ์„ฑโ€™์ด๋ผ๋Š” ๊ทนํ•œ์˜ ์†๋„ ์ œ์•ฝ ์•ˆ์—์„œ ํ…์ŠคํŠธ๋ฅผ ์ด๋ฏธ์ง€๋กœ ์™„๋ฒฝํ•˜๊ฒŒ ๋ฒˆ์—ญํ•˜๊ธฐ ์œ„ํ•ด, ์–ด๋–ค ํ…์ŠคํŠธ ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•˜๊ณ  ์–ด๋–ป๊ฒŒ ํ›ˆ๋ จํ•ด์•ผ ํ•˜๋Š”์ง€๋ฅผ ๋ฐํ˜€๋‚ธ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ๋น„์œ ๋ฅผ ๋“ค์–ด ์„ค๋ช…ํ•ด ๋“œ๋ฆฌ๊ฒ ์Šต๋‹ˆ๋‹ค.

์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€˜์†๊ธฐํ™”๊ฐ€โ€™์™€ โ€˜๋ฒˆ์—ญ๊ธฐโ€™

๊ธฐ์กด์˜ ์ƒ์„ฑ ๋ชจ๋ธ(Diffusion Model ๋“ฑ)์€ ๊ทธ๋ฆผ์„ ๊ทธ๋ฆด ๋•Œ ์•„์ฃผ ์–‡์€ ์„ ์œผ๋กœ ์Šค์ผ€์น˜ํ•˜๊ณ , ์ƒ‰์„ ์น ํ•˜๊ณ , ์ง€์šฐ๊ณ , ๋‹ค์‹œ ์น ํ•˜๋Š” ๊ณผ์ •์„ ์ˆ˜์‹ญ ๋ฒˆ ๋ฐ˜๋ณตํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์น˜ ์™„๋ฒฝํ•œ ๊ทธ๋ฆผ์„ ๊ทธ๋ฆฌ๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ๋ฒˆ ์ˆ˜์ •ํ•˜๋Š” ํ™”๊ฐ€์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ MeanFlow๋Š” ๋ถ“์„ ๋‹จ ํ•œ ๋ฒˆ๋งŒ ๋Œ€์„œ ์™„์„ฑ๋œ ๊ทธ๋ฆผ์„ ๊ทธ๋ ค์•ผ ํ•˜๋Š” โ€˜์†๊ธฐํ™”๊ฐ€โ€™์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.

์ด ์†๊ธฐํ™”๊ฐ€์—๊ฒŒ โ€œ์˜ค๋ฆฌ๋“ค์ด ํ‘ธ๋ฅธ ๋ฌผ ์œ„์—์„œ ๋– ๋‹ค๋‹Œ๋‹คโ€๋ผ๊ณ  ๋งํ•ด์ค„ ๋•Œ, ๋‹จ์ˆœํžˆ โ€œ์˜ค๋ฆฌโ€๋ผ๊ณ ๋งŒ ๋งํ•˜๋ฉด ์‰ฝ๊ฒŒ ๊ทธ๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋ฌธ์žฅ์ด ๊ธธ๊ณ  ๋ณต์žกํ•ด์ง€๋ฉด, ์†๊ธฐํ™”๊ฐ€๋Š” ๊ทธ ํ•œ ๋ฒˆ์˜ ๋ถ“์งˆ ์•ˆ์— ๋ชจ๋“  ์„ธ๋ถ€ ์‚ฌํ•ญ์„ ๋‹ด์•„๋‚ด์•ผ ํ•˜๋ฏ€๋กœ ์—„์ฒญ๋‚œ ์••๋ฐ•์„ ๋ฐ›์Šต๋‹ˆ๋‹ค. ์ด๋•Œ ์†๊ธฐํ™”๊ฐ€์˜ ๊ท€์— ๋“ค๋ฆฌ๋Š” ๋‚ด์šฉ์ด ๋šœ๋ ทํ•˜๊ณ  ๋ช…ํ™•ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

๋งŒ์•ฝ ๋ฒˆ์—ญ๊ธฐ๊ฐ€ โ€œ์˜ค๋ฆฌโ€์™€ โ€œ๋ฌผโ€์˜ ๋œป์„ ์„ž์–ด์„œ ์•Œ์•„๋“ฃ๊ธฐ ์–ด๋ ต๊ฒŒ ์„ค๋ช…ํ•˜๊ฑฐ๋‚˜, ๋ชฉ์†Œ๋ฆฌ๊ฐ€ ์ž‘์•„์„œ ๋‚ด์šฉ์ด ํ๋ฆฟํ•˜๋‹ค๋ฉด ์†๊ธฐํ™”๊ฐ€๋Š” ์‹ค์ˆ˜๋ฅผ ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์›์Šคํ… ์ƒ์„ฑ์—์„œ๋Š” ํ…์ŠคํŠธ ์ธ์ฝ”๋”(๋ฒˆ์—ญ๊ธฐ)๊ฐ€ ๋ชจ๋ธ์—๊ฒŒ ์ „๋‹ฌํ•˜๋Š” ์ •๋ณด๊ฐ€ ๋งค์šฐ ๋šœ๋ ทํ•˜๊ฒŒ ๊ตฌ๋ถ„๋˜๊ณ (Discriminability), ์„œ๋กœ ์„ž์ด์ง€ ์•Š๊ณ (Disentanglement) ๋ถ„๋ฆฌ๋˜์–ด ์žˆ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๊ธฐ์กด์˜ ๋ฐฉ์‹์ด ์ด โ€˜๋šœ๋ ทํ•จโ€™๊ณผ โ€˜๋ถ„๋ฆฌ๋จโ€™์ด ๋ถ€์กฑํ•ด ์‹คํŒจํ–ˆ๋‹ค๋Š” ์ ์„ ์ง€์ ํ•˜๊ณ , ๋” ๋˜‘๋˜‘ํ•œ ๋ฒˆ์—ญ๊ธฐ์ธ LLM ๊ธฐ๋ฐ˜์˜ BLIP3o-NEXT ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ์Šต๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

  1. ํ…์ŠคํŠธ ์ž…๋ ฅ: ์‚ฌ์šฉ์ž๊ฐ€ โ€œ์˜ค๋ฆฌ๋“ค์ด ํ‘ธ๋ฅธ ๋ฌผ ์œ„์—์„œ ํ•œ๊ฐ€๋กญ๊ฒŒ ๋– ๋‹ค๋‹Œ๋‹คโ€๋ผ๋Š” ๋ฌธ์žฅ์„ ์ž…๋ ฅํ•ฉ๋‹ˆ๋‹ค.
  2. ๊ฐ•๋ ฅํ•œ ์ธ์ฝ”๋”ฉ: ์ด ํ…์ŠคํŠธ๋ฅผ ์ผ๋ฐ˜์ ์ธ CLIP ๋ชจ๋ธ ๋Œ€์‹  ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ˜์˜ ํ…์ŠคํŠธ ์ธ์ฝ”๋”๋ฅผ ํ†ต๊ณผ์‹œํ‚ต๋‹ˆ๋‹ค. ์ด ์ธ์ฝ”๋”๋Š” ๋ฌธ์žฅ์˜ ๊ฐ ์š”์†Œ(์˜ค๋ฆฌ, ํ‘ธ๋ฅธ ๋ฌผ, ํ•œ๊ฐ€๋กญ๊ฒŒ)๋ฅผ ์„œ๋กœ ์„ž์ด์ง€ ์•Š๊ฒŒ ๊น”๋”ํ•˜๊ฒŒ ๋ถ„๋ฆฌํ•ด์„œ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•ด ์ค๋‹ˆ๋‹ค. ์ด๊ฒƒ์ด ๋ฐ”๋กœ ๋…ผ๋ฌธ์—์„œ ๊ฐ•์กฐํ•˜๋Š” ํŒ๋ณ„์  ํ…์ŠคํŠธ ํ‘œํ˜„(Discriminative Text Representation)์ž…๋‹ˆ๋‹ค.
  3. ์†๋„ ์žฅ ์˜ˆ์ธก(Flow Map): MeanFlow ๋ชจ๋ธ์€ ๋…ธ์ด์ฆˆ(๋นˆ ์ข…์ด) ์ƒํƒœ์—์„œ ์™„์„ฑ๋œ ๊ทธ๋ฆผ์œผ๋กœ ๊ฐ€๊ธฐ ์œ„ํ•œ ์ด๋™ ๋ฐฉํ–ฅ๊ณผ ์†๋„๋ฅผ ํ•œ ๋ฒˆ์— ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ํ˜„์žฌ ์‹œ๊ฐ„ t์—์„œ์˜ ์ƒํƒœ์—์„œ ๋ชฉํ‘œ ์‹œ๊ฐ„ r๋กœ ๊ฐ€๊ธฐ ์œ„ํ•œ ํ‰๊ท  ์†๋„ u๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
  4. ์›์Šคํ… ์ƒ์„ฑ: ์˜ˆ์ธก๋œ ์†๋„(u)๋ฅผ ์ด์šฉํ•ด ๋‹จ ํ•œ ๋ฒˆ์˜ ์—ฐ์‚ฐ์œผ๋กœ ๋…ธ์ด์ฆˆ๋ฅผ ์ตœ์ข… ์ด๋ฏธ์ง€๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ํ…์ŠคํŠธ ์ •๋ณด๊ฐ€ ๋šœ๋ ทํ•˜๊ฒŒ ๋ถ„๋ฆฌ๋˜์–ด ์ „๋‹ฌ๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์—, ๋‹จ ํ•œ ๋ฒˆ์˜ ๋ถ“์งˆ๋กœ๋„ ์˜ค๋ฆฌ๋ฅผ ๋†“์น˜์ง€ ์•Š๊ณ  ์ •ํ™•ํžˆ ๊ทธ๋ ค๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์ˆ˜์‹๊ณผ ์•Œ๊ณ ๋ฆฌ์ฆ˜

์ด ๋…ผ๋ฌธ์˜ ๊ธฐ๋ฐ˜์ธ MeanFlow์˜ ํ•ต์‹ฌ ์ˆ˜์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

z_r = z_t + (r - t) * u_theta(z_t, t, r)

์ด ์ˆ˜์‹์€ โ€˜๋ฏธ๋ž˜์˜ ์ด๋ฏธ์ง€(z_r)๋Š” ํ˜„์žฌ ์ด๋ฏธ์ง€(z_t)์—์„œ ์‹œ๊ฐ„ ๊ฐ„๊ฒฉ(r-t)๋งŒํผ ์ด๋™ ์†๋„(u_theta)๋ฅผ ๊ณฑํ•œ ๊ฐ’์„ ๋”ํ•˜๋ฉด ๋œ๋‹คโ€™๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹์€ ์ด ์†๋„๋ฅผ ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด ์ˆ˜์‹ญ ๋ฒˆ์„ ๊ฑธ์–ด๊ฐ€๋ฉฐ ๊ณ„์† ์ˆ˜์ •ํ–ˆ์ง€๋งŒ, ์ด ๋…ผ๋ฌธ์˜ ๋ฐฉ์‹์€ ์ฒ˜์Œ๋ถ€ํ„ฐ ์ •ํ™•ํ•œ ์†๋„๋ฅผ ์˜ˆ์ธกํ•˜๋ ค๊ณ  ์‹œ๋„ํ•ฉ๋‹ˆ๋‹ค.

๋ชจ๋ธ์€ ๋‹ค์Œ ์†์‹ค ํ•จ์ˆ˜(Loss Function)๋ฅผ ํ†ตํ•ด ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

L_MF(theta) = E[ || u_theta(z_t, t, r) - sg(u~(z_t, t, r)) ||^2 ]

์—ฌ๊ธฐ์„œ u~๋Š” ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ์ด์ƒ์ ์ธ ์†๋„์ด๋ฉฐ, ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ์†๋„ u_theta๊ฐ€ ์ด ๋ชฉํ‘œ ์†๋„์™€ ์–ผ๋งˆ๋‚˜ ๋น„์Šทํ•œ์ง€๋ฅผ ์ธก์ •ํ•˜์—ฌ ์˜ค์ฐจ๋ฅผ ์ค„์—ฌ ๋‚˜๊ฐ‘๋‹ˆ๋‹ค. sg๋Š” Stop-gradient์˜ ์•ฝ์ž๋กœ, ํ•™์Šต ๊ณผ์ •์—์„œ ๋ชฉํ‘œ ๊ฐ’ ์ž์ฒด๋Š” ์—…๋ฐ์ดํŠธํ•˜์ง€ ์•Š๊ณ  ๋ชจ๋ธ์˜ ์˜ˆ์ธก ๊ฐ’๋งŒ ์—…๋ฐ์ดํŠธํ•˜์—ฌ ํ•™์Šต์„ ์•ˆ์ •์ ์œผ๋กœ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์ด ๋…ผ๋ฌธ์€ ํ…์ŠคํŠธ๋ฅผ ์ด๋ฏธ์ง€๋กœ ์ƒ์„ฑํ•˜๋Š” ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด GenEval๊ณผ DPG-Bench๋ผ๋Š” ๋ฒค์น˜๋งˆํฌ๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. GenEval์€ ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€์˜ ์ผ์น˜๋„๋ฅผ ๊ผผ๊ผผํžˆ ์ธก์ •ํ•˜๊ณ , DPG-Bench๋Š” ๊ธธ๊ณ  ๋ณต์žกํ•œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ๋”ฐ๋ฅด๋Š”์ง€ ํ…Œ์ŠคํŠธํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ์กด SOTA(State-of-the-art) ๋Œ€๋น„ ์„ฑ๋Šฅ

๋…ผ๋ฌธ์˜ ๊ฒฐ๊ณผ ํ‘œ(Table 3)์— ๋”ฐ๋ฅด๋ฉด, ์ด ๋…ผ๋ฌธ์˜ ๋ชจ๋ธ(MeanFlow adaptation of BLIP3o-NEXT)์€ ๋‹จ 4์Šคํ…(Step) ์ถ”๋ก ๋งŒ์œผ๋กœ๋„ ์ˆ˜์‹ญ ์Šคํ…์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฑฐ๋Œ€ ๋ชจ๋ธ๋“ค๊ณผ ๊ฒฝ์Ÿํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

  • GenEval Overall ์ ์ˆ˜: ์ด ๋…ผ๋ฌธ์˜ ๋ฐฉ์‹์€ ์ฆ๋ฅ˜(Distilled)๋œ ๋ชจ๋ธ ์ค‘ ๊ฐ€์žฅ ๋†’์€ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ „์ฒด์ ์ธ ์ ์ˆ˜(Overall)์—์„œ 0.84๋ฅผ ๊ธฐ๋กํ•˜์—ฌ, 50์Šคํ…์„ ์‚ฌ์šฉํ•˜๋Š” Seedream 3.0(0.84)๊ณผ ๋™์ผํ•˜๊ฑฐ๋‚˜ ๋” ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, 30์Šคํ…์„ ์‚ฌ์šฉํ•˜๋Š” BLIP3o-NEXT(0.91)์™€ ๋น„๊ตํ–ˆ์„ ๋•Œ ์Šคํ… ์ˆ˜๊ฐ€ ํš๊ธฐ์ ์œผ๋กœ ์ ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ค€์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ƒˆ์Šต๋‹ˆ๋‹ค.
  • ์„ธ๋ถ€ ์†์„ฑ ํ‰๊ฐ€: ์ƒ‰์ƒ ์œ„์น˜(Color Position)๋‚˜ ์†์„ฑ ๋ถ€์—ฌ(Color Attribution)์™€ ๊ฐ™์ด ์›์Šคํ… ์ƒ์„ฑ์—์„œ ์–ด๋ ค์›€์„ ๊ฒช๋Š” ์˜์—ญ์—์„œ๋„ ๊ธฐ์กด ๋ชจ๋ธ๋“ค์„ ์ƒํšŒํ•˜๊ฑฐ๋‚˜ ๋Œ€๋“ฑํ•œ ์ˆ˜์น˜๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

๊ฐ€์žฅ ์ธ์ƒ์ ์ธ ๋ถ€๋ถ„์€ โ€˜์˜ค๋ฆฌโ€™ ์˜ˆ์‹œ์—์„œ ๋ณด์—ฌ์ค€ ์ดˆ๊ธฐ ๋‹จ๊ณ„์˜ ๊ฒฌ๊ณ ์„ฑ(Robustness)์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ชจ๋ธ์ธ SANA-1.5๋Š” ์ƒ์„ฑ ์ดˆ๊ธฐ ์Šคํ…์—์„œ ์ฃผ์ฒด์ธ โ€˜์˜ค๋ฆฌโ€™๋ฅผ ๋†“์น˜๊ฑฐ๋‚˜ ํ๋ฆฟํ•˜๊ฒŒ ๊ทธ๋ฆฌ๋Š” ๋ฐ˜๋ฉด, ์ด ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•œ ๋ฐฉ์‹์€ BLIP3o-NEXT ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ดˆ๊ธฐ ๋‹จ๊ณ„๋ถ€ํ„ฐ ์˜ค๋ฆฌ๋ฅผ ๋ช…ํ™•ํ•˜๊ฒŒ ์žก์•„๋‚ด๋Š” ๋ชจ์Šต์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ…์ŠคํŠธ ํ‘œํ˜„์˜ ์งˆ์ด ์›์Šคํ… ์ƒ์„ฑ์˜ ํ’ˆ์งˆ์„ ๊ฒฐ์ •์ง“๋Š” ๊ฒฐ์ •์  ์š”์ธ์ž„์„ ์ฆ๋ช…ํ•œ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„

๋…ผ๋ฌธ์—์„œ ๋ช…์‹œ์ ์œผ๋กœ ์–ธ๊ธ‰๋œ ์น˜๋ช…์ ์ธ ๊ธฐ์ˆ ์  ๊ฒฐํ•จ์€ ์—†์œผ๋‚˜, ์›์Šคํ… ์ƒ์„ฑ์ด๋ผ๋Š” ํŠน์„ฑ์ƒ ์•„์ฃผ ๋ฏธ์„ธํ•œ ๋””ํ…Œ์ผ์ด๋‚˜ ๋ณต์žกํ•œ ๊ตฌ๋„(composition)๋ฅผ ์š”๊ตฌํ•˜๋Š” ๊ทนํ•œ์˜ ํ”„๋กฌํ”„ํŠธ์—์„œ๋Š” ์—ฌ์ „ํžˆ ๋‹ค์ค‘ ์Šคํ… ๋ชจ๋ธ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์Œ์„ ์•”์‹œํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, LLM ๊ธฐ๋ฐ˜์˜ ๊ฑฐ๋Œ€ ํ…์ŠคํŠธ ์ธ์ฝ”๋”๋ฅผ ํ†ตํ•ฉํ•ด์•ผ ํ•˜๋ฏ€๋กœ ๋ชจ๋ธ ์ „์ฒด์˜ ์—ฐ์‚ฐ๋Ÿ‰์ด๋‚˜ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰ ์ธก๋ฉด์—์„œ ์—ฌ์ „ํžˆ ๊ฐ€๋ณ์ง€ ์•Š๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅํ•œ ์ 

ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ํ…์ŠคํŠธ ์ธ์ฝ”๋”์˜ ์˜๋ฏธ์  ๋น„๊ฐœ๋…ํ™”(Semantic Disentanglement) ์„ฑ๋Šฅ์„ ๋”์šฑ ๊ฐ•ํ™”ํ•˜๊ฑฐ๋‚˜, ๋” ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ๊ฒฝ๋Ÿ‰ํ™”๋œ ์ธ์ฝ”๋”๋ฅผ ๊ฐœ๋ฐœํ•˜์—ฌ ๋ชจ๋ฐ”์ผ ๋””๋ฐ”์ด์Šค ๋“ฑ์—์„œ์˜ ์‹ค์‹œ๊ฐ„ ์ƒ์„ฑ ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์ด๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋‚˜์•„๊ฐˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ด๋ฏธ์ง€ ์ƒ์„ฑ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋น„๋””์˜ค ์ƒ์„ฑ์ด๋‚˜ 3D ์ƒ์„ฑ์œผ๋กœ ์˜์—ญ์„ ํ™•์žฅํ•˜๋Š” ๊ฒƒ๋„ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋‹ค์Œ ๋‹จ๊ณ„๊ฐ€ ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์–ด๋””์— ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅ?

์ด ๊ธฐ์ˆ ์€ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ์†๋„๊ฐ€ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์‹ค์‹œ๊ฐ„ ์„œ๋น„์Šค์— ์ฆ‰์‹œ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‚ฌ์šฉ์ž๊ฐ€ ํ…์ŠคํŠธ๋ฅผ ์ž…๋ ฅํ•˜๋Š” ์ฆ‰์‹œ ์ด๋ฏธ์ง€๊ฐ€ ๋ฏธ๋ฆฌ๋ณด๊ธฐ๋กœ ๋– ์•ผํ•˜๋Š” AI ๊ทธ๋ฆผ ์ผ๊ธฐ ์•ฑ, ์‹ค์‹œ๊ฐ„ ๊ฒŒ์ž„ ๋‚ด ํ…์Šค์ฒ˜ ์ƒ์„ฑ, ํ˜น์€ ๋ฉ”ํƒ€๋ฒ„์Šค ์•„๋ฐ”ํƒ€์˜ ์˜์ƒ์„ ์ฆ‰์‹œ ๋ณ€๊ฒฝํ•˜๋Š” ๋„๊ตฌ ๋“ฑ์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹จ 1~4์Šคํ…๋งŒ์œผ๋กœ ๊ณ ํ’ˆ์งˆ ์ด๋ฏธ์ง€๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๊ธฐ ๋•Œ๋ฌธ์— ์‚ฌ์šฉ์ž ๊ฒฝํ—˜(UX)์„ ํš๊ธฐ์ ์œผ๋กœ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค (GPU, ๋ฐ์ดํ„ฐ ๋“ฑ)

๋…ผ๋ฌธ์˜ ์‹คํ—˜ ์„ค์ •์— ๋”ฐ๋ฅด๋ฉด, ํ•™์Šต์„ ์œ„ํ•ด์„œ๋Š” ์•ฝ 17๋งŒ ๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ์Œ ๋ฐ์ดํ„ฐ(BLIP3o-60k, shareGPT-4o ๋“ฑ)๊ฐ€ ํ•„์š”ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฐฐ์น˜ ์‚ฌ์ด์ฆˆ 128์œผ๋กœ 150 ์—ํฌํฌ(Epoch) ๋™์•ˆ ํ•™์Šต์„ ์ง„ํ–‰ํ–ˆ์œผ๋ฉฐ, ์ด๋ฅผ ์œ„ํ•ด์„œ๋Š” ๊ณ ์‚ฌ์–‘ GPU(A100 ์ด์ƒ) ํด๋Ÿฌ์Šคํ„ฐ ํ™˜๊ฒฝ์ด ํ•„์š”ํ•  ๊ฒƒ์œผ๋กœ ์ถ”์ •๋ฉ๋‹ˆ๋‹ค. ๋‹ค๋งŒ, ํ•™์Šต์ด ์™„๋ฃŒ๋œ ๋ชจ๋ธ์„ ์ถ”๋ก (Inference) ๋‹จ๊ณ„์—์„œ ์‚ฌ์šฉํ•  ๋•Œ๋Š” ์Šคํ… ์ˆ˜๊ฐ€ ํš๊ธฐ์ ์œผ๋กœ ์ค„์–ด๋“ค๋ฏ€๋กœ ์ƒ๋Œ€์ ์œผ๋กœ ์ ์€ GPU ๋ฆฌ์†Œ์Šค๋กœ๋„ ๋น ๋ฅธ ์„œ๋น„์Šค๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • Diffusion Model (ํ™•์‚ฐ ๋ชจ๋ธ): ์ด๋ฏธ์ง€์— ๋…ธ์ด์ฆˆ๋ฅผ ์ ์ง„์ ์œผ๋กœ ์ถ”๊ฐ€ํ–ˆ๋‹ค๊ฐ€, ์ด๋ฅผ ๋ฐ˜๋Œ€๋กœ ์ œ๊ฑฐํ•˜๋ฉด์„œ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ƒ์„ฑ ๋ชจ๋ธ์˜ ์ผ์ข…์ž…๋‹ˆ๋‹ค. ํ˜„์žฌ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์˜ ์ฃผ๋ฅ˜ ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.
  • Flow Matching (ํ”Œ๋กœ์šฐ ๋งค์นญ): ํ™•์‚ฐ ๋ชจ๋ธ๊ณผ ์œ ์‚ฌํ•˜์ง€๋งŒ, ํ™•๋ฅ ์  ๊ณผ์ • ๋Œ€์‹  ์—ฐ์†์ ์ธ ํ๋ฆ„(Flow)์„ ํ•™์Šตํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ˆ˜ํ•™์ ์œผ๋กœ ๋” ์•ˆ์ •์ ์ด๊ณ  ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.
  • One-Step Generation (์›์Šคํ… ์ƒ์„ฑ): ์ˆ˜์‹ญ ๋ฒˆ์˜ ๋ฐ˜๋ณต ๊ณผ์ • ์—†์ด ๋‹จ ํ•œ ๋ฒˆ์˜ ์ถ”๋ก ๋งŒ์œผ๋กœ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค. ์†๋„๋Š” ๋งค์šฐ ๋น ๋ฅด์ง€๋งŒ ์„ธ๋ฐ€ํ•œ ์ œ์–ด๊ฐ€ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.
  • Text Encoder (ํ…์ŠคํŠธ ์ธ์ฝ”๋”): ํ…์ŠคํŠธ๋ฅผ ์ปดํ“จํ„ฐ๊ฐ€ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ์ˆซ์ž์˜ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•ด์ฃผ๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. (์˜ˆ: CLIP, T5)
  • Semantic Disentanglement (์˜๋ฏธ์  ๋น„๊ฐœ๋…ํ™”): ํ…์ŠคํŠธ์— ๋‹ด๊ธด ์—ฌ๋Ÿฌ ์˜๋ฏธ(์˜ˆ: ๋นจ๊ฐ„ hat, ํŒŒ๋ž€ sky)๋ฅผ ์„œ๋กœ ์„ž์ด์ง€ ์•Š๊ณ  ๋…๋ฆฝ์ ์ธ ํŠน์ง•์œผ๋กœ ๋ถ„๋ฆฌํ•ด์„œ ํ‘œํ˜„ํ•˜๋Š” ๋Šฅ๋ ฅ์ž…๋‹ˆ๋‹ค.
  • LLM (Large Language Model): ๋Œ€๊ทœ๋ชจ์˜ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ ํ•™์Šต๋œ ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ๋กœ, ํ…์ŠคํŠธ์˜ ๊นŠ์€ ์˜๋ฏธ๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋›ฐ์–ด๋‚œ ๋Šฅ๋ ฅ์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค.
  • ODE (Ordinary Differential Equation): ์ƒ๋ฏธ๋ถ„ ๋ฐฉ์ •์‹์œผ๋กœ, ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ๋ณ€ํ™”์œจ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์‹์ž…๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ์ด๋ฏธ์ง€๊ฐ€ ๋…ธ์ด์ฆˆ์—์„œ ๋ณ€ํ•ด๊ฐ€๋Š” ๊ถค์ ์„ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Tstars-Tryon 1.0: Robust and Realisโ€ฆDD-072
๐ŸฅˆLLaDA2.0-Uni: Unifying Multimodal Uโ€ฆDD-073
๐Ÿฅ‰AgentSPEX: An Agent SPecification aโ€ฆDD-074
4.Extending One-Step Image Generationโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
5.OneVL: One-Step Latent Reasoning anโ€ฆDD-076

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-04-26 | ๐Ÿค– GLM-4.7 Deep Dive