โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-075 Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation
arXiv: 2604.18168 ๊ธฐ๊ด: AMAP-ML Upvotes: 94 | Comments: 3 ์์: ์ด๋ฒ ์ฃผ Top 4
๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ MeanFlow์ ๊ฐ์ ์์คํ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ๋ค์ ์ฃผ๋ก โ๊ฐ์์งโ, โ๊ณ ์์ดโ์ ๊ฐ์ ๋จ์ํ ํด๋์ค ๋ ์ด๋ธ(Class Label)๋ง์ ์กฐ๊ฑด์ผ๋ก ์ฌ์ฉํ์ฌ, ๋ณต์กํ ํ ์คํธ ํ๋กฌํํธ๋ฅผ ํตํ ์์ ๋ก์ด ์ฐฝ์์๋ ํ๊ณ๊ฐ ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ MeanFlow ํ๋ ์์ํฌ๋ฅผ ํ์ฅํ์ฌ ๊ฐ๋ ฅํ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ์ ํ ์คํธ ์ธ์ฝ๋๋ฅผ ํตํฉํจ์ผ๋ก์จ, ๋จ ํ ๋ฒ์ ์ถ๋ก ์คํ ๋ง์ผ๋ก๋ ํ ์คํธ๋ฅผ ์ด๋ฏธ์ง๋ก ๋ณํํ ์ ์์์ ์ต์ด๋ก ์ ์ฆํ์ต๋๋ค. ๋์๊ฐ ์์คํ ์์ฑ ํ๊ฒฝ์์ ํ ์คํธ ์ธ์ฝ๋๊ฐ ๊ฐ์ง โ์๋ฏธ์ ๋ถ๋ณ๋ ฅ(Semantic Discriminability)โ๊ณผ โ์๋ฏธ์ ๋น๊ฐ๋ ํ(Semantic Disentanglement)โ์ ์ค์์ฑ์ ๊ท๋ช ํ๊ณ , ์ด๋ฅผ ํตํด ๊ธฐ์กด ๋ณต์ ์คํ ๋ชจ๋ธ๊ณผ ๋๋ฑํ ๋งํ ์ฑ๋ฅ์ ํจ์จ์ ์ผ๋ก ๋ฌ์ฑํ์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ โ์์คํ (One-step) ์์ฑโ์ด๋ผ๋ ๊ทนํ์ ์๋ ์ ์ฝ ์์์ ํ ์คํธ๋ฅผ ์ด๋ฏธ์ง๋ก ์๋ฒฝํ๊ฒ ๋ฒ์ญํ๊ธฐ ์ํด, ์ด๋ค ํ ์คํธ ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ๊ณ ์ด๋ป๊ฒ ํ๋ จํด์ผ ํ๋์ง๋ฅผ ๋ฐํ๋ธ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ์ฝ๊ฒ ์ดํดํ๊ธฐ ์ํด ๋น์ ๋ฅผ ๋ค์ด ์ค๋ช ํด ๋๋ฆฌ๊ฒ ์ต๋๋ค.
์ผ์์ํ ๋น์ : โ์๊ธฐํ๊ฐโ์ โ๋ฒ์ญ๊ธฐโ
๊ธฐ์กด์ ์์ฑ ๋ชจ๋ธ(Diffusion Model ๋ฑ)์ ๊ทธ๋ฆผ์ ๊ทธ๋ฆด ๋ ์์ฃผ ์์ ์ ์ผ๋ก ์ค์ผ์นํ๊ณ , ์์ ์น ํ๊ณ , ์ง์ฐ๊ณ , ๋ค์ ์น ํ๋ ๊ณผ์ ์ ์์ญ ๋ฒ ๋ฐ๋ณตํฉ๋๋ค. ๋ง์น ์๋ฒฝํ ๊ทธ๋ฆผ์ ๊ทธ๋ฆฌ๊ธฐ ์ํด ์ฌ๋ฌ ๋ฒ ์์ ํ๋ ํ๊ฐ์ ๊ฐ์ต๋๋ค. ํ์ง๋ง MeanFlow๋ ๋ถ์ ๋จ ํ ๋ฒ๋ง ๋์ ์์ฑ๋ ๊ทธ๋ฆผ์ ๊ทธ๋ ค์ผ ํ๋ โ์๊ธฐํ๊ฐโ์ ๊ฐ์ต๋๋ค.
์ด ์๊ธฐํ๊ฐ์๊ฒ โ์ค๋ฆฌ๋ค์ด ํธ๋ฅธ ๋ฌผ ์์์ ๋ ๋ค๋๋คโ๋ผ๊ณ ๋งํด์ค ๋, ๋จ์ํ โ์ค๋ฆฌโ๋ผ๊ณ ๋ง ๋งํ๋ฉด ์ฝ๊ฒ ๊ทธ๋ฆด ์ ์์ต๋๋ค. ํ์ง๋ง ๋ฌธ์ฅ์ด ๊ธธ๊ณ ๋ณต์กํด์ง๋ฉด, ์๊ธฐํ๊ฐ๋ ๊ทธ ํ ๋ฒ์ ๋ถ์ง ์์ ๋ชจ๋ ์ธ๋ถ ์ฌํญ์ ๋ด์๋ด์ผ ํ๋ฏ๋ก ์์ฒญ๋ ์๋ฐ์ ๋ฐ์ต๋๋ค. ์ด๋ ์๊ธฐํ๊ฐ์ ๊ท์ ๋ค๋ฆฌ๋ ๋ด์ฉ์ด ๋๋ ทํ๊ณ ๋ช ํํด์ผ ํฉ๋๋ค.
๋ง์ฝ ๋ฒ์ญ๊ธฐ๊ฐ โ์ค๋ฆฌโ์ โ๋ฌผโ์ ๋ป์ ์์ด์ ์์๋ฃ๊ธฐ ์ด๋ ต๊ฒ ์ค๋ช ํ๊ฑฐ๋, ๋ชฉ์๋ฆฌ๊ฐ ์์์ ๋ด์ฉ์ด ํ๋ฆฟํ๋ค๋ฉด ์๊ธฐํ๊ฐ๋ ์ค์๋ฅผ ํ๊ฒ ๋ฉ๋๋ค. ์ฆ, ์์คํ ์์ฑ์์๋ ํ ์คํธ ์ธ์ฝ๋(๋ฒ์ญ๊ธฐ)๊ฐ ๋ชจ๋ธ์๊ฒ ์ ๋ฌํ๋ ์ ๋ณด๊ฐ ๋งค์ฐ ๋๋ ทํ๊ฒ ๊ตฌ๋ถ๋๊ณ (Discriminability), ์๋ก ์์ด์ง ์๊ณ (Disentanglement) ๋ถ๋ฆฌ๋์ด ์์ด์ผ ํฉ๋๋ค. ์ด ๋ ผ๋ฌธ์ ๊ธฐ์กด์ ๋ฐฉ์์ด ์ด โ๋๋ ทํจโ๊ณผ โ๋ถ๋ฆฌ๋จโ์ด ๋ถ์กฑํด ์คํจํ๋ค๋ ์ ์ ์ง์ ํ๊ณ , ๋ ๋๋ํ ๋ฒ์ญ๊ธฐ์ธ LLM ๊ธฐ๋ฐ์ BLIP3o-NEXT ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ต๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
- ํ ์คํธ ์ ๋ ฅ: ์ฌ์ฉ์๊ฐ โ์ค๋ฆฌ๋ค์ด ํธ๋ฅธ ๋ฌผ ์์์ ํ๊ฐ๋กญ๊ฒ ๋ ๋ค๋๋คโ๋ผ๋ ๋ฌธ์ฅ์ ์ ๋ ฅํฉ๋๋ค.
- ๊ฐ๋ ฅํ ์ธ์ฝ๋ฉ: ์ด ํ ์คํธ๋ฅผ ์ผ๋ฐ์ ์ธ CLIP ๋ชจ๋ธ ๋์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ์ ํ ์คํธ ์ธ์ฝ๋๋ฅผ ํต๊ณผ์ํต๋๋ค. ์ด ์ธ์ฝ๋๋ ๋ฌธ์ฅ์ ๊ฐ ์์(์ค๋ฆฌ, ํธ๋ฅธ ๋ฌผ, ํ๊ฐ๋กญ๊ฒ)๋ฅผ ์๋ก ์์ด์ง ์๊ฒ ๊น๋ํ๊ฒ ๋ถ๋ฆฌํด์ ๋ฒกํฐ๋ก ๋ณํํด ์ค๋๋ค. ์ด๊ฒ์ด ๋ฐ๋ก ๋ ผ๋ฌธ์์ ๊ฐ์กฐํ๋ ํ๋ณ์ ํ ์คํธ ํํ(Discriminative Text Representation)์ ๋๋ค.
- ์๋ ์ฅ ์์ธก(Flow Map): MeanFlow ๋ชจ๋ธ์ ๋ ธ์ด์ฆ(๋น ์ข ์ด) ์ํ์์ ์์ฑ๋ ๊ทธ๋ฆผ์ผ๋ก ๊ฐ๊ธฐ ์ํ ์ด๋ ๋ฐฉํฅ๊ณผ ์๋๋ฅผ ํ ๋ฒ์ ๊ณ์ฐํฉ๋๋ค. ์์์ผ๋ก ํํํ๋ฉด ํ์ฌ ์๊ฐ t์์์ ์ํ์์ ๋ชฉํ ์๊ฐ r๋ก ๊ฐ๊ธฐ ์ํ ํ๊ท ์๋ u๋ฅผ ์์ธกํ๋ ๊ฒ์ ๋๋ค.
- ์์คํ ์์ฑ: ์์ธก๋ ์๋(u)๋ฅผ ์ด์ฉํด ๋จ ํ ๋ฒ์ ์ฐ์ฐ์ผ๋ก ๋ ธ์ด์ฆ๋ฅผ ์ต์ข ์ด๋ฏธ์ง๋ก ๋ณํํฉ๋๋ค. ํ ์คํธ ์ ๋ณด๊ฐ ๋๋ ทํ๊ฒ ๋ถ๋ฆฌ๋์ด ์ ๋ฌ๋์๊ธฐ ๋๋ฌธ์, ๋จ ํ ๋ฒ์ ๋ถ์ง๋ก๋ ์ค๋ฆฌ๋ฅผ ๋์น์ง ์๊ณ ์ ํํ ๊ทธ๋ ค๋ผ ์ ์์ต๋๋ค.
ํต์ฌ ์์๊ณผ ์๊ณ ๋ฆฌ์ฆ
์ด ๋ ผ๋ฌธ์ ๊ธฐ๋ฐ์ธ MeanFlow์ ํต์ฌ ์์์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
z_r = z_t + (r - t) * u_theta(z_t, t, r)
์ด ์์์ โ๋ฏธ๋์ ์ด๋ฏธ์ง(z_r)๋ ํ์ฌ ์ด๋ฏธ์ง(z_t)์์ ์๊ฐ ๊ฐ๊ฒฉ(r-t)๋งํผ ์ด๋ ์๋(u_theta)๋ฅผ ๊ณฑํ ๊ฐ์ ๋ํ๋ฉด ๋๋คโ๋ ์๋ฏธ์ ๋๋ค. ๊ธฐ์กด ๋ฐฉ์์ ์ด ์๋๋ฅผ ๊ตฌํ๊ธฐ ์ํด ์์ญ ๋ฒ์ ๊ฑธ์ด๊ฐ๋ฉฐ ๊ณ์ ์์ ํ์ง๋ง, ์ด ๋ ผ๋ฌธ์ ๋ฐฉ์์ ์ฒ์๋ถํฐ ์ ํํ ์๋๋ฅผ ์์ธกํ๋ ค๊ณ ์๋ํฉ๋๋ค.
๋ชจ๋ธ์ ๋ค์ ์์ค ํจ์(Loss Function)๋ฅผ ํตํด ํ์ตํฉ๋๋ค.
L_MF(theta) = E[ || u_theta(z_t, t, r) - sg(u~(z_t, t, r)) ||^2 ]
์ฌ๊ธฐ์ u~๋ ๋ชฉํ๋ก ํ๋ ์ด์์ ์ธ ์๋์ด๋ฉฐ, ๋ชจ๋ธ์ด ์์ธกํ ์๋ u_theta๊ฐ ์ด ๋ชฉํ ์๋์ ์ผ๋ง๋ ๋น์ทํ์ง๋ฅผ ์ธก์ ํ์ฌ ์ค์ฐจ๋ฅผ ์ค์ฌ ๋๊ฐ๋๋ค. sg๋ Stop-gradient์ ์ฝ์๋ก, ํ์ต ๊ณผ์ ์์ ๋ชฉํ ๊ฐ ์์ฒด๋ ์ ๋ฐ์ดํธํ์ง ์๊ณ ๋ชจ๋ธ์ ์์ธก ๊ฐ๋ง ์ ๋ฐ์ดํธํ์ฌ ํ์ต์ ์์ ์ ์ผ๋ก ๋ง๋ญ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ด ๋ ผ๋ฌธ์ ํ ์คํธ๋ฅผ ์ด๋ฏธ์ง๋ก ์์ฑํ๋ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด GenEval๊ณผ DPG-Bench๋ผ๋ ๋ฒค์น๋งํฌ๋ฅผ ์ฌ์ฉํ์ต๋๋ค. GenEval์ ํ ์คํธ์ ์ด๋ฏธ์ง์ ์ผ์น๋๋ฅผ ๊ผผ๊ผผํ ์ธก์ ํ๊ณ , DPG-Bench๋ ๊ธธ๊ณ ๋ณต์กํ ํ๋กฌํํธ๋ฅผ ์ผ๋ง๋ ์ ๋ฐ๋ฅด๋์ง ํ ์คํธํฉ๋๋ค.
๊ธฐ์กด SOTA(State-of-the-art) ๋๋น ์ฑ๋ฅ
๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ ํ(Table 3)์ ๋ฐ๋ฅด๋ฉด, ์ด ๋ ผ๋ฌธ์ ๋ชจ๋ธ(MeanFlow adaptation of BLIP3o-NEXT)์ ๋จ 4์คํ (Step) ์ถ๋ก ๋ง์ผ๋ก๋ ์์ญ ์คํ ์ ์ฌ์ฉํ๋ ๊ฑฐ๋ ๋ชจ๋ธ๋ค๊ณผ ๊ฒฝ์ํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
- GenEval Overall ์ ์: ์ด ๋ ผ๋ฌธ์ ๋ฐฉ์์ ์ฆ๋ฅ(Distilled)๋ ๋ชจ๋ธ ์ค ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๊ธฐ๋กํ์ต๋๋ค. ํนํ ์ ์ฒด์ ์ธ ์ ์(Overall)์์ 0.84๋ฅผ ๊ธฐ๋กํ์ฌ, 50์คํ ์ ์ฌ์ฉํ๋ Seedream 3.0(0.84)๊ณผ ๋์ผํ๊ฑฐ๋ ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, 30์คํ ์ ์ฌ์ฉํ๋ BLIP3o-NEXT(0.91)์ ๋น๊ตํ์ ๋ ์คํ ์๊ฐ ํ๊ธฐ์ ์ผ๋ก ์ ์์๋ ๋ถ๊ตฌํ๊ณ ์ค์ํ ์ฑ๋ฅ์ ๋์ต๋๋ค.
- ์ธ๋ถ ์์ฑ ํ๊ฐ: ์์ ์์น(Color Position)๋ ์์ฑ ๋ถ์ฌ(Color Attribution)์ ๊ฐ์ด ์์คํ ์์ฑ์์ ์ด๋ ค์์ ๊ฒช๋ ์์ญ์์๋ ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ์ํํ๊ฑฐ๋ ๋๋ฑํ ์์น๋ฅผ ๊ธฐ๋กํ์ต๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
๊ฐ์ฅ ์ธ์์ ์ธ ๋ถ๋ถ์ โ์ค๋ฆฌโ ์์์์ ๋ณด์ฌ์ค ์ด๊ธฐ ๋จ๊ณ์ ๊ฒฌ๊ณ ์ฑ(Robustness)์ ๋๋ค. ๊ธฐ์กด ๋ชจ๋ธ์ธ SANA-1.5๋ ์์ฑ ์ด๊ธฐ ์คํ ์์ ์ฃผ์ฒด์ธ โ์ค๋ฆฌโ๋ฅผ ๋์น๊ฑฐ๋ ํ๋ฆฟํ๊ฒ ๊ทธ๋ฆฌ๋ ๋ฐ๋ฉด, ์ด ๋ ผ๋ฌธ์์ ์ ์ํ ๋ฐฉ์์ BLIP3o-NEXT ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ์ด๊ธฐ ๋จ๊ณ๋ถํฐ ์ค๋ฆฌ๋ฅผ ๋ช ํํ๊ฒ ์ก์๋ด๋ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ ํ ์คํธ ํํ์ ์ง์ด ์์คํ ์์ฑ์ ํ์ง์ ๊ฒฐ์ ์ง๋ ๊ฒฐ์ ์ ์์ธ์์ ์ฆ๋ช ํ ๊ฒฐ๊ณผ์ ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ
๋ ผ๋ฌธ์์ ๋ช ์์ ์ผ๋ก ์ธ๊ธ๋ ์น๋ช ์ ์ธ ๊ธฐ์ ์ ๊ฒฐํจ์ ์์ผ๋, ์์คํ ์์ฑ์ด๋ผ๋ ํน์ฑ์ ์์ฃผ ๋ฏธ์ธํ ๋ํ ์ผ์ด๋ ๋ณต์กํ ๊ตฌ๋(composition)๋ฅผ ์๊ตฌํ๋ ๊ทนํ์ ํ๋กฌํํธ์์๋ ์ฌ์ ํ ๋ค์ค ์คํ ๋ชจ๋ธ๋ณด๋ค ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์์์ ์์ํฉ๋๋ค. ๋ํ, LLM ๊ธฐ๋ฐ์ ๊ฑฐ๋ ํ ์คํธ ์ธ์ฝ๋๋ฅผ ํตํฉํด์ผ ํ๋ฏ๋ก ๋ชจ๋ธ ์ ์ฒด์ ์ฐ์ฐ๋์ด๋ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋ ์ธก๋ฉด์์ ์ฌ์ ํ ๊ฐ๋ณ์ง ์๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค.
๊ฐ์ ๊ฐ๋ฅํ ์
ํฅํ ์ฐ๊ตฌ์์๋ ํ ์คํธ ์ธ์ฝ๋์ ์๋ฏธ์ ๋น๊ฐ๋ ํ(Semantic Disentanglement) ์ฑ๋ฅ์ ๋์ฑ ๊ฐํํ๊ฑฐ๋, ๋ ์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๊ฒฝ๋ํ๋ ์ธ์ฝ๋๋ฅผ ๊ฐ๋ฐํ์ฌ ๋ชจ๋ฐ์ผ ๋๋ฐ์ด์ค ๋ฑ์์์ ์ค์๊ฐ ์์ฑ ๊ฐ๋ฅ์ฑ์ ๋์ด๋ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ ์ ์์ต๋๋ค. ๋ํ, ์ด๋ฏธ์ง ์์ฑ๋ฟ๋ง ์๋๋ผ ๋น๋์ค ์์ฑ์ด๋ 3D ์์ฑ์ผ๋ก ์์ญ์ ํ์ฅํ๋ ๊ฒ๋ ์์ฐ์ค๋ฌ์ด ๋ค์ ๋จ๊ณ๊ฐ ๋ ๊ฒ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด๋์ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅ?
์ด ๊ธฐ์ ์ ์ด๋ฏธ์ง ์์ฑ ์๋๊ฐ ๊ฐ์ฅ ์ค์ํ ์ค์๊ฐ ์๋น์ค์ ์ฆ์ ์ ์ฉํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ์ฉ์๊ฐ ํ ์คํธ๋ฅผ ์ ๋ ฅํ๋ ์ฆ์ ์ด๋ฏธ์ง๊ฐ ๋ฏธ๋ฆฌ๋ณด๊ธฐ๋ก ๋ ์ผํ๋ AI ๊ทธ๋ฆผ ์ผ๊ธฐ ์ฑ, ์ค์๊ฐ ๊ฒ์ ๋ด ํ ์ค์ฒ ์์ฑ, ํน์ ๋ฉํ๋ฒ์ค ์๋ฐํ์ ์์์ ์ฆ์ ๋ณ๊ฒฝํ๋ ๋๊ตฌ ๋ฑ์ ํ์ฉ๋ ์ ์์ต๋๋ค. ๋จ 1~4์คํ ๋ง์ผ๋ก ๊ณ ํ์ง ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค์ด๋ด๊ธฐ ๋๋ฌธ์ ์ฌ์ฉ์ ๊ฒฝํ(UX)์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ํ ์ ์์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค (GPU, ๋ฐ์ดํฐ ๋ฑ)
๋ ผ๋ฌธ์ ์คํ ์ค์ ์ ๋ฐ๋ฅด๋ฉด, ํ์ต์ ์ํด์๋ ์ฝ 17๋ง ๊ฐ์ ๊ณ ํ์ง ํ ์คํธ-์ด๋ฏธ์ง ์ ๋ฐ์ดํฐ(BLIP3o-60k, shareGPT-4o ๋ฑ)๊ฐ ํ์ํ์ต๋๋ค. ๋ฐฐ์น ์ฌ์ด์ฆ 128์ผ๋ก 150 ์ํฌํฌ(Epoch) ๋์ ํ์ต์ ์งํํ์ผ๋ฉฐ, ์ด๋ฅผ ์ํด์๋ ๊ณ ์ฌ์ GPU(A100 ์ด์) ํด๋ฌ์คํฐ ํ๊ฒฝ์ด ํ์ํ ๊ฒ์ผ๋ก ์ถ์ ๋ฉ๋๋ค. ๋ค๋ง, ํ์ต์ด ์๋ฃ๋ ๋ชจ๋ธ์ ์ถ๋ก (Inference) ๋จ๊ณ์์ ์ฌ์ฉํ ๋๋ ์คํ ์๊ฐ ํ๊ธฐ์ ์ผ๋ก ์ค์ด๋ค๋ฏ๋ก ์๋์ ์ผ๋ก ์ ์ GPU ๋ฆฌ์์ค๋ก๋ ๋น ๋ฅธ ์๋น์ค๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- Diffusion Model (ํ์ฐ ๋ชจ๋ธ): ์ด๋ฏธ์ง์ ๋ ธ์ด์ฆ๋ฅผ ์ ์ง์ ์ผ๋ก ์ถ๊ฐํ๋ค๊ฐ, ์ด๋ฅผ ๋ฐ๋๋ก ์ ๊ฑฐํ๋ฉด์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ์์ฑ ๋ชจ๋ธ์ ์ผ์ข ์ ๋๋ค. ํ์ฌ ์ด๋ฏธ์ง ์์ฑ์ ์ฃผ๋ฅ ๊ธฐ์ ์ ๋๋ค.
- Flow Matching (ํ๋ก์ฐ ๋งค์นญ): ํ์ฐ ๋ชจ๋ธ๊ณผ ์ ์ฌํ์ง๋ง, ํ๋ฅ ์ ๊ณผ์ ๋์ ์ฐ์์ ์ธ ํ๋ฆ(Flow)์ ํ์ตํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ๋ฐฉ์์ ๋๋ค. ์ํ์ ์ผ๋ก ๋ ์์ ์ ์ด๊ณ ํจ์จ์ ์ ๋๋ค.
- One-Step Generation (์์คํ ์์ฑ): ์์ญ ๋ฒ์ ๋ฐ๋ณต ๊ณผ์ ์์ด ๋จ ํ ๋ฒ์ ์ถ๋ก ๋ง์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๊ธฐ์ ์ ๋๋ค. ์๋๋ ๋งค์ฐ ๋น ๋ฅด์ง๋ง ์ธ๋ฐํ ์ ์ด๊ฐ ์ด๋ ต์ต๋๋ค.
- Text Encoder (ํ ์คํธ ์ธ์ฝ๋): ํ ์คํธ๋ฅผ ์ปดํจํฐ๊ฐ ์ดํดํ ์ ์๋ ์ซ์์ ๋ฒกํฐ๋ก ๋ณํํด์ฃผ๋ ๋ชจ๋ธ์ ๋๋ค. (์: CLIP, T5)
- Semantic Disentanglement (์๋ฏธ์ ๋น๊ฐ๋ ํ): ํ ์คํธ์ ๋ด๊ธด ์ฌ๋ฌ ์๋ฏธ(์: ๋นจ๊ฐ hat, ํ๋ sky)๋ฅผ ์๋ก ์์ด์ง ์๊ณ ๋ ๋ฆฝ์ ์ธ ํน์ง์ผ๋ก ๋ถ๋ฆฌํด์ ํํํ๋ ๋ฅ๋ ฅ์ ๋๋ค.
- LLM (Large Language Model): ๋๊ท๋ชจ์ ํ ์คํธ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ๋ก, ํ ์คํธ์ ๊น์ ์๋ฏธ๋ฅผ ์ดํดํ๋ ๋ฐ ๋ฐ์ด๋ ๋ฅ๋ ฅ์ ๊ฐ์ง๋๋ค.
- ODE (Ordinary Differential Equation): ์๋ฏธ๋ถ ๋ฐฉ์ ์์ผ๋ก, ์๊ฐ์ ๋ฐ๋ฅธ ๋ณํ์จ์ ๋ํ๋ด๋ ์์ ๋๋ค. ์ด ๋ ผ๋ฌธ์์๋ ์ด๋ฏธ์ง๊ฐ ๋ ธ์ด์ฆ์์ ๋ณํด๊ฐ๋ ๊ถค์ ์ ๋ชจ๋ธ๋งํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Tstars-Tryon 1.0: Robust and Realisโฆ | DD-072 |
| ๐ฅ | LLaDA2.0-Uni: Unifying Multimodal Uโฆ | DD-073 |
| ๐ฅ | AgentSPEX: An Agent SPecification aโฆ | DD-074 |
| 4. | Extending One-Step Image Generationโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 5. | OneVL: One-Step Latent Reasoning anโฆ | DD-076 |
๐ ์์ฑ์ผ: 2026-04-26 | ๐ค GLM-4.7 Deep Dive