โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-097 Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players
arXiv: 2605.28816 ๊ธฐ๊ด: NVIDIA Upvotes: 404 | Comments: 2 ์์: ์ด๋ฒ ์ฃผ Top 1
๋ ผ๋ฌธ ๋ถ์: Gamma-World
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๋น๋์ค ์์ฑ ์๋ ๋ชจ๋ธ(World Model) ๋๋ถ๋ถ์ ๋จ์ผ ์์ด์ ํธ์ ์ง์คํ์ฌ, ์ฌ๋ฌ ์ฃผ์ฒด๊ฐ ์ํธ์์ฉํ๋ ๋ณต์กํ ํ๊ฒฝ์ ๋ชจ์ํ๋ ๋ฐ์๋ ํ๊ณ๊ฐ ์์์ต๋๋ค. ํนํ ์ ํ ์ฐ๊ตฌ๋ค์ ์์ด์ ํธ ์๊ฐ ๋์ด๋ ๊ฒฝ์ฐ ๊ณ์ฐ ๋น์ฉ์ด ๊ธ๊ฒฉํ ์ฆ๊ฐํ๋ ๋ฌธ์ ์, ํน์ ์ธ์์๊ฒ ๊ณ ์ ๋ ํ์ต ์๋ฒ ๋ฉ์ ์ฌ์ฉํ์ฌ ์ ์ฐ์ฑ์ด ๋จ์ด์ง๋ ๊ตฌ์กฐ์ ๊ฒฐํจ์ ์๊ณ ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋ค์ค ์์ด์ ํธ ํ๊ฒฝ์์ ๊ณ์ฐ ํจ์จ์ ์ ํ์ผ๋ก ์ ์งํ๋ฉด์๋ ์์ด์ ํธ ๊ฐ ์์์ ๊ตฌ์ ๋ฐ์ง ์๋ ๋์นญ์ฑ์ ํ๋ณดํ ์๋ก์ด ์ํคํ ์ฒ๋ฅผ ์ ์ํ์ฌ, ์ค์ ๊ฒ์์ด๋ ๋ก๋ด ๊ตฐ์ง ์๋ฎฌ๋ ์ด์ ๋ฑ ์ค์ฉ์ ํ์ฅ์ฑ์ ํ๋ณดํ๋ค๋ ์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : โ๋๊ทธ๋ ํ์ ํ์โ์ โ์ค์ ๊ฒ์ํโ
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ์ฌ๋ฌ ๋ช ์ด ๋์์ ์์ง์ด๋ ์์์ ๋ง๋ค์ด๋ด๋ ๊ฒ์ ๋๋ค. ๊ธฐ์กด ๋ฐฉ์์ ๋ง์น ํ์์ค์ ์๋ ์ฌ๋๋ค์ด ์๋ก ๊ท์๋ง์ ํ๋ ค๊ณ ์ ๋ถ ๋ค์์ฌ ์ํค๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค(๋ฐ์ง ์ดํ ์ , Dense Joint Attention). ์ฌ๋์ด ๋ ๋ช ์ผ ๋๋ ๊ด์ฐฎ์ง๋ง ์ด ๋ช ์ด ๋๋ฉด ํต์ ๊ฐ ๋ถ๊ฐ๋ฅํด์ง๋๋ค.
Gamma-World๋ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ ๊ฐ์ง ๋ ์ฐฝ์ ์ธ ๋ฐฉ๋ฒ์ ์๋๋ค. ์ฒซ์งธ, โ์ฌํ๋ ์ค ํ์ ์ธ์ฝ๋ฉ(Simplex Rotary Agent Encoding)โ์ ๋ชจ๋ ์ฐธ๊ฐ์๋ฅผ ๊ฑฐ๋ฆฌ๊ฐ ๋๊ฐ์ด ๋จ์ด์ง ์ ๋ค๊ฐํ(์ผ๊ฐํ, ์ฌ๋ฉด์ฒด ๋ฑ)์ ๊ผญ์ง์ ์ ๋ฐฐ์นํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋๊ฐ 1๋ฒ ์๋ฆฌ์ ์์๋์ง๋ ์ค์ํ์ง ์๊ฒ ๋๋ฉฐ(๋์นญ์ฑ), ๋ชจ๋๊ฐ ๋๊ฐ์ ๊ถํ์ ๊ฐ์ง๋ฉด์๋ ์๋ก๋ฅผ ๊ตฌ๋ณํ ์ ์์ต๋๋ค(๊ณ ์ ํ ์์). ๋์งธ, โํฌ์ ํ๋ธ ์ดํ ์ (Sparse Hub Self-Attention)โ์ ๋ชจ๋๊ฐ ์๋ก ๋ ๋ค์ง ์๊ณ , ์ค์์ ์๋ โ๊ฒ์ํ(Hub)โ์๋ง ๋ฉ์์ง๋ฅผ ๋จ๊ธฐ๊ณ ์ฝ๋ ๋ฐฉ์์ ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์ฌ๋์ด ์๋ฌด๋ฆฌ ๋ง์์ ธ๋ ๊ฒ์ํ์ ๋ณด๋ ํ์๋ง ๋์ด๋๊ธฐ ๋๋ฌธ์ ํผ๋์ด ์๊ณ ์๋๋ ๋น ๋ฆ ๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
- ์ ๋ ฅ ๋ฐ ํ ํฐํ: ์ฌ๋ฌ ์์ด์ ํธ(ํ๋ ์ด์ด)๊ฐ ์์ ์์ ๋ณธ ๊ณผ๊ฑฐ ์์๊ณผ ํ๋ ์ ๋ณด๋ฅผ ๋ฐ์์ ์์ ์กฐ๊ฐ(Patch)์ผ๋ก ๋๋๊ณ ๋ฒกํฐ๋ก ๋ณํํฉ๋๋ค.
- ์์ ๋ถ์ฌ (Simplex RoPE): ๊ฐ ์์ด์ ํธ์ ์ ๋ณด์ ๊ณ ์ฐจ์ ํ์ ๋ณํ์ ์ ์ฉํฉ๋๋ค. ์ด๋ ๋จ์ํ 1, 2, 3 ์์๊ฐ ์๋๋ผ, ๋ชจ๋ ์์ด์ ํธ๊ฐ ์๋ก ๋๋ฑํ ๊ฑฐ๋ฆฌ๋ฅผ ์ ์งํ๋ โ์ ๋จ์ฒด(Regular Simplex)โ ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์ ๊ฐ์ ๋ถ์ฌํฉ๋๋ค. ์ด๋ ํ์ต๋ ID ์์ด๋ ๋๊ฐ ๋๊ตฌ์ธ์ง ์ํ์ ์ผ๋ก ๊ตฌ๋ถํ๊ฒ ํด์ค๋๋ค.
- ์ ๋ณด ๊ตํ (Sparse Hub Attention): ์์ด์ ํธ๋ค์ ์๋ก ์ง์ ๊ด๊ณ๋ฅผ ๋งบ๋ ๋์ โํ๋ธโ๋ผ๋ ์ค์ ๋งค๊ฐ์ฒด๋ฅผ ํตํด์๋ง ์ ๋ณด๋ฅผ ๊ตํํฉ๋๋ค. ์ด ๊ณผ์ ์์ ๋ง์คํน์ ์ฌ์ฉํ์ฌ ๋ฏธ๋์ ์ ๋ณด๋ฅผ ์ฟ๋ณด์ง ๋ชปํ๊ฒ ํฉ๋๋ค(Causal).
- ์์ฑ (DiT): ์ด๋ ๊ฒ ์ ๋ฆฌ๋ ์ ๋ณด๋ฅผ ํ์ฐ ํธ๋์คํฌ๋จธ(Diffusion Transformer)์ ๋ฃ์ด, ๋ค์ ์๊ฐ์ ๊ฐ ์์ด์ ํธ๊ฐ ๋ณด๊ฒ ๋ ์์์ ๋์์ ์์ฑํด๋ ๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ: Simplex Rotary Agent Encoding
์ด ๋ ผ๋ฌธ์ ์ํ์ ํ์ด๋ผ์ดํธ๋ RoPE(Rotary Positional Embedding)๋ฅผ ๋ค์ค ์์ด์ ํธ ํ๊ฒฝ์ผ๋ก ํ์ฅํ ๊ฒ์ ๋๋ค. ๊ธฐ์กด RoPE๊ฐ ์ํ์ค์ ์์๋ฅผ ํ์ ๊ฐ๋๋ก ํํํ๋ค๋ฉด, ์ด ๋ฐฉ์์ ์์ด์ ํธ์ ID๋ฅผ ๊ณ ์ฐจ์ ๊ณต๊ฐไธ็ ์ ๋จ์ฒด์ ๊ผญ์ง์ ์ขํ๋ก ํํํฉ๋๋ค.
์ด๋ ๋ชจ๋ ์์ด์ ํธ ์ ์ฌ์ด์ ๋ด์ ์ด ์ผ์ ํ๋๋ก ์ค๊ณ๋์ด, ๋ชจ๋ธ์ด ์์ด์ ํธ์ ์์(Permutation)๋ฅผ ๋ฐ๊ฟ๋ ๊ฒฐ๊ณผ๊ฐ ๋ฌ๋ผ์ง์ง ์๋๋ก ๋ณด์ฅํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
๋ฒค์น๋งํฌ ๋ฐ ๋น๊ต ๋์
์ ์๋ค์ ์ฃผ๋ก ํ๋ ๋ฐ ๊ฒฝ์์ด ํ์ํ ๋ฉํฐํ๋ ์ด์ด ํ๊ฒฝ(์: Overcooked ๊ฐ์ ํ๋ ๊ฒ์ ์๋ฎฌ๋ ์ด์ ์ด๋ ๋ก๋ด ํ ๋งค๋ํฐ๋ ์ด์ ํ๊ฒฝ)์์ ๋ชจ๋ธ์ ํ ์คํธํ์ต๋๋ค. ๋น๊ต ๋์์ ๊ธฐ์กด์ ๋ฉํฐํ๋ ์ด์ด ๋ชจ๋ธ์ธ Solaris๋ฅผ ํฌํจํ์ฌ ๋จ์ผ ์์ด์ ํธ ๋ชจ๋ธ์ ํ์ฅํ Baseline๋ค์ ์ฌ์ฉํ์ต๋๋ค.
์ฑ๋ฅ ํฅ์ ์์น
๋ ผ๋ฌธ์ ์ ๋์ ์ธ ์งํ๋ก FVD(Frรฉchet Video Distance)๋ฅผ ์ฌ์ฉํ์ฌ ์์์ ํ์ง์ ์ธก์ ํ์ผ๋ฉฐ, ๊ณ์ฐ ํจ์จ์ฑ์ FLOPs(๋ถ๋์์์ ์ฐ์ฐ ํ์)๋ก ์ธก์ ํ์ต๋๋ค.
- ๊ณ์ฐ ๋ณต์ก๋: ๊ธฐ์กด Solaris ๋ชจ๋ธ์ ์์ด์ ํธ ์(P)๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๋น์ฉ์ด ์ ๊ณฑ(P^2)์ผ๋ก ์ฆ๊ฐํ์ฌ 4๋ช ์ด์์์๋ ์ค์๊ฐ ์ถ๋ก ์ด ์ฌ์ค์ ๋ถ๊ฐ๋ฅํ์ต๋๋ค. ๋ฐ๋ฉด Gamma-World๋ ํ๋ธ ์ดํ ์ ๋๋ถ์ ๋น์ฉ์ด ์ ํ(P)์ผ๋ก ์ฆ๊ฐํ์ฌ, 4๋ช , 8๋ช ์ฌ์ง์ด ๊ทธ ์ด์์ ์์ด์ ํธ์์๋ ์ค์๊ฐ ์ฑ๋ฅ์ ์ ์งํ์ต๋๋ค.
- ์ผ๊ด์ฑ ๋ฐ ํ์ง: ์์ด์ ํธ ์๊ฐ ๋์ด๋๋ ๊ธฐ์กด ๋ชจ๋ธ๊ณผ ๋น์ทํ๊ฑฐ๋ ๋ ๋์ ์์ค์ ์์ ํ์ง(FVD)์ ๋ณด์์ผ๋ฉฐ, ํนํ ์๋ก ๋ค๋ฅธ ์์ ์์ ๋ฌผ์ฒด์ ์์น๊ฐ ์ผ์นํ๋ โ๊ด์ ๊ฐ ์ผ๊ด์ฑโ ์ธก๋ฉด์์ ์ฐ์ํ ์ฑ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
๊ฐ์ฅ ์ธ์์ ์ธ ์ ์ ํ์ต๋ ID ์๋ฒ ๋ฉ์ ์ ํ ์ฌ์ฉํ์ง ์๊ณ ๋ ์ํ์ ๊ตฌ์กฐ๋ง์ผ๋ก ์ฌ๋ฌ ์์ด์ ํธ๋ฅผ ์๋ฒฝํ๊ฒ ๋ถ๋ฆฌํด์ ์ ์ดํ ์ ์๋ค๋ ์ ์ ๋๋ค. ์ด๋ ํ์ต ๋ฐ์ดํฐ์ ์๋ ์๋ก์ด ์์ ์์ด์ ํธ(์: 3๋ช ์ผ๋ก ํ์ตํ๊ณ 5๋ช ์ผ๋ก ์ถ๋ก )์๊ฒ๋ ๋ชจ๋ธ์ ์ฝ๊ฒ ์ผ๋ฐํ ์ ์ฉํ ์ ์์์ ์์ฌํฉ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ
ํ๋ธ ๊ธฐ๋ฐ์ ์ดํ ์ ๊ตฌ์กฐ๋ ํจ์จ์ ์ด์ง๋ง, ํ๋ธ ํ ํฐ ํ๋๊ฐ ๋ชจ๋ ์ ๋ณด๋ฅผ ์์ถํด์ ์ ๋ฌํด์ผ ํ๋ฏ๋ก ์์ด์ ํธ ๊ฐ์ ๋งค์ฐ ๋ณต์กํ๊ฑฐ๋ ๋ฏธ์ธํ ์ํธ์์ฉ์ด ํ์ํ ๊ฒฝ์ฐ ์ ๋ณด ์์ค์ด ๋ฐ์ํ ์ ์์ต๋๋ค. ์ฆ, ๋ชจ๋ ์ ๋ณด๊ฐ ํ๋ธ๋ฅผ โ๊ฑฐ์ณ์ผโ ํ๋ค๋ ๋ณ๋ชฉ ํ์์ด ์ ์ฌ์ ์ผ๋ก ์กด์ฌํฉ๋๋ค.
๊ฐ์ ๊ฐ๋ฅ์ฑ ๋ฐ ํฅํ ์ฐ๊ตฌ
ํฅํ ์ฐ๊ตฌ์์๋ ํ๋ธ๋ฅผ ๋จ์ํ ํ๋๋ง ๋๋ ๊ฒ์ด ์๋๋ผ, ๊ณ์ธต์ ์ผ๋ก ๊ตฌ์ฑํ๊ฑฐ๋ ์์ด์ ํธ ๊ฐ์ ๊ฑฐ๋ฆฌ์ ๋ฐ๋ผ ๋์ ์ผ๋ก ํ๋ธ๋ฅผ ํ์ฑํํ๋ ๋ฐฉ์ ๋ฑ์ ํตํด ์ ๋ณด ์ ๋ฌ์ ์ ๊ตํจ์ ๋์ผ ์ ์์ ๊ฒ์ ๋๋ค. ๋ํ, ํ์ฌ์ ์๋ฎฌ๋ ์ด์ ์ ๋์ด ์ค์ ๋ฌผ๋ฆฌ ์์ง๊ณผ ๊ฒฐํฉํ์ฌ ๋ ๊ฐ๊ฑดํ ๋ฌผ๋ฆฌ ๋ฒ์น์ ์ค์ํ๋ ์ธ๊ณ ๋ชจ๋ธ๋ก ๋ฐ์ ์ํฌ ์ ์์ ๊ฒ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ ์ฉ ๋ถ์ผ
์ด ๊ธฐ์ ์ ๋ฉํฐํ๋ ์ด์ด ๋น๋์ค ๊ฒ์ ์๋ ์์ฑ์ ์ฆ์ ํ์ฉ๋ ์ ์์ต๋๋ค. ๊ฐ๋ฐ์๋ ์์ฒ ๋ช ์ ํ๋ ์ด์ด๊ฐ ์ํธ์์ฉํ๋ ์๋๋ฆฌ์ค๋ฅผ ์ผ์ผ์ด ์ฝ๋ฉํ์ง ์๊ณ , Gamma-World ๋ชจ๋ธ์๊ฒ ์ํ๋ ๋ชฉํ๋ง ์ ๋ ฅํ๋ฉด ์์ฐ์ค๋ฌ์ด ํ๋ ์ด ์์์ ์์ฑํด๋ผ ์ ์์ต๋๋ค. ๋ํ, ๋ค์์ ๋ก๋ด์ด ํ๋ํ๋ ๋ฌผ๋ฅ ์ผํฐ ์๋ฎฌ๋ ์ด์ ์ด๋ ๊ฐ์ ํ์ค(VR) ๋ฉํ๋ฒ์ค์์ ๋น์ญํ ๊ตฐ(NPC)๋ค์ด ์ค์ ํ๋ ์ด์ด์ ์ํธ์์ฉํ๋ฉฐ ์ธ๊ณ๋ฅผ ๋ณํ์ํค๋ ํ๊ฒฝ์ ๊ตฌ์ถํ๋ ๋ฐ ์ฌ์ฉ๋ ์ ์์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค
ํ์ฐ ๋ชจ๋ธ(Diffusion Model)๊ณผ ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฏ๋ก, ํ์ต ๋จ๊ณ์์๋ ๊ณ ์ฌ์ GPU(A100 ์ด์)๊ฐ ๋ค์ ํ์ํฉ๋๋ค. ํ์ง๋ง ์ถ๋ก ์์๋ ์ ํ์ ์ธ ๊ณ์ฐ ๋ณต์ก๋ ๋๋ถ์ ๊ธฐ์กด ๋ฐ์ง ๋ชจ๋ธ๋ณด๋ค ์๋์ ์ผ๋ก ์ ์ ๋ฆฌ์์ค๋ก ๋ ๋ง์ ์์ด์ ํธ๋ฅผ ์ค์๊ฐ์ผ๋ก ์๋ฎฌ๋ ์ด์ ํ ์ ์๋ ์ด์ ์ด ์์ต๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ์๋ ๋ชจ๋ธ(World Model): ํ๊ฒฝ์ ์ํ๋ฅผ ์์ธกํ์ฌ ๋ฏธ๋์ ์ํฉ์ ์๋ฎฌ๋ ์ด์ ํ๋ ๋ชจ๋ธ๋ก, ๊ฐํํ์ต์์ ์ฃผ๋ก ํ๊ฒฝ์ ๋์ฒดํ๋ ์ญํ ์ ํฉ๋๋ค.
- ํ์ฐ ๋ชจ๋ธ(Diffusion Model): ์ ์ง์ ์ผ๋ก ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๋ ๋ฐฉ์์ ํตํด ๊ณ ํ์ง์ ์ด๋ฏธ์ง๋ ๋น๋์ค๋ฅผ ์์ฑํ๋ ์์ฑํ AI ๋ชจ๋ธ์ ๋๋ค.
- ํธ๋์คํฌ๋จธ(Transformer): ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๋ฅ๋ฌ๋ ์ํคํ ์ฒ๋ก, ์ํ์ค ๋ฐ์ดํฐ ์ฒ๋ฆฌ์ ํ์ํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
- RoPE(Rotary Positional Embedding): ํ ํฐ์ ์๋์ ์ธ ์์น ์ ๋ณด๋ฅผ ํ์ ํ๋ ฌ์ ํตํด ์ธ์ฝ๋ฉํ๋ ๊ธฐ๋ฒ์ผ๋ก, ์ต์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ๋๋ฆฌ ์ฌ์ฉ๋ฉ๋๋ค.
- ์์ด ๋์นญ์ฑ(Permutation Symmetry): ์ ๋ ฅ ๋ฐ์ดํฐ์ ์์๊ฐ ๋ฐ๋์ด๋ ๋ชจ๋ธ์ ์ถ๋ ฅ์ด ๋ถ๋ณ์ฑ์ ์ ์งํ๋ ์ฑ์ง์ ๋งํฉ๋๋ค. ๋ฉํฐ ์์ด์ ํธ ์ค์ ์์ ๋๊ฐ 1๋ฒ์ด๋ 2๋ฒ์ด๋๋ ์ค์ํ์ง ์์ ๋ ํ์ํฉ๋๋ค.
- ํฌ์ ์ดํ ์ (Sparse Attention): ๋ชจ๋ ํ ํฐ ์์ ๋ํด ์ดํ ์ ์ ๊ณ์ฐํ์ง ์๊ณ , ์ผ๋ถ ํ์ํ ํ ํฐ ๊ฐ์๋ง ๊ณ์ฐํ์ฌ ํจ์จ์ฑ์ ๋์ด๋ ๊ธฐ๋ฒ์ ๋๋ค.
- DiT(Diffusion Transformer): ํ์ฐ ๋ชจ๋ธ์ ๋ฐฑ๋ณธ์ผ๋ก ํธ๋์คํฌ๋จธ๋ฅผ ์ฌ์ฉํ ์ํคํ ์ฒ๋ฅผ ์๋ฏธํฉ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Gamma-World: Generative Multi-Agentโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | SkillOpt: Executive Strategy for Seโฆ | DD-098 |
| ๐ฅ | DVAO: Dynamic Variance-adaptive Advโฆ | DD-099 |
| 4. | LocateAnything: Fast and High-Qualiโฆ | DD-100 |
| 5. | AgentDoG 1.5: A Lightweight and Scaโฆ | DD-101 |
๐ ์์ฑ์ผ: 2026-05-31 | ๐ค GLM-4.7 Deep Dive