โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-097 Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

arXiv: 2605.28816 ๊ธฐ๊ด€: NVIDIA Upvotes: 404 | Comments: 2 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 1


๋…ผ๋ฌธ ๋ถ„์„: Gamma-World

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ๋น„๋””์˜ค ์ƒ์„ฑ ์›”๋“œ ๋ชจ๋ธ(World Model) ๋Œ€๋ถ€๋ถ„์€ ๋‹จ์ผ ์—์ด์ „ํŠธ์— ์ง‘์ค‘ํ•˜์—ฌ, ์—ฌ๋Ÿฌ ์ฃผ์ฒด๊ฐ€ ์ƒํ˜ธ์ž‘์šฉํ•˜๋Š” ๋ณต์žกํ•œ ํ™˜๊ฒฝ์„ ๋ชจ์˜ํ•˜๋Š” ๋ฐ์—๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์„ ํ–‰ ์—ฐ๊ตฌ๋“ค์€ ์—์ด์ „ํŠธ ์ˆ˜๊ฐ€ ๋Š˜์–ด๋‚  ๊ฒฝ์šฐ ๊ณ„์‚ฐ ๋น„์šฉ์ด ๊ธ‰๊ฒฉํžˆ ์ฆ๊ฐ€ํ•˜๋Š” ๋ฌธ์ œ์™€, ํŠน์ • ์ธ์›์—๊ฒŒ ๊ณ ์ •๋œ ํ•™์Šต ์ž„๋ฒ ๋”ฉ์„ ์‚ฌ์šฉํ•˜์—ฌ ์œ ์—ฐ์„ฑ์ด ๋–จ์–ด์ง€๋Š” ๊ตฌ์กฐ์  ๊ฒฐํ•จ์„ ์•ˆ๊ณ  ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํ™˜๊ฒฝ์—์„œ ๊ณ„์‚ฐ ํšจ์œจ์„ ์„ ํ˜•์œผ๋กœ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ์—์ด์ „ํŠธ ๊ฐ„ ์ˆœ์„œ์— ๊ตฌ์• ๋ฐ›์ง€ ์•Š๋Š” ๋Œ€์นญ์„ฑ์„ ํ™•๋ณดํ•œ ์ƒˆ๋กœ์šด ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ œ์‹œํ•˜์—ฌ, ์‹ค์ œ ๊ฒŒ์ž„์ด๋‚˜ ๋กœ๋ด‡ ๊ตฐ์ง‘ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋“ฑ ์‹ค์šฉ์  ํ™•์žฅ์„ฑ์„ ํ™•๋ณดํ–ˆ๋‹ค๋Š” ์ ์—์„œ ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€˜๋™๊ทธ๋ž€ ํƒ์ž ํšŒ์˜โ€™์™€ โ€˜์ค‘์•™ ๊ฒŒ์‹œํŒโ€™

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์€ ์—ฌ๋Ÿฌ ๋ช…์ด ๋™์‹œ์— ์›€์ง์ด๋Š” ์˜์ƒ์„ ๋งŒ๋“ค์–ด๋‚ด๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹์€ ๋งˆ์น˜ ํšŒ์˜์‹ค์— ์žˆ๋Š” ์‚ฌ๋žŒ๋“ค์ด ์„œ๋กœ ๊ท“์†๋ง์„ ํ•˜๋ ค๊ณ  ์ „๋ถ€ ๋’ค์„ž์—ฌ ์—‰ํ‚ค๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค(๋ฐ€์ง‘ ์–ดํ…์…˜, Dense Joint Attention). ์‚ฌ๋žŒ์ด ๋‘ ๋ช…์ผ ๋•Œ๋Š” ๊ดœ์ฐฎ์ง€๋งŒ ์—ด ๋ช…์ด ๋˜๋ฉด ํ†ต์ œ๊ฐ€ ๋ถˆ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค.

Gamma-World๋Š” ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋‘ ๊ฐ€์ง€ ๋…์ฐฝ์ ์ธ ๋ฐฉ๋ฒ•์„ ์”๋‹ˆ๋‹ค. ์ฒซ์งธ, โ€˜์‹ฌํ”Œ๋ ‰์Šค ํšŒ์ „ ์ธ์ฝ”๋”ฉ(Simplex Rotary Agent Encoding)โ€˜์€ ๋ชจ๋“  ์ฐธ๊ฐ€์ž๋ฅผ ๊ฑฐ๋ฆฌ๊ฐ€ ๋˜‘๊ฐ™์ด ๋–จ์–ด์ง„ ์ •๋‹ค๊ฐํ˜•(์‚ผ๊ฐํ˜•, ์‚ฌ๋ฉด์ฒด ๋“ฑ)์˜ ๊ผญ์ง“์ ์— ๋ฐฐ์น˜ํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋ˆ„๊ฐ€ 1๋ฒˆ ์ž๋ฆฌ์— ์•‰์•˜๋Š”์ง€๋Š” ์ค‘์š”ํ•˜์ง€ ์•Š๊ฒŒ ๋˜๋ฉฐ(๋Œ€์นญ์„ฑ), ๋ชจ๋‘๊ฐ€ ๋˜‘๊ฐ™์€ ๊ถŒํ•œ์„ ๊ฐ€์ง€๋ฉด์„œ๋„ ์„œ๋กœ๋ฅผ ๊ตฌ๋ณ„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค(๊ณ ์œ ํ•œ ์œ„์ƒ). ๋‘˜์งธ, โ€˜ํฌ์†Œ ํ—ˆ๋ธŒ ์–ดํ…์…˜(Sparse Hub Self-Attention)โ€˜์€ ๋ชจ๋‘๊ฐ€ ์„œ๋กœ ๋– ๋“ค์ง€ ์•Š๊ณ , ์ค‘์•™์— ์žˆ๋Š” โ€˜๊ฒŒ์‹œํŒ(Hub)โ€˜์—๋งŒ ๋ฉ”์‹œ์ง€๋ฅผ ๋‚จ๊ธฐ๊ณ  ์ฝ๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์‚ฌ๋žŒ์ด ์•„๋ฌด๋ฆฌ ๋งŽ์•„์ ธ๋„ ๊ฒŒ์‹œํŒ์„ ๋ณด๋Š” ํšŸ์ˆ˜๋งŒ ๋Š˜์–ด๋‚˜๊ธฐ ๋•Œ๋ฌธ์— ํ˜ผ๋ž€์ด ์—†๊ณ  ์†๋„๋„ ๋น ๋ฆ…๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

  1. ์ž…๋ ฅ ๋ฐ ํ† ํฐํ™”: ์—ฌ๋Ÿฌ ์—์ด์ „ํŠธ(ํ”Œ๋ ˆ์ด์–ด)๊ฐ€ ์‹œ์ ์—์„œ ๋ณธ ๊ณผ๊ฑฐ ์˜์ƒ๊ณผ ํ–‰๋™ ์ •๋ณด๋ฅผ ๋ฐ›์•„์„œ ์ž‘์€ ์กฐ๊ฐ(Patch)์œผ๋กœ ๋‚˜๋ˆ„๊ณ  ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.
  2. ์œ„์ƒ ๋ถ€์—ฌ (Simplex RoPE): ๊ฐ ์—์ด์ „ํŠธ์˜ ์ •๋ณด์— ๊ณ ์ฐจ์› ํšŒ์ „ ๋ณ€ํ™˜์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ๋‹จ์ˆœํžˆ 1, 2, 3 ์ˆœ์„œ๊ฐ€ ์•„๋‹ˆ๋ผ, ๋ชจ๋“  ์—์ด์ „ํŠธ๊ฐ€ ์„œ๋กœ ๋™๋“ฑํ•œ ๊ฑฐ๋ฆฌ๋ฅผ ์œ ์ง€ํ•˜๋Š” โ€˜์ •๋‹จ์ฒด(Regular Simplex)โ€™ ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์œ„์ƒ ๊ฐ’์„ ๋ถ€์—ฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ํ•™์Šต๋œ ID ์—†์ด๋„ ๋ˆ„๊ฐ€ ๋ˆ„๊ตฌ์ธ์ง€ ์ˆ˜ํ•™์ ์œผ๋กœ ๊ตฌ๋ถ„ํ•˜๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.
  3. ์ •๋ณด ๊ตํ™˜ (Sparse Hub Attention): ์—์ด์ „ํŠธ๋“ค์€ ์„œ๋กœ ์ง์ ‘ ๊ด€๊ณ„๋ฅผ ๋งบ๋Š” ๋Œ€์‹  โ€˜ํ—ˆ๋ธŒโ€™๋ผ๋Š” ์ค‘์•™ ๋งค๊ฐœ์ฒด๋ฅผ ํ†ตํ•ด์„œ๋งŒ ์ •๋ณด๋ฅผ ๊ตํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ ๋งˆ์Šคํ‚น์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฏธ๋ž˜์˜ ์ •๋ณด๋ฅผ ์—ฟ๋ณด์ง€ ๋ชปํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค(Causal).
  4. ์ƒ์„ฑ (DiT): ์ด๋ ‡๊ฒŒ ์ •๋ฆฌ๋œ ์ •๋ณด๋ฅผ ํ™•์‚ฐ ํŠธ๋žœ์Šคํฌ๋จธ(Diffusion Transformer)์— ๋„ฃ์–ด, ๋‹ค์Œ ์ˆœ๊ฐ„์— ๊ฐ ์—์ด์ „ํŠธ๊ฐ€ ๋ณด๊ฒŒ ๋  ์˜์ƒ์„ ๋™์‹œ์— ์ƒ์„ฑํ•ด๋ƒ…๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜: Simplex Rotary Agent Encoding

์ด ๋…ผ๋ฌธ์˜ ์ˆ˜ํ•™์  ํ•˜์ด๋ผ์ดํŠธ๋Š” RoPE(Rotary Positional Embedding)๋ฅผ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํ™˜๊ฒฝ์œผ๋กœ ํ™•์žฅํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด RoPE๊ฐ€ ์‹œํ€€์Šค์˜ ์ˆœ์„œ๋ฅผ ํšŒ์ „ ๊ฐ๋„๋กœ ํ‘œํ˜„ํ–ˆ๋‹ค๋ฉด, ์ด ๋ฐฉ์‹์€ ์—์ด์ „ํŠธ์˜ ID๋ฅผ ๊ณ ์ฐจ์› ๊ณต๊ฐ„ไธŠ็š„ ์ •๋‹จ์ฒด์˜ ๊ผญ์ง“์  ์ขŒํ‘œ๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.

์ด๋Š” ๋ชจ๋“  ์—์ด์ „ํŠธ ์Œ ์‚ฌ์ด์˜ ๋‚ด์ ์ด ์ผ์ •ํ•˜๋„๋ก ์„ค๊ณ„๋˜์–ด, ๋ชจ๋ธ์ด ์—์ด์ „ํŠธ์˜ ์ˆœ์„œ(Permutation)๋ฅผ ๋ฐ”๊ฟ”๋„ ๊ฒฐ๊ณผ๊ฐ€ ๋‹ฌ๋ผ์ง€์ง€ ์•Š๋„๋ก ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

๋ฒค์น˜๋งˆํฌ ๋ฐ ๋น„๊ต ๋Œ€์ƒ

์ €์ž๋“ค์€ ์ฃผ๋กœ ํ˜‘๋™ ๋ฐ ๊ฒฝ์Ÿ์ด ํ•„์š”ํ•œ ๋ฉ€ํ‹ฐํ”Œ๋ ˆ์ด์–ด ํ™˜๊ฒฝ(์˜ˆ: Overcooked ๊ฐ™์€ ํ˜‘๋™ ๊ฒŒ์ž„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์ด๋‚˜ ๋กœ๋ด‡ ํŒ” ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ)์—์„œ ๋ชจ๋ธ์„ ํ…Œ์ŠคํŠธํ–ˆ์Šต๋‹ˆ๋‹ค. ๋น„๊ต ๋Œ€์ƒ์€ ๊ธฐ์กด์˜ ๋ฉ€ํ‹ฐํ”Œ๋ ˆ์ด์–ด ๋ชจ๋ธ์ธ Solaris๋ฅผ ํฌํ•จํ•˜์—ฌ ๋‹จ์ผ ์—์ด์ „ํŠธ ๋ชจ๋ธ์„ ํ™•์žฅํ•œ Baseline๋“ค์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.

์„ฑ๋Šฅ ํ–ฅ์ƒ ์ˆ˜์น˜

๋…ผ๋ฌธ์€ ์ •๋Ÿ‰์ ์ธ ์ง€ํ‘œ๋กœ FVD(Frรฉchet Video Distance)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์˜์ƒ์˜ ํ’ˆ์งˆ์„ ์ธก์ •ํ–ˆ์œผ๋ฉฐ, ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ FLOPs(๋ถ€๋™์†Œ์ˆ˜์  ์—ฐ์‚ฐ ํšŸ์ˆ˜)๋กœ ์ธก์ •ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ๊ณ„์‚ฐ ๋ณต์žก๋„: ๊ธฐ์กด Solaris ๋ชจ๋ธ์€ ์—์ด์ „ํŠธ ์ˆ˜(P)๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ๋น„์šฉ์ด ์ œ๊ณฑ(P^2)์œผ๋กœ ์ฆ๊ฐ€ํ•˜์—ฌ 4๋ช… ์ด์ƒ์—์„œ๋Š” ์‹ค์‹œ๊ฐ„ ์ถ”๋ก ์ด ์‚ฌ์‹ค์ƒ ๋ถˆ๊ฐ€๋Šฅํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด Gamma-World๋Š” ํ—ˆ๋ธŒ ์–ดํ…์…˜ ๋•๋ถ„์— ๋น„์šฉ์ด ์„ ํ˜•(P)์œผ๋กœ ์ฆ๊ฐ€ํ•˜์—ฌ, 4๋ช…, 8๋ช… ์‹ฌ์ง€์–ด ๊ทธ ์ด์ƒ์˜ ์—์ด์ „ํŠธ์—์„œ๋„ ์‹ค์‹œ๊ฐ„ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์ผ๊ด€์„ฑ ๋ฐ ํ’ˆ์งˆ: ์—์ด์ „ํŠธ ์ˆ˜๊ฐ€ ๋Š˜์–ด๋‚˜๋„ ๊ธฐ์กด ๋ชจ๋ธ๊ณผ ๋น„์Šทํ•˜๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ์ˆ˜์ค€์˜ ์˜์ƒ ํ’ˆ์งˆ(FVD)์„ ๋ณด์˜€์œผ๋ฉฐ, ํŠนํžˆ ์„œ๋กœ ๋‹ค๋ฅธ ์‹œ์ ์—์„œ ๋ฌผ์ฒด์˜ ์œ„์น˜๊ฐ€ ์ผ์น˜ํ•˜๋Š” โ€˜๊ด€์  ๊ฐ„ ์ผ๊ด€์„ฑโ€™ ์ธก๋ฉด์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

๊ฐ€์žฅ ์ธ์ƒ์ ์ธ ์ ์€ ํ•™์Šต๋œ ID ์ž„๋ฒ ๋”ฉ์„ ์ „ํ˜€ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ ๋„ ์ˆ˜ํ•™์  ๊ตฌ์กฐ๋งŒ์œผ๋กœ ์—ฌ๋Ÿฌ ์—์ด์ „ํŠธ๋ฅผ ์™„๋ฒฝํ•˜๊ฒŒ ๋ถ„๋ฆฌํ•ด์„œ ์ œ์–ดํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์—†๋Š” ์ƒˆ๋กœ์šด ์ˆ˜์˜ ์—์ด์ „ํŠธ(์˜ˆ: 3๋ช…์œผ๋กœ ํ•™์Šตํ•˜๊ณ  5๋ช…์œผ๋กœ ์ถ”๋ก )์—๊ฒŒ๋„ ๋ชจ๋ธ์„ ์‰ฝ๊ฒŒ ์ผ๋ฐ˜ํ™” ์ ์šฉํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„

ํ—ˆ๋ธŒ ๊ธฐ๋ฐ˜์˜ ์–ดํ…์…˜ ๊ตฌ์กฐ๋Š” ํšจ์œจ์ ์ด์ง€๋งŒ, ํ—ˆ๋ธŒ ํ† ํฐ ํ•˜๋‚˜๊ฐ€ ๋ชจ๋“  ์ •๋ณด๋ฅผ ์••์ถ•ํ•ด์„œ ์ „๋‹ฌํ•ด์•ผ ํ•˜๋ฏ€๋กœ ์—์ด์ „ํŠธ ๊ฐ„์— ๋งค์šฐ ๋ณต์žกํ•˜๊ฑฐ๋‚˜ ๋ฏธ์„ธํ•œ ์ƒํ˜ธ์ž‘์šฉ์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ ์ •๋ณด ์†์‹ค์ด ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ๋ชจ๋“  ์ •๋ณด๊ฐ€ ํ—ˆ๋ธŒ๋ฅผ โ€˜๊ฑฐ์ณ์•ผโ€™ ํ•œ๋‹ค๋Š” ๋ณ‘๋ชฉ ํ˜„์ƒ์ด ์ž ์žฌ์ ์œผ๋กœ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅ์„ฑ ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ

ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ํ—ˆ๋ธŒ๋ฅผ ๋‹จ์ˆœํžˆ ํ•˜๋‚˜๋งŒ ๋‘๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๊ณ„์ธต์ ์œผ๋กœ ๊ตฌ์„ฑํ•˜๊ฑฐ๋‚˜ ์—์ด์ „ํŠธ ๊ฐ„์˜ ๊ฑฐ๋ฆฌ์— ๋”ฐ๋ผ ๋™์ ์œผ๋กœ ํ—ˆ๋ธŒ๋ฅผ ํ™œ์„ฑํ™”ํ•˜๋Š” ๋ฐฉ์‹ ๋“ฑ์„ ํ†ตํ•ด ์ •๋ณด ์ „๋‹ฌ์˜ ์ •๊ตํ•จ์„ ๋†’์ผ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ˜„์žฌ์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ๋„˜์–ด ์‹ค์ œ ๋ฌผ๋ฆฌ ์—”์ง„๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ๋” ๊ฐ•๊ฑดํ•œ ๋ฌผ๋ฆฌ ๋ฒ•์น™์„ ์ค€์ˆ˜ํ•˜๋Š” ์„ธ๊ณ„ ๋ชจ๋ธ๋กœ ๋ฐœ์ „์‹œํ‚ฌ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์ ์šฉ ๋ถ„์•ผ

์ด ๊ธฐ์ˆ ์€ ๋ฉ€ํ‹ฐํ”Œ๋ ˆ์ด์–ด ๋น„๋””์˜ค ๊ฒŒ์ž„ ์ž๋™ ์ƒ์„ฑ์— ์ฆ‰์‹œ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐœ๋ฐœ์ž๋Š” ์ˆ˜์ฒœ ๋ช…์˜ ํ”Œ๋ ˆ์ด์–ด๊ฐ€ ์ƒํ˜ธ์ž‘์šฉํ•˜๋Š” ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์ผ์ผ์ด ์ฝ”๋”ฉํ•˜์ง€ ์•Š๊ณ , Gamma-World ๋ชจ๋ธ์—๊ฒŒ ์›ํ•˜๋Š” ๋ชฉํ‘œ๋งŒ ์ž…๋ ฅํ•˜๋ฉด ์ž์—ฐ์Šค๋Ÿฌ์šด ํ”Œ๋ ˆ์ด ์˜์ƒ์„ ์ƒ์„ฑํ•ด๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋‹ค์ˆ˜์˜ ๋กœ๋ด‡์ด ํ˜‘๋™ํ•˜๋Š” ๋ฌผ๋ฅ˜ ์„ผํ„ฐ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์ด๋‚˜ ๊ฐ€์ƒ ํ˜„์‹ค(VR) ๋ฉ”ํƒ€๋ฒ„์Šค์—์„œ ๋น„์—ญํ• ๊ตฐ(NPC)๋“ค์ด ์‹ค์ œ ํ”Œ๋ ˆ์ด์–ด์™€ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ์„ธ๊ณ„๋ฅผ ๋ณ€ํ™”์‹œํ‚ค๋Š” ํ™˜๊ฒฝ์„ ๊ตฌ์ถ•ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

ํ™•์‚ฐ ๋ชจ๋ธ(Diffusion Model)๊ณผ ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฏ€๋กœ, ํ•™์Šต ๋‹จ๊ณ„์—์„œ๋Š” ๊ณ ์‚ฌ์–‘ GPU(A100 ์ด์ƒ)๊ฐ€ ๋‹ค์ˆ˜ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ถ”๋ก  ์‹œ์—๋Š” ์„ ํ˜•์ ์ธ ๊ณ„์‚ฐ ๋ณต์žก๋„ ๋•๋ถ„์— ๊ธฐ์กด ๋ฐ€์ง‘ ๋ชจ๋ธ๋ณด๋‹ค ์ƒ๋Œ€์ ์œผ๋กœ ์ ์€ ๋ฆฌ์†Œ์Šค๋กœ ๋” ๋งŽ์€ ์—์ด์ „ํŠธ๋ฅผ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•  ์ˆ˜ ์žˆ๋Š” ์ด์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • ์›”๋“œ ๋ชจ๋ธ(World Model): ํ™˜๊ฒฝ์˜ ์ƒํƒœ๋ฅผ ์˜ˆ์ธกํ•˜์—ฌ ๋ฏธ๋ž˜์˜ ์ƒํ™ฉ์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•˜๋Š” ๋ชจ๋ธ๋กœ, ๊ฐ•ํ™”ํ•™์Šต์—์„œ ์ฃผ๋กœ ํ™˜๊ฒฝ์„ ๋Œ€์ฒดํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
  • ํ™•์‚ฐ ๋ชจ๋ธ(Diffusion Model): ์ ์ง„์ ์œผ๋กœ ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ๋ฐฉ์‹์„ ํ†ตํ•ด ๊ณ ํ’ˆ์งˆ์˜ ์ด๋ฏธ์ง€๋‚˜ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ƒ์„ฑํ˜• AI ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  • ํŠธ๋žœ์Šคํฌ๋จธ(Transformer): ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” ๋”ฅ๋Ÿฌ๋‹ ์•„ํ‚คํ…์ฒ˜๋กœ, ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์— ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค.
  • RoPE(Rotary Positional Embedding): ํ† ํฐ์˜ ์ƒ๋Œ€์ ์ธ ์œ„์น˜ ์ •๋ณด๋ฅผ ํšŒ์ „ ํ–‰๋ ฌ์„ ํ†ตํ•ด ์ธ์ฝ”๋”ฉํ•˜๋Š” ๊ธฐ๋ฒ•์œผ๋กœ, ์ตœ์‹  ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์— ๋„๋ฆฌ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  • ์ˆœ์—ด ๋Œ€์นญ์„ฑ(Permutation Symmetry): ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ์ˆœ์„œ๊ฐ€ ๋ฐ”๋€Œ์–ด๋„ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์ด ๋ถˆ๋ณ€์„ฑ์„ ์œ ์ง€ํ•˜๋Š” ์„ฑ์งˆ์„ ๋งํ•ฉ๋‹ˆ๋‹ค. ๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ ์„ค์ •์—์„œ ๋ˆ„๊ฐ€ 1๋ฒˆ์ด๋ƒ 2๋ฒˆ์ด๋ƒ๋Š” ์ค‘์š”ํ•˜์ง€ ์•Š์„ ๋•Œ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  • ํฌ์†Œ ์–ดํ…์…˜(Sparse Attention): ๋ชจ๋“  ํ† ํฐ ์Œ์— ๋Œ€ํ•ด ์–ดํ…์…˜์„ ๊ณ„์‚ฐํ•˜์ง€ ์•Š๊ณ , ์ผ๋ถ€ ํ•„์š”ํ•œ ํ† ํฐ ๊ฐ„์—๋งŒ ๊ณ„์‚ฐํ•˜์—ฌ ํšจ์œจ์„ฑ์„ ๋†’์ด๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
  • DiT(Diffusion Transformer): ํ™•์‚ฐ ๋ชจ๋ธ์˜ ๋ฐฑ๋ณธ์œผ๋กœ ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ์‚ฌ์šฉํ•œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Gamma-World: Generative Multi-Agentโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐ŸฅˆSkillOpt: Executive Strategy for Seโ€ฆDD-098
๐Ÿฅ‰DVAO: Dynamic Variance-adaptive Advโ€ฆDD-099
4.LocateAnything: Fast and High-Qualiโ€ฆDD-100
5.AgentDoG 1.5: A Lightweight and Scaโ€ฆDD-101

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-05-31 | ๐Ÿค– GLM-4.7 Deep Dive