โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-081 World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

arXiv: 2604.24764 ๊ธฐ๊ด€: Microsoft Research Upvotes: 115 | Comments: 3 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 5


์•ˆ๋…•ํ•˜์„ธ์š”. AI/ML ์ „๋ฌธ๊ฐ€๋กœ์„œ ํฅ๋ฏธ๋กœ์šด ๋…ผ๋ฌธ์„ ๋ถ„์„ํ•ด ๋“œ๋ฆฌ๊ฒ ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์ตœ๊ทผ ํ•ซํ•œ ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์˜ โ€˜3D ๊ณต๊ฐ„ ์ธ์‹ ๋Šฅ๋ ฅโ€™์„ ๊ฐ•ํ™”ํ•˜๋Š” ์•„์ฃผ cleverํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์„ ๋‹ค๋ฃจ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ฃผ๋‹ˆ์–ด ๊ฐœ๋ฐœ์ž๋ถ„๋„ ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜์‹ค ์ˆ˜ ์žˆ๋„๋ก ๋น„์œ ๋ฅผ ๋“ค์–ด ์„ค๋ช…ํ•ด ๋“œ๋ฆด๊ฒŒ์š”.


1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ํ…์ŠคํŠธ-๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ๋“ค์€ ์˜์ƒ์„ ์•„์ฃผ ๋ฉ‹์ง€๊ฒŒ ๋งŒ๋“ค์–ด๋‚ด์ง€๋งŒ, ์นด๋ฉ”๋ผ๊ฐ€ ํฌ๊ฒŒ ์›€์ง์ด๋ฉด ์‚ฌ๋ฌผ์ด ๋’คํ‹€๋ฆฌ๊ฑฐ๋‚˜ ๊ฐ‘์ž๊ธฐ ์‚ฌ๋ผ์ง€๋Š” ๋“ฑ ๋ฌผ๋ฆฌ์ ์œผ๋กœ ๋ง๋„ ์•ˆ ๋˜๋Š” โ€˜๊ธฐํ•˜ํ•™์  ํ™˜๊ฐ(Geometric Hallucination)โ€™ ๋ฌธ์ œ๋ฅผ ๊ฒช์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋ชจ๋ธ ๊ตฌ์กฐ ์ž์ฒด๋ฅผ ๋œฏ์–ด๊ณ ์น˜๋Š” ๊ธฐ์กด ๋ฐฉ์‹๋“ค์€ ์—ฐ์‚ฐ ๋น„์šฉ์ด ๋„ˆ๋ฌด ๋น„์‹ธ๊ณ  ํ™•์žฅ์„ฑ์ด ๋–จ์–ด์ง„๋‹ค๋Š” ์น˜๋ช…์ ์ธ ๋‹จ์ ์ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋ชจ๋ธ ๊ตฌ์กฐ๋Š” ๊ฑด๋“œ๋ฆฌ์ง€ ์•Š๊ณ , ๊ฐ•ํ™”ํ•™์Šต(Reinforcement Learning)์„ ํ†ตํ•ด ๋ชจ๋ธ์ด ์Šค์Šค๋กœ 3D ๋ฌผ๋ฆฌ ๋ฒ•์น™์„ ์ง€ํ‚ค๋„๋ก ํ›ˆ๋ จ์‹œํ‚ค๋Š” ํšจ์œจ์ ์ธ ํ”„๋ ˆ์ž„์›Œํฌ์ธ World-R1์„ ์ œ์‹œํ•˜์—ฌ ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ์Šต๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ 

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์€ โ€˜๋ชจ๋ฒ”์ƒ ํ™”๊ฐ€โ€™ ๋น„์œ ๋กœ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์€ ๋งˆ์น˜ 2D ํ‰๋ฉด์— ์•„์ฃผ ๋ฉ‹์ง„ ๊ทธ๋ฆผ์€ ์ž˜ ๊ทธ๋ฆฌ์ง€๋งŒ, ์ž…์ฒด๊ฐ์ด๋‚˜ ์›๊ทผ๋ฒ•์€ ์ดํ•ดํ•˜์ง€ ๋ชปํ•˜๋Š” ํ™”๊ฐ€์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์นด๋ฉ”๋ผ๊ฐ€ ๋Œ์•„๊ฐ€๋ฉด ๊ทธ๋ฆผ ์† ์‚ฌ๋ฌผ์ด ์ฐŒ๊ทธ๋Ÿฌ์ง€์ฃ . ๊ธฐ์กด ์—ฐ๊ตฌ์ž๋“ค์€ ํ™”๊ฐ€์—๊ฒŒ โ€˜3D ์•ˆ๊ฒฝโ€™์„ ์”Œ์šฐ๊ณ  ์ž๋ฅผ ๋“ค์ด๋Œ€๋ฉฐ ์–ต์ง€๋กœ ์›๊ทผ๋ฒ•์„ ๋งž์ถ”๊ฒŒ ํ–ˆ๋Š”๋ฐ(๊ตฌ์กฐ์  ์ˆ˜์ •), ์ด๋Š” ํ™”๊ฐ€์˜ ์†๋„๋ฅผ ๋Šฆ์ถ”๊ณ  creativity๋ฅผ ๋–จ์–ด๋œจ๋ ธ์Šต๋‹ˆ๋‹ค.

๋ฐ˜๋ฉด World-R1์€ ํ™”๊ฐ€์—๊ฒŒ ๊ทธ๋ฆผ์„ ๊ทธ๋ฆฌ๊ฒŒ ๋‚ด๋ฒ„๋ ค ๋‘๋˜, ์˜†์—์„œ โ€˜๋ฏธ์ˆ  ํ‰๋ก ๊ฐ€โ€™์ธ 3D ์ „๋ฌธ๊ฐ€๊ฐ€ ํ”ผ๋“œ๋ฐฑ์„ ์ฃผ๋Š” ๋ฐฉ์‹์„ ์ฑ„ํƒํ–ˆ์Šต๋‹ˆ๋‹ค. โ€œ์›๊ทผ๋ฒ•์ด ์ด์ƒํ•˜๋‹คโ€, โ€œ๋ฌผ์ฒด๊ฐ€ ๋น„๋ฌผ๋ฆฌ์ ์œผ๋กœ ์›€์ง์˜€๋‹คโ€๋ผ๊ณ  ์ง€์ ํ•˜๋ฉด(๋ณด์ƒ ์‹ ํ˜ธ), ํ™”๊ฐ€๊ฐ€ ๋‹ค์Œ ๋ฒˆ์—๋Š” ๋ถ“์งˆ์„ ์กฐ๊ธˆ ๋” ๊ต์ •ํ•ด์„œ ๊ทธ๋ฆฌ๋Š” ์‹์ž…๋‹ˆ๋‹ค. ์ฆ‰, ํ™”๊ฐ€์˜ ๋„๊ตฌ(๋ชจ๋ธ ๊ตฌ์กฐ)๋Š” ๋ฐ”๊พธ์ง€ ์•Š๊ณ , ํ™”๊ฐ€์˜ โ€˜ํ–‰๋™ ํŒจํ„ด(๊ฐ€์ค‘์น˜)โ€˜์„ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ๊ณผ์ •

  1. ์•”๋ฌต์  ์นด๋ฉ”๋ผ ์ปจ๋””์…”๋‹(Implicit Camera Conditioning): ๋จผ์ € ์‚ฌ์šฉ์ž๊ฐ€ โ€œ์นด๋ฉ”๋ผ๋ฅผ ์™ผ์ชฝ์œผ๋กœ ํŒจ๋‹(Pan)ํ•ดโ€๋ผ๊ณ  ๋ช…๋ นํ•˜๋ฉด, ์ด ๋…ผ๋ฌธ์˜ ๋ฐฉ์‹์€ ๊ทธ ์˜๋„๋ฅผ ์•„์ฃผ ์ดˆ๊ธฐ์˜ โ€˜๋…ธ์ด์ฆˆ(๋ฌด์ž‘์œ„ ์ ๋“ค)โ€™ ๋‹จ๊ณ„์— ์ˆจ๊ฒจ์„œ ์„ž์–ด ๋„ฃ์Šต๋‹ˆ๋‹ค. ๋งˆ์น˜ ๋„ํ™”์ง€์— ๋ถ“์„ ๋Œ€๊ธฐ ์ „๋ถ€ํ„ฐ, ์™ผ์ชฝ์œผ๋กœ ๊ทธ๋ ค์•ผ ํ•œ๋‹ค๋Š” ์˜๋„๋ฅผ ๋ถ“์งˆ์˜ ํ๋ฆ„์— ๋ฏธ๋ฆฌ ๋…น์—ฌ๋„ฃ๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋ณ„๋„์˜ ์ œ์–ด ๋ชจ๋“ˆ ์—†์ด๋„ ๋ชจ๋ธ์ด ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์นด๋ฉ”๋ผ ์›€์ง์ž„์„ ๋”ฐ๋ผ๊ฐ‘๋‹ˆ๋‹ค.
  2. ํ™•๋ฅ ์  ์ƒ˜ํ”Œ๋ง๊ณผ ํƒ์ƒ‰(Stochastic Sampling via SDE): ์ผ๋ฐ˜์ ์ธ ์ƒ์„ฑ ๋ชจ๋ธ์€ ์ •ํ•ด์ง„ ๊ธธ(ODE)์„ ๋”ฐ๋ผ ๊ทธ๋ฆผ์„ ๊ทธ๋ฆฌ์ง€๋งŒ, ๊ฐ•ํ™”ํ•™์Šต์„ ํ•˜๋ ค๋ฉด ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์‹œ๋„๋ฅผ ํ•ด๋ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ ์˜๋„์ ์œผ๋กœ ์•ฝ๊ฐ„์˜ โ€˜ํ”๋“ค๋ฆผ(๋…ธ์ด์ฆˆ)โ€˜์„ ์ฃผ์–ด(SDE) ๊ฐ™์€ ๋ช…๋ น์ด๋ผ๋„ ์กฐ๊ธˆ์”ฉ ๋‹ค๋ฅธ ๊ฒฐ๊ณผ๋ฌผ์ด ๋‚˜์˜ค๋„๋ก ๋งŒ๋“ญ๋‹ˆ๋‹ค.
  3. ๋ณด์ƒ ๊ธฐ๋ฐ˜ ์ตœ์ ํ™”(Reward Optimization with Flow-GRPO): ์ƒ์„ฑ๋œ ์—ฌ๋Ÿฌ ๋ฒ„์ „์˜ ์˜์ƒ์„ ๋ฏธ๋ฆฌ ํ•™์Šต๋œ 3D ๊ธฐ์ดˆ ๋ชจ๋ธ๊ณผ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(VLM)์—๊ฒŒ ๋ณด์—ฌ์ฃผ๊ณ  ์ ์ˆ˜๋ฅผ ๋งค๊น๋‹ˆ๋‹ค. โ€œ์ด ์˜์ƒ์€ 3D ๊ตฌ์กฐ๊ฐ€ ์ผ๊ด€์„ฑ์ด ์žˆ๋‹คโ€๋ฉด ๋†’์€ ์ ์ˆ˜๋ฅผ, โ€œ์‚ฌ๋ฌผ์ด ๋š๋š ๋Š๊ธด๋‹คโ€๋ฉด ๋‚ฎ์€ ์ ์ˆ˜๋ฅผ ์ค๋‹ˆ๋‹ค. ์ด ์ ์ˆ˜๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ชจ๋ธ์ด ์ข‹์€ ๊ทธ๋ฆผ์„ ๊ทธ๋ฆด ํ™•๋ฅ ์„ ๋†’์ด๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์Šค์Šค๋กœ๋ฅผ ์ˆ˜์ •ํ•ฉ๋‹ˆ๋‹ค(์ •์ฑ… ์ตœ์ ํ™”).

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฐ ์ˆ˜์‹

์ด ๋…ผ๋ฌธ์€ ๊ฒฐ์ •๋ก ์  ํ๋ฆ„ ๋ชจ๋ธ(Flow Matching)์„ ๊ฐ•ํ™”ํ•™์Šต์— ํ™œ์šฉํ•˜๊ธฐ ์œ„ํ•ด ํ™•๋ฅ ์  ๋ฏธ๋ถ„ ๋ฐฉ์ •์‹(SDE)์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” Flow-GRPO ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ์กด์˜ ๊ฒฐ์ •๋ก ์  ๋ฐฉ์ •์‹(ODE)์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. $d\mathbf{x}{t} = \mathbf{v}{t} d\mathbf{t}$ (์‹œ๊ฐ„ t์—์„œ ์ƒํƒœ $x$๊ฐ€ ์†๋„ $v$์— ๋”ฐ๋ผ ํ™•์ •์ ์œผ๋กœ ์›€์ง์ž„)

ํ•˜์ง€๋งŒ ๊ฐ•ํ™”ํ•™์Šต์„ ์œ„ํ•œ ํƒ์ƒ‰(Exploration)์„ ์œ„ํ•ด ์ด ๋…ผ๋ฌธ์€ ์ด๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์€ SDE๋กœ ๋ฐ”๊ฟ‰๋‹ˆ๋‹ค. $d\mathbf{x}{t} = [\mathbf{v}{t}(\mathbf{x}{t}) + \frac{\sigma{t}^{2}}{2t}(\mathbf{x}{t}+(1-t)\mathbf{v}{t}(\mathbf{x}{t}))]dt + \sigma{t}d\mathbf{w}$

์—ฌ๊ธฐ์„œ ํ•ต์‹ฌ์€ ๋งˆ์ง€๋ง‰ ํ•ญ์ธ $\sigma_{t}d\mathbf{w}$์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋ธŒ๋ผ์šด ์šด๋™(์™€์ด๋„ˆ ๊ณผ์ •)์— ์˜ํ•œ ๋…ธ์ด์ฆˆ ํ•ญ์œผ๋กœ, ๋ชจ๋ธ์ด ์กฐ๊ธˆ์”ฉ ๋‹ค๋ฅธ ๊ฒฝ๋กœ๋กœ ์ƒ์„ฑ๋ฌผ์„ ๋งŒ๋“ค์–ด๋‚ผ ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค. ์ฆ‰, โ€œ์ด ๊ธธ๋กœ๋งŒ ๊ฐ€๋ผโ€๊ฐ€ ์•„๋‹ˆ๋ผ โ€œ์ด์ชฝ ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐ€๋˜, ์•ฝ๊ฐ„์˜ ๋žœ๋คํ•จ์„ ํ—ˆ์šฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ๊ธธ์„ ์‹œ๋„ํ•ด ๋ณด๋ผโ€๊ณ  ๋ช…๋ นํ•˜๋Š” ์ˆ˜์‹์ž…๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์–ด๋–ค ๋ฒค์น˜๋งˆํฌ์—์„œ ํ…Œ์ŠคํŠธ?

์ €์ž๋“ค์€ ์ž๋™์ฐจ ์šด์ „ ์‹œ๋‚˜๋ฆฌ์˜ค ๋“ฑ ์นด๋ฉ”๋ผ๊ฐ€ ํฌ๊ฒŒ ์›€์ง์ด๋Š” ์˜์ƒ ์ƒ์„ฑ์— ์ดˆ์ ์„ ๋งž์ถฐ ํ‰๊ฐ€๋ฅผ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ 3D ์ผ๊ด€์„ฑ(ํ™”๋ฉด์ด ํšŒ์ „ํ•ด๋„ ์‚ฌ๋ฌผ์˜ ๋ชจ์–‘์ด ๋ฌผ๋ฆฌ์ ์œผ๋กœ ํƒ€๋‹นํ•œ์ง€)์„ ์ธก์ •ํ•˜๋Š” ์ „๋ฌธ์ ์ธ ์ง€ํ‘œ๋“ค์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด SOTA ๋Œ€๋น„ ์–ผ๋งˆ๋‚˜ ์ข‹์•„์กŒ๋‚˜?

๊ตฌ์ฒด์ ์ธ ์ˆ˜์น˜๋Š” ์›๋ฌธ์˜ ํ‘œ๋ฅผ ์ฐธ๊ณ ํ•ด์•ผ ํ•˜์ง€๋งŒ, ๋…ผ๋ฌธ์˜ ์„œ์ˆ ์— ๋”ฐ๋ฅด๋ฉด ๊ธฐ์กด ์ตœ์‹  ๋ฐฉ์‹(SOTA)๋“ค ๋Œ€๋น„ โ€˜3D ์ผ๊ด€์„ฑโ€™์ด ์œ ์˜๋ฏธํ•˜๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ค‘์š”ํ•œ ์ ์€ ๊ธฐ์กด ๋ฐฉ์‹๋“ค์ด 3D๋ฅผ ๋งž์ถ”๋ ค๊ณ  ์˜์ƒ์˜ ํ™”์งˆ์ด๋‚˜ ๋‹ค์ด๋‚ด๋ฏนํ•จ์„ ํฌ์ƒํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์—ˆ๋˜ ๋ฐ˜๋ฉด, World-R1์€ ์›๋ณธ ๋ชจ๋ธ์ด ๊ฐ€์ง€๊ณ  ์žˆ๋˜ โ€˜์‹œ๊ฐ์  ํ’ˆ์งˆโ€™์€ ๊ทธ๋Œ€๋กœ ์œ ์ง€ํ•˜๋ฉด์„œ 3D ๋ฌผ๋ฆฌ์„ฑ๋งŒ ๋†’์˜€๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

๊ฐ€์žฅ ์ธ์ƒ์ ์ธ ๋ถ€๋ถ„์€ ์ฃผ๊ธฐ์ ์ธ ๋ถ„๋ฆฌ ํ›ˆ๋ จ ์ „๋žต(Periodic Decoupled Training Strategy)์„ ์‚ฌ์šฉํ•˜์—ฌ, ๋”ฑ๋”ฑํ•œ 3D ๊ตฌ์กฐ(Rigid Geometric Consistency)์™€ ์œ ์—ฐํ•œ ์žฅ๋ฉด์˜ ๋ณ€ํ™”(Dynamic Scene Fluidity) ์‚ฌ์ด์˜ ๊ท ํ˜•์„ ์„ฑ๊ณต์ ์œผ๋กœ ์žก์•˜๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‚ฌ๋žŒ์ด ๊ฑท๊ฑฐ๋‚˜ ๋ฌผ๊ฒฐ์ด ์น˜๋Š” ์œ ์—ฐํ•œ ์žฅ๋ฉด๋„ 3D ๋ฌผ๋ฆฌ ๋ฒ•์น™์„ ์ง€ํ‚ค๋ฉด์„œ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ƒ์„ฑํ•ด๋ƒˆ์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„

๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ๋ฐฉ์‹์˜ ํŠน์„ฑ์ƒ, ํ•™์Šต ๊ณผ์ •์—์„œ 3D ํŒ๋‹จ ๋ชจ๋ธ(Reward Model)์ด ์ž˜๋ชป๋œ ํ”ผ๋“œ๋ฐฑ์„ ์ค„ ๊ฒฝ์šฐ ์ด๋ฅผ ํ•™์Šตํ•  ์œ„ํ—˜์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ˜„์žฌ ๋ฐฉ์‹์€ ์‚ฌ์ „์— ์ •์˜๋œ ์นด๋ฉ”๋ผ ์›€์ง์ž„ ํ† ํฐ(์˜ˆ: Pan left, Orbit right)์— ์˜์กดํ•˜๋Š”๋ฐ, ์‚ฌ์šฉ์ž๊ฐ€ ์•„์ฃผ ๋ณต์žกํ•˜๊ณ  ์ž์œ ๋กœ์šด ์นด๋ฉ”๋ผ ์›Œํ‚น์„ ์š”๊ตฌํ•  ๊ฒฝ์šฐ ์ด๋ฅผ ์™„๋ฒฝํžˆ ํ‘œํ˜„ํ•˜๊ธฐ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅํ•œ ์ 

ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋งŒ์œผ๋กœ ๋” ์ž์œ ๋กญ๊ณ  ์ •๊ตํ•œ ์นด๋ฉ”๋ผ ์ œ์–ด๊ฐ€ ๊ฐ€๋Šฅํ•˜๋„๋ก ์•”๋ฌต์  ์ปจ๋””์…”๋‹ ๋ฐฉ๋ฒ•์„ ๊ณ ๋„ํ™”ํ•  ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ˜„์žฌ๋Š” ์ •์ ์ธ 3D ๊ตฌ์กฐ์— ์ง‘์ค‘ํ•˜์ง€๋งŒ, ํ–ฅํ›„์—๋Š” ๋น›๊ณผ ๊ทธ๋ฆผ์ž์˜ ๋ณ€ํ™”๋‚˜ ๋ฌผ์ฒด์˜ ์ถฉ๋Œ ๋“ฑ ๋” ๋ณต์žกํ•œ ๋ฌผ๋ฆฌ ๋ฒ•์น™๊นŒ์ง€ ์•„์šฐ๋ฅด๋Š” โ€˜์ง„์ •ํ•œ ์›”๋“œ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐโ€™๋กœ ํ™•์žฅ๋  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์–ด๋””์— ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅ?

์ด ๊ธฐ์ˆ ์€ ๊ฐ€์ƒ ํ˜„์‹ค(VR) ์ฝ˜ํ…์ธ  ์ƒ์„ฑ์ด๋‚˜ ์ž์œจ ์ฃผํ–‰ ์ž๋™์ฐจ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ฐœ๋ฐœ์— ์ฆ‰์‹œ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๊ฒŒ์ž„ ๊ฐœ๋ฐœ ์ธก๋ฉด์—์„œ, 3D ๋ชจ๋ธ๋ง์„ ์ผ์ผ์ด ํ•˜์ง€ ์•Š๊ณ ๋„ ํ…์ŠคํŠธ๋งŒ์œผ๋กœ ๋ฌผ๋ฆฌ ๋ฒ•์น™์„ ์ค€์ˆ˜ํ•˜๋Š” ๋ฐฐ๊ฒฝ ์˜์ƒ์ด๋‚˜ ์ปท์‹ ์„ ๋งŒ๋“ค์–ด๋‚ผ ์ˆ˜ ์žˆ์–ด ์ œ์ž‘ ๋น„์šฉ์„ ํš๊ธฐ์ ์œผ๋กœ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

์ด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ ์šฉํ•˜๋ ค๋ฉด ์ด๋ฏธ ํ•™์Šต๋œ ๊ฐ•๋ ฅํ•œ ๋น„๋””์˜ค ์ƒ์„ฑ ๊ธฐ์ดˆ ๋ชจ๋ธ(Video Foundation Model)๊ณผ ๋”๋ถˆ์–ด, 3D ๊ตฌ์กฐ๋ฅผ ํŒ๋‹จํ•  ์ˆ˜ ์žˆ๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ 3D ๋ชจ๋ธ ๋ฐ VLM์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ•ํ™”ํ•™์Šต ๊ณผ์ •์ด ํฌํ•จ๋˜์–ด ์žˆ์œผ๋ฏ€๋กœ ์ถฉ๋ถ„ํ•œ GPU ๋ฉ”๋ชจ๋ฆฌ์™€ ์—ฐ์‚ฐ ์‹œ๊ฐ„์ด ํ™•๋ณด๋˜๋Š” ๊ณ ์„ฑ๋Šฅ ์ปดํ“จํŒ… ํ™˜๊ฒฝ์ด ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. Flow Matching (ํ”Œ๋กœ์šฐ ๋งค์นญ): ๋…ธ์ด์ฆˆ์—์„œ ์›๋ณธ ์ด๋ฏธ์ง€๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ํ™•๋ฅ ์  ๊ณผ์ •์„ ํ•™์Šตํ•˜๋Š” ์ƒ์„ฑ ๋ชจ๋ธ์˜ ํ•œ ์ข…๋ฅ˜๋กœ, ์ตœ๊ทผ Diffusion ๋ชจ๋ธ์˜ ๋Œ€์•ˆ์œผ๋กœ ๋– ์˜ค๋ฅด๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.
  2. Reinforcement Learning (๊ฐ•ํ™”ํ•™์Šต): ์—์ด์ „ํŠธ๊ฐ€ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ํ–‰๋™์„ ํ•™์Šตํ•˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹์˜ ํ•œ ๋ถ„์•ผ์ž…๋‹ˆ๋‹ค.
  3. SDE & ODE (ํ™•๋ฅ /๊ฒฐ์ • ๋ฏธ๋ถ„ ๋ฐฉ์ •์‹): ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ๋ณ€ํ™”๋ฅผ ๋ฌ˜์‚ฌํ•˜๋Š” ๋ฐฉ์ •์‹์œผ๋กœ, ODE๋Š” ๊ฒฐ๊ณผ๊ฐ€ ํ•˜๋‚˜๋กœ ์ •ํ•ด์ง€์ง€๋งŒ SDE๋Š” ๋ฌด์ž‘์œ„์„ฑ(ํ™•๋ฅ )์ด ํฌํ•จ๋œ ๊ฒฝ๋กœ๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
  4. 3D Geometry (3D ๊ธฐํ•˜ํ•™): ์นด๋ฉ”๋ผ์˜ ์™ธ๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ(Extrinsic Matrix)๋‚˜ ๊ด‘ํ•™ ํ๋ฆ„(Optical Flow) ๋“ฑ 3D ๊ณต๊ฐ„์ƒ์—์„œ์˜ ์›€์ง์ž„๊ณผ ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๋Š” ์ง€์‹์ž…๋‹ˆ๋‹ค.
  5. Vision-Language Model (VLM): ์ด๋ฏธ์ง€๋‚˜ ๋น„๋””์˜ค๋ฅผ ๋ณด๊ณ  ํ…์ŠคํŠธ๋กœ ์„ค๋ช…ํ•˜๊ฑฐ๋‚˜, ํ…์ŠคํŠธ ๋ช…๋ น์–ด๋กœ ์‹œ๊ฐ์  ์ฝ˜ํ…์ธ ๋ฅผ ์ดํ•ดํ•˜๊ณ  ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  6. GRPO (Group Relative Policy Optimization): PPO(Proximal Policy Optimization)์˜ ๋ณ€ํ˜•์œผ๋กœ, ์—ฌ๋Ÿฌ ์ƒ˜ํ”Œ ๊ทธ๋ฃน์„ ๋™์‹œ์— ์ƒ์„ฑํ•˜์—ฌ ์ƒ๋Œ€์ ์ธ ๋ณด์ƒ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ •์ฑ…์„ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.
  7. Camera Extrinsics (์นด๋ฉ”๋ผ ์™ธ๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ): 3D ๊ณต๊ฐ„์—์„œ ์นด๋ฉ”๋ผ์˜ ์œ„์น˜์™€ ๋ฐฉํ–ฅ(ํšŒ์ „)์„ ์ •์˜ํ•˜๋Š” ํ–‰๋ ฌ๋กœ, ์˜์ƒ ์† ์„ธ์ƒ์„ ๋ฐ”๋ผ๋ณด๋Š” ๊ด€์ ์„ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Recursive Multi-Agent SystemsDD-077
๐ŸฅˆAgentic World Modeling: Foundationsโ€ฆDD-078
๐Ÿฅ‰Heterogeneous Scientific Foundationโ€ฆDD-079
4.From Skills to Talent: Organising Hโ€ฆDD-080
5.World-R1: Reinforcing 3D Constraintโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-05-03 | ๐Ÿค– GLM-4.7 Deep Dive