โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-081 World-R1: Reinforcing 3D Constraints for Text-to-Video Generation
arXiv: 2604.24764 ๊ธฐ๊ด: Microsoft Research Upvotes: 115 | Comments: 3 ์์: ์ด๋ฒ ์ฃผ Top 5
์๋ ํ์ธ์. AI/ML ์ ๋ฌธ๊ฐ๋ก์ ํฅ๋ฏธ๋ก์ด ๋ ผ๋ฌธ์ ๋ถ์ํด ๋๋ฆฌ๊ฒ ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ต๊ทผ ํซํ ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ โ3D ๊ณต๊ฐ ์ธ์ ๋ฅ๋ ฅโ์ ๊ฐํํ๋ ์์ฃผ cleverํ ์ ๊ทผ ๋ฐฉ์์ ๋ค๋ฃจ๊ณ ์์ต๋๋ค. ์ฃผ๋์ด ๊ฐ๋ฐ์๋ถ๋ ์ฝ๊ฒ ์ดํดํ์ค ์ ์๋๋ก ๋น์ ๋ฅผ ๋ค์ด ์ค๋ช ํด ๋๋ฆด๊ฒ์.
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ํ ์คํธ-๋น๋์ค ์์ฑ ๋ชจ๋ธ๋ค์ ์์์ ์์ฃผ ๋ฉ์ง๊ฒ ๋ง๋ค์ด๋ด์ง๋ง, ์นด๋ฉ๋ผ๊ฐ ํฌ๊ฒ ์์ง์ด๋ฉด ์ฌ๋ฌผ์ด ๋คํ๋ฆฌ๊ฑฐ๋ ๊ฐ์๊ธฐ ์ฌ๋ผ์ง๋ ๋ฑ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ง๋ ์ ๋๋ โ๊ธฐํํ์ ํ๊ฐ(Geometric Hallucination)โ ๋ฌธ์ ๋ฅผ ๊ฒช์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ชจ๋ธ ๊ตฌ์กฐ ์์ฒด๋ฅผ ๋ฏ์ด๊ณ ์น๋ ๊ธฐ์กด ๋ฐฉ์๋ค์ ์ฐ์ฐ ๋น์ฉ์ด ๋๋ฌด ๋น์ธ๊ณ ํ์ฅ์ฑ์ด ๋จ์ด์ง๋ค๋ ์น๋ช ์ ์ธ ๋จ์ ์ด ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋ชจ๋ธ ๊ตฌ์กฐ๋ ๊ฑด๋๋ฆฌ์ง ์๊ณ , ๊ฐํํ์ต(Reinforcement Learning)์ ํตํด ๋ชจ๋ธ์ด ์ค์ค๋ก 3D ๋ฌผ๋ฆฌ ๋ฒ์น์ ์งํค๋๋ก ํ๋ จ์ํค๋ ํจ์จ์ ์ธ ํ๋ ์์ํฌ์ธ World-R1์ ์ ์ํ์ฌ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ โ๋ชจ๋ฒ์ ํ๊ฐโ ๋น์ ๋ก ์ดํดํ ์ ์์ต๋๋ค. ๊ธฐ์กด์ ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ๋ง์น 2D ํ๋ฉด์ ์์ฃผ ๋ฉ์ง ๊ทธ๋ฆผ์ ์ ๊ทธ๋ฆฌ์ง๋ง, ์ ์ฒด๊ฐ์ด๋ ์๊ทผ๋ฒ์ ์ดํดํ์ง ๋ชปํ๋ ํ๊ฐ์ ๊ฐ์ต๋๋ค. ์นด๋ฉ๋ผ๊ฐ ๋์๊ฐ๋ฉด ๊ทธ๋ฆผ ์ ์ฌ๋ฌผ์ด ์ฐ๊ทธ๋ฌ์ง์ฃ . ๊ธฐ์กด ์ฐ๊ตฌ์๋ค์ ํ๊ฐ์๊ฒ โ3D ์๊ฒฝโ์ ์์ฐ๊ณ ์๋ฅผ ๋ค์ด๋๋ฉฐ ์ต์ง๋ก ์๊ทผ๋ฒ์ ๋ง์ถ๊ฒ ํ๋๋ฐ(๊ตฌ์กฐ์ ์์ ), ์ด๋ ํ๊ฐ์ ์๋๋ฅผ ๋ฆ์ถ๊ณ creativity๋ฅผ ๋จ์ด๋จ๋ ธ์ต๋๋ค.
๋ฐ๋ฉด World-R1์ ํ๊ฐ์๊ฒ ๊ทธ๋ฆผ์ ๊ทธ๋ฆฌ๊ฒ ๋ด๋ฒ๋ ค ๋๋, ์์์ โ๋ฏธ์ ํ๋ก ๊ฐโ์ธ 3D ์ ๋ฌธ๊ฐ๊ฐ ํผ๋๋ฐฑ์ ์ฃผ๋ ๋ฐฉ์์ ์ฑํํ์ต๋๋ค. โ์๊ทผ๋ฒ์ด ์ด์ํ๋คโ, โ๋ฌผ์ฒด๊ฐ ๋น๋ฌผ๋ฆฌ์ ์ผ๋ก ์์ง์๋คโ๋ผ๊ณ ์ง์ ํ๋ฉด(๋ณด์ ์ ํธ), ํ๊ฐ๊ฐ ๋ค์ ๋ฒ์๋ ๋ถ์ง์ ์กฐ๊ธ ๋ ๊ต์ ํด์ ๊ทธ๋ฆฌ๋ ์์ ๋๋ค. ์ฆ, ํ๊ฐ์ ๋๊ตฌ(๋ชจ๋ธ ๊ตฌ์กฐ)๋ ๋ฐ๊พธ์ง ์๊ณ , ํ๊ฐ์ โํ๋ ํจํด(๊ฐ์ค์น)โ์ ํ๋ จ์ํค๋ ๊ฒ์ ๋๋ค.
๋จ๊ณ๋ณ ๋์ ๊ณผ์
- ์๋ฌต์ ์นด๋ฉ๋ผ ์ปจ๋์ ๋(Implicit Camera Conditioning): ๋จผ์ ์ฌ์ฉ์๊ฐ โ์นด๋ฉ๋ผ๋ฅผ ์ผ์ชฝ์ผ๋ก ํจ๋(Pan)ํดโ๋ผ๊ณ ๋ช ๋ นํ๋ฉด, ์ด ๋ ผ๋ฌธ์ ๋ฐฉ์์ ๊ทธ ์๋๋ฅผ ์์ฃผ ์ด๊ธฐ์ โ๋ ธ์ด์ฆ(๋ฌด์์ ์ ๋ค)โ ๋จ๊ณ์ ์จ๊ฒจ์ ์์ด ๋ฃ์ต๋๋ค. ๋ง์น ๋ํ์ง์ ๋ถ์ ๋๊ธฐ ์ ๋ถํฐ, ์ผ์ชฝ์ผ๋ก ๊ทธ๋ ค์ผ ํ๋ค๋ ์๋๋ฅผ ๋ถ์ง์ ํ๋ฆ์ ๋ฏธ๋ฆฌ ๋ น์ฌ๋ฃ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋ณ๋์ ์ ์ด ๋ชจ๋ ์์ด๋ ๋ชจ๋ธ์ด ์์ฐ์ค๋ฝ๊ฒ ์นด๋ฉ๋ผ ์์ง์์ ๋ฐ๋ผ๊ฐ๋๋ค.
- ํ๋ฅ ์ ์ํ๋ง๊ณผ ํ์(Stochastic Sampling via SDE): ์ผ๋ฐ์ ์ธ ์์ฑ ๋ชจ๋ธ์ ์ ํด์ง ๊ธธ(ODE)์ ๋ฐ๋ผ ๊ทธ๋ฆผ์ ๊ทธ๋ฆฌ์ง๋ง, ๊ฐํํ์ต์ ํ๋ ค๋ฉด ์ฌ๋ฌ ๊ฐ์ง ์๋๋ฅผ ํด๋ด์ผ ํฉ๋๋ค. ๊ทธ๋์ ์๋์ ์ผ๋ก ์ฝ๊ฐ์ โํ๋ค๋ฆผ(๋ ธ์ด์ฆ)โ์ ์ฃผ์ด(SDE) ๊ฐ์ ๋ช ๋ น์ด๋ผ๋ ์กฐ๊ธ์ฉ ๋ค๋ฅธ ๊ฒฐ๊ณผ๋ฌผ์ด ๋์ค๋๋ก ๋ง๋ญ๋๋ค.
- ๋ณด์ ๊ธฐ๋ฐ ์ต์ ํ(Reward Optimization with Flow-GRPO): ์์ฑ๋ ์ฌ๋ฌ ๋ฒ์ ์ ์์์ ๋ฏธ๋ฆฌ ํ์ต๋ 3D ๊ธฐ์ด ๋ชจ๋ธ๊ณผ ๋น์ -์ธ์ด ๋ชจ๋ธ(VLM)์๊ฒ ๋ณด์ฌ์ฃผ๊ณ ์ ์๋ฅผ ๋งค๊น๋๋ค. โ์ด ์์์ 3D ๊ตฌ์กฐ๊ฐ ์ผ๊ด์ฑ์ด ์๋คโ๋ฉด ๋์ ์ ์๋ฅผ, โ์ฌ๋ฌผ์ด ๋๋ ๋๊ธด๋คโ๋ฉด ๋ฎ์ ์ ์๋ฅผ ์ค๋๋ค. ์ด ์ ์๋ฅผ ๋ฐํ์ผ๋ก ๋ชจ๋ธ์ด ์ข์ ๊ทธ๋ฆผ์ ๊ทธ๋ฆด ํ๋ฅ ์ ๋์ด๋ ๋ฐฉํฅ์ผ๋ก ์ค์ค๋ก๋ฅผ ์์ ํฉ๋๋ค(์ ์ฑ ์ต์ ํ).
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ ๋ฐ ์์
์ด ๋ ผ๋ฌธ์ ๊ฒฐ์ ๋ก ์ ํ๋ฆ ๋ชจ๋ธ(Flow Matching)์ ๊ฐํํ์ต์ ํ์ฉํ๊ธฐ ์ํด ํ๋ฅ ์ ๋ฏธ๋ถ ๋ฐฉ์ ์(SDE)์ผ๋ก ๋ณํํ๋ Flow-GRPO ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํฉ๋๋ค.
๊ธฐ์กด์ ๊ฒฐ์ ๋ก ์ ๋ฐฉ์ ์(ODE)์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. $d\mathbf{x}{t} = \mathbf{v}{t} d\mathbf{t}$ (์๊ฐ t์์ ์ํ $x$๊ฐ ์๋ $v$์ ๋ฐ๋ผ ํ์ ์ ์ผ๋ก ์์ง์)
ํ์ง๋ง ๊ฐํํ์ต์ ์ํ ํ์(Exploration)์ ์ํด ์ด ๋ ผ๋ฌธ์ ์ด๋ฅผ ๋ค์๊ณผ ๊ฐ์ SDE๋ก ๋ฐ๊ฟ๋๋ค. $d\mathbf{x}{t} = [\mathbf{v}{t}(\mathbf{x}{t}) + \frac{\sigma{t}^{2}}{2t}(\mathbf{x}{t}+(1-t)\mathbf{v}{t}(\mathbf{x}{t}))]dt + \sigma{t}d\mathbf{w}$
์ฌ๊ธฐ์ ํต์ฌ์ ๋ง์ง๋ง ํญ์ธ $\sigma_{t}d\mathbf{w}$์ ๋๋ค. ์ด๋ ๋ธ๋ผ์ด ์ด๋(์์ด๋ ๊ณผ์ )์ ์ํ ๋ ธ์ด์ฆ ํญ์ผ๋ก, ๋ชจ๋ธ์ด ์กฐ๊ธ์ฉ ๋ค๋ฅธ ๊ฒฝ๋ก๋ก ์์ฑ๋ฌผ์ ๋ง๋ค์ด๋ผ ์ ์๊ฒ ํด์ค๋๋ค. ์ฆ, โ์ด ๊ธธ๋ก๋ง ๊ฐ๋ผโ๊ฐ ์๋๋ผ โ์ด์ชฝ ๋ฐฉํฅ์ผ๋ก ๊ฐ๋, ์ฝ๊ฐ์ ๋๋คํจ์ ํ์ฉํ์ฌ ๋ค์ํ ๊ธธ์ ์๋ํด ๋ณด๋ผโ๊ณ ๋ช ๋ นํ๋ ์์์ ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ด๋ค ๋ฒค์น๋งํฌ์์ ํ ์คํธ?
์ ์๋ค์ ์๋์ฐจ ์ด์ ์๋๋ฆฌ์ค ๋ฑ ์นด๋ฉ๋ผ๊ฐ ํฌ๊ฒ ์์ง์ด๋ ์์ ์์ฑ์ ์ด์ ์ ๋ง์ถฐ ํ๊ฐ๋ฅผ ์งํํ์ต๋๋ค. ํนํ 3D ์ผ๊ด์ฑ(ํ๋ฉด์ด ํ์ ํด๋ ์ฌ๋ฌผ์ ๋ชจ์์ด ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ์ง)์ ์ธก์ ํ๋ ์ ๋ฌธ์ ์ธ ์งํ๋ค์ ์ฌ์ฉํ์ต๋๋ค.
๊ธฐ์กด SOTA ๋๋น ์ผ๋ง๋ ์ข์์ก๋?
๊ตฌ์ฒด์ ์ธ ์์น๋ ์๋ฌธ์ ํ๋ฅผ ์ฐธ๊ณ ํด์ผ ํ์ง๋ง, ๋ ผ๋ฌธ์ ์์ ์ ๋ฐ๋ฅด๋ฉด ๊ธฐ์กด ์ต์ ๋ฐฉ์(SOTA)๋ค ๋๋น โ3D ์ผ๊ด์ฑโ์ด ์ ์๋ฏธํ๊ฒ ํฅ์๋์์ต๋๋ค. ์ค์ํ ์ ์ ๊ธฐ์กด ๋ฐฉ์๋ค์ด 3D๋ฅผ ๋ง์ถ๋ ค๊ณ ์์์ ํ์ง์ด๋ ๋ค์ด๋ด๋ฏนํจ์ ํฌ์ํ๋ ๊ฒฝํฅ์ด ์์๋ ๋ฐ๋ฉด, World-R1์ ์๋ณธ ๋ชจ๋ธ์ด ๊ฐ์ง๊ณ ์๋ โ์๊ฐ์ ํ์งโ์ ๊ทธ๋๋ก ์ ์งํ๋ฉด์ 3D ๋ฌผ๋ฆฌ์ฑ๋ง ๋์๋ค๋ ์ ์ ๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
๊ฐ์ฅ ์ธ์์ ์ธ ๋ถ๋ถ์ ์ฃผ๊ธฐ์ ์ธ ๋ถ๋ฆฌ ํ๋ จ ์ ๋ต(Periodic Decoupled Training Strategy)์ ์ฌ์ฉํ์ฌ, ๋ฑ๋ฑํ 3D ๊ตฌ์กฐ(Rigid Geometric Consistency)์ ์ ์ฐํ ์ฅ๋ฉด์ ๋ณํ(Dynamic Scene Fluidity) ์ฌ์ด์ ๊ท ํ์ ์ฑ๊ณต์ ์ผ๋ก ์ก์๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ํตํด ์ฌ๋์ด ๊ฑท๊ฑฐ๋ ๋ฌผ๊ฒฐ์ด ์น๋ ์ ์ฐํ ์ฅ๋ฉด๋ 3D ๋ฌผ๋ฆฌ ๋ฒ์น์ ์งํค๋ฉด์ ์์ฐ์ค๋ฝ๊ฒ ์์ฑํด๋์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ
๊ฐํํ์ต ๊ธฐ๋ฐ ๋ฐฉ์์ ํน์ฑ์, ํ์ต ๊ณผ์ ์์ 3D ํ๋จ ๋ชจ๋ธ(Reward Model)์ด ์๋ชป๋ ํผ๋๋ฐฑ์ ์ค ๊ฒฝ์ฐ ์ด๋ฅผ ํ์ตํ ์ํ์ด ์์ต๋๋ค. ๋ํ, ํ์ฌ ๋ฐฉ์์ ์ฌ์ ์ ์ ์๋ ์นด๋ฉ๋ผ ์์ง์ ํ ํฐ(์: Pan left, Orbit right)์ ์์กดํ๋๋ฐ, ์ฌ์ฉ์๊ฐ ์์ฃผ ๋ณต์กํ๊ณ ์์ ๋ก์ด ์นด๋ฉ๋ผ ์ํน์ ์๊ตฌํ ๊ฒฝ์ฐ ์ด๋ฅผ ์๋ฒฝํ ํํํ๊ธฐ ์ด๋ ค์ธ ์ ์์ต๋๋ค.
๊ฐ์ ๊ฐ๋ฅํ ์
ํฅํ ์ฐ๊ตฌ์์๋ ํ ์คํธ ํ๋กฌํํธ๋ง์ผ๋ก ๋ ์์ ๋กญ๊ณ ์ ๊ตํ ์นด๋ฉ๋ผ ์ ์ด๊ฐ ๊ฐ๋ฅํ๋๋ก ์๋ฌต์ ์ปจ๋์ ๋ ๋ฐฉ๋ฒ์ ๊ณ ๋ํํ ํ์๊ฐ ์์ต๋๋ค. ๋ํ, ํ์ฌ๋ ์ ์ ์ธ 3D ๊ตฌ์กฐ์ ์ง์คํ์ง๋ง, ํฅํ์๋ ๋น๊ณผ ๊ทธ๋ฆผ์์ ๋ณํ๋ ๋ฌผ์ฒด์ ์ถฉ๋ ๋ฑ ๋ ๋ณต์กํ ๋ฌผ๋ฆฌ ๋ฒ์น๊น์ง ์์ฐ๋ฅด๋ โ์ง์ ํ ์๋ ์๋ฎฌ๋ ์ดํฐโ๋ก ํ์ฅ๋ ์ ์์ ๊ฒ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด๋์ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅ?
์ด ๊ธฐ์ ์ ๊ฐ์ ํ์ค(VR) ์ฝํ ์ธ ์์ฑ์ด๋ ์์จ ์ฃผํ ์๋์ฐจ ์๋ฎฌ๋ ์ด์ ๊ฐ๋ฐ์ ์ฆ์ ํ์ฉํ ์ ์์ต๋๋ค. ํนํ ๊ฒ์ ๊ฐ๋ฐ ์ธก๋ฉด์์, 3D ๋ชจ๋ธ๋ง์ ์ผ์ผ์ด ํ์ง ์๊ณ ๋ ํ ์คํธ๋ง์ผ๋ก ๋ฌผ๋ฆฌ ๋ฒ์น์ ์ค์ํ๋ ๋ฐฐ๊ฒฝ ์์์ด๋ ์ปท์ ์ ๋ง๋ค์ด๋ผ ์ ์์ด ์ ์ ๋น์ฉ์ ํ๊ธฐ์ ์ผ๋ก ์ค์ผ ์ ์์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค
์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ฉํ๋ ค๋ฉด ์ด๋ฏธ ํ์ต๋ ๊ฐ๋ ฅํ ๋น๋์ค ์์ฑ ๊ธฐ์ด ๋ชจ๋ธ(Video Foundation Model)๊ณผ ๋๋ถ์ด, 3D ๊ตฌ์กฐ๋ฅผ ํ๋จํ ์ ์๋ ์ฌ์ ํ์ต๋ 3D ๋ชจ๋ธ ๋ฐ VLM์ด ํ์ํฉ๋๋ค. ๊ฐํํ์ต ๊ณผ์ ์ด ํฌํจ๋์ด ์์ผ๋ฏ๋ก ์ถฉ๋ถํ GPU ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ ์๊ฐ์ด ํ๋ณด๋๋ ๊ณ ์ฑ๋ฅ ์ปดํจํ ํ๊ฒฝ์ด ํ์์ ์ ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- Flow Matching (ํ๋ก์ฐ ๋งค์นญ): ๋ ธ์ด์ฆ์์ ์๋ณธ ์ด๋ฏธ์ง๋ก ๋ณํํ๋ ํ๋ฅ ์ ๊ณผ์ ์ ํ์ตํ๋ ์์ฑ ๋ชจ๋ธ์ ํ ์ข ๋ฅ๋ก, ์ต๊ทผ Diffusion ๋ชจ๋ธ์ ๋์์ผ๋ก ๋ ์ค๋ฅด๋ ๊ธฐ์ ์ ๋๋ค.
- Reinforcement Learning (๊ฐํํ์ต): ์์ด์ ํธ๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ๋ณด์์ ์ต๋ํํ๋ ํ๋์ ํ์ตํ๋ ๋จธ์ ๋ฌ๋์ ํ ๋ถ์ผ์ ๋๋ค.
- SDE & ODE (ํ๋ฅ /๊ฒฐ์ ๋ฏธ๋ถ ๋ฐฉ์ ์): ์๊ฐ์ ๋ฐ๋ฅธ ๋ณํ๋ฅผ ๋ฌ์ฌํ๋ ๋ฐฉ์ ์์ผ๋ก, ODE๋ ๊ฒฐ๊ณผ๊ฐ ํ๋๋ก ์ ํด์ง์ง๋ง SDE๋ ๋ฌด์์์ฑ(ํ๋ฅ )์ด ํฌํจ๋ ๊ฒฝ๋ก๋ฅผ ๋ค๋ฃน๋๋ค.
- 3D Geometry (3D ๊ธฐํํ): ์นด๋ฉ๋ผ์ ์ธ๋ถ ํ๋ผ๋ฏธํฐ(Extrinsic Matrix)๋ ๊ดํ ํ๋ฆ(Optical Flow) ๋ฑ 3D ๊ณต๊ฐ์์์์ ์์ง์๊ณผ ๊ตฌ์กฐ๋ฅผ ์ดํดํ๋ ์ง์์ ๋๋ค.
- Vision-Language Model (VLM): ์ด๋ฏธ์ง๋ ๋น๋์ค๋ฅผ ๋ณด๊ณ ํ ์คํธ๋ก ์ค๋ช ํ๊ฑฐ๋, ํ ์คํธ ๋ช ๋ น์ด๋ก ์๊ฐ์ ์ฝํ ์ธ ๋ฅผ ์ดํดํ๊ณ ํ๊ฐํ ์ ์๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ๋๋ค.
- GRPO (Group Relative Policy Optimization): PPO(Proximal Policy Optimization)์ ๋ณํ์ผ๋ก, ์ฌ๋ฌ ์ํ ๊ทธ๋ฃน์ ๋์์ ์์ฑํ์ฌ ์๋์ ์ธ ๋ณด์์ ๊ธฐ๋ฐ์ผ๋ก ์ ์ฑ ์ ์ ๋ฐ์ดํธํ๋ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
- Camera Extrinsics (์นด๋ฉ๋ผ ์ธ๋ถ ํ๋ผ๋ฏธํฐ): 3D ๊ณต๊ฐ์์ ์นด๋ฉ๋ผ์ ์์น์ ๋ฐฉํฅ(ํ์ )์ ์ ์ํ๋ ํ๋ ฌ๋ก, ์์ ์ ์ธ์์ ๋ฐ๋ผ๋ณด๋ ๊ด์ ์ ๊ฒฐ์ ํฉ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Recursive Multi-Agent Systems | DD-077 |
| ๐ฅ | Agentic World Modeling: Foundationsโฆ | DD-078 |
| ๐ฅ | Heterogeneous Scientific Foundationโฆ | DD-079 |
| 4. | From Skills to Talent: Organising Hโฆ | DD-080 |
| 5. | World-R1: Reinforcing 3D Constraintโฆ | ๐ ํ์ฌ ๋ฌธ์ |
๐ ์์ฑ์ผ: 2026-05-03 | ๐ค GLM-4.7 Deep Dive