โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-078 Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond
arXiv: 2604.22748 Upvotes: 219 | Comments: 5 ์์: ์ด๋ฒ ์ฃผ Top 2
๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: Agentic World Modeling
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ์ธ๊ณต์ง๋ฅ ์ฐ๊ตฌ ๋ถ์ผ์ธ ๊ฐํํ์ต, ์ปดํจํฐ ๋น์ , ๋ก๋ด ๊ณตํ ๋ฑ์์ โ์๋ ๋ชจ๋ธ(World Model)โ์ด๋ผ๋ ์ฉ์ด๊ฐ ๊ฐ๊ธฐ ๋ค๋ฅธ ์์ด๋ก ์ฌ์ฉ๋๋ฉฐ ํผ๋์ ์ผ๊ธฐํ๊ณ , ์ด๋ก ์ธํด ๋ชฉํ ์งํฅํ ์์ด์ ํธ๋ฅผ ๊ฐ๋ฐํ๋ ๋ฐ ์์ด ํ์คํ๋ ์ง์นจ์ด ๋ถ์กฑํ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ด๋ฌํ ํผ๋์ ํด์ํ๊ธฐ ์ํด ์๋ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ 3๋จ๊ณ๋ก ๊ณ์ธตํํ๊ณ , 4๊ฐ์ง ์ง๋ฐฐ ๋ฒ์น ์ฒด๊ณ๋ฅผ ๋์ ํ์ฌ ํตํฉ์ ์ธ ๋ถ๋ฅ ์ฒด๊ณ(Taxonomy)๋ฅผ ์ ์ํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ฐ๊ตฌ์๋ค์ ๋จ์ํ ์์ธก์ ๋์ด ์ค์ค๋ก ์งํํ๋ ์ง๋ฅํ ์์คํ (L3 Evolver)์ ๊ฐ๋ฐํ๊ธฐ ์ํ ๋ช ํํ ๋ก๋๋งต์ ์ป๊ฒ ๋์์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
๋น์ : ๋น๋์ค ๊ฒ์์ ํ๋ ์ดํ๋ AI
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ์ดํดํ๋ ค๋ฉด, ๋ณต์กํ ์คํ ์๋ ๋น๋์ค ๊ฒ์์ ๋ฐฐ์ฐ๋ AI๋ฅผ ์์ํด ๋ณด์ธ์. ๋ ผ๋ฌธ์ ์ด AI๊ฐ ์ธ์์ ์ดํดํ๋ ๋ฅ๋ ฅ์ ์ธ ๋จ๊ณ๋ก ๋๋๋๋ค.
์ฒซ ๋ฒ์งธ ๋จ๊ณ์ธ L1 Predictor๋ โ๋จ์ํ ๋ฐ์ฌ ์ ๊ฒฝโ์ ๋น์ ํ ์ ์์ต๋๋ค. AI๊ฐ ํ๋ฉด์ ๋ณด๊ณ ์ง๊ธ ๋ฒํผ์ ๋๋ฅด๋ฉด, ๋ค์ 1์ด ๋ค์ ์บ๋ฆญํฐ๊ฐ ์ด๋๋ก ์์ง์ผ์ง ์ ํํ๊ฒ ๋ง์ถ๋ ๋จ๊ณ์ ๋๋ค. ์๋ฅผ ๋ค์ด โ์ ํ ๋ฒํผ์ ๋๋ฅด๋ฉด ์บ๋ฆญํฐ๊ฐ ๊ณต์ค์ผ๋ก ๋ ์ค๋ฅธ๋คโ๋ ๊ฒ์ ์๋ ๊ฒ์ด์ฃ . ์ด ๋จ๊ณ๋ ๋น์ฅ์ ๋ค์ ์๊ฐ๋ง ์์ธกํฉ๋๋ค.
๋ ๋ฒ์งธ ๋จ๊ณ์ธ L2 Simulator๋ โ๋จธ๋ฆฟ์ ์๋ฎฌ๋ ์ด์ โ ๋ฅ๋ ฅ์ ๋๋ค. AI๊ฐ ๊ฒ์ ํจ๋๋ฅผ ์ค์ ๋ก ๋๋ฅด์ง ์๊ณ ๋จธ๋ฆฟ์์ผ๋ก ์๋ฎฌ๋ ์ด์ ์ ๋๋ ค๋ด ๋๋ค. โ๋ง์ฝ ์ฌ๊ธฐ์ ์ ํํ๊ณ ๋์ ๋ฌ๋ฆฌ๋ฉด 10์ด ๋ค์ ํจ์ ์ ํผํ ์ ์์๊น?โ๋ผ๊ณ ์ค์ค๋ก์๊ฒ ์ง๋ฌธํ๊ณ ๊ฐ์์ ๋ฏธ๋๋ฅผ ๊ทธ๋ ค๋ด ๋๋ค. ์ค์ํ ๊ฑด ๋จ์ํ ๋ฏธ๋๋ฅผ ๊ทธ๋ฆฌ๋ ๊ฒ ์๋๋ผ, ๊ฒ์์ ๋ฌผ๋ฆฌ ๋ฒ์น(์ค๋ ฅ, ์ฅ์ ๋ฌผ ์ถฉ๋ ๋ฑ)์ ์งํค๋ฉด์ ๊ทธ๋ ค์ผ ํ๋ค๋ ์ ์ ๋๋ค. ์ปต์ด ํ ์ด๋ธ์ ๋ซ๊ณ ์ง๋๊ฐ๋ ๋ง๋ ์ ๋๋ ์๋ฎฌ๋ ์ด์ ์ L2๋ผ ๋ถ๋ฅผ ์ ์์ต๋๋ค.
์ธ ๋ฒ์งธ ๋จ๊ณ์ธ L3 Evolver๋ โ๊ณผํ์์ ๊ฐ์ ํ์ต ๋ฅ๋ ฅโ์ ๋๋ค. AI๊ฐ ๋จธ๋ฆฟ์ ์๋ฎฌ๋ ์ด์ ์ ํ๋๋ฐ ์ค์ ๋ก ํด๋ณด๋ ๊ฒฐ๊ณผ๊ฐ ๋ฌ๋๋ค๊ณ ๊ฐ์ ํด ๋ด ์๋ค. ์๋ฅผ ๋ค์ด โ์ด ๋์์ ํ๋ฉด ๋ ์ ์์ ์ค ์์๋๋ฐ ๋จ์ด์ก์ดโ๋ผ๊ณ ์คํจ๋ฅผ ๊ฒฝํํฉ๋๋ค. L3 ์์ด์ ํธ๋ ์ด ์คํจ์์ ๊ตํ์ ์ป์ด ์์ ์ด ๊ฐ์ง๊ณ ์๋ ์ธ์์ ๋ฒ์น(๋ชจ๋ธ) ์์ฒด๋ฅผ ์์ ํฉ๋๋ค. ์ค์ค๋ก ์๋ก์ด ์คํ์ ์ค๊ณํ๊ณ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์์ ์์ ์ ๋(๋ชจ๋ธ)๋ฅผ ์ ๋ฐ์ดํธํ๋ ์ง์ ํ ์ง๋ฅ์ ๋จ๊ณ์ ๋๋ค.
ํต์ฌ ์์๊ณผ ์๊ณ ๋ฆฌ์ฆ
๋ ผ๋ฌธ์ ์ด ๊ณผ์ ์ ์ํ์ ์ผ๋ก ๋ค์๊ณผ ๊ฐ์ด ์ ์ํฉ๋๋ค.
L1 Predictor๋ ํ์ฌ ์ํ์ ํ๋์ด ์ฃผ์ด์ก์ ๋ ๋ค์ ์ํ๋ฅผ ์์ธกํ๋ ํ๋ฅ ์ ๋ํ๋ ๋๋ค. ์ด๋ฅผ ์์์ผ๋ก ํํํ๋ฉด p_theta(z_t | z_{t-1}, a_{t-1})์ ๊ฐ์ต๋๋ค. ์ฌ๊ธฐ์ z๋ ์ํ, a๋ ํ๋์ ์๋ฏธํ๋ฉฐ, ์ด๋ ๋ง๋ฅด์ฝํ ์ฐ์(Markov Chain)์ ํ ๋จ๊ณ๋ฅผ ํ์ตํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค.
L2 Simulator๋ ์ด L1๋ค์ ์ฐ๊ฒฐํ์ฌ ์ฅ๊ธฐ์ ์ธ ๋ฏธ๋ ๊ถค์ (Trajectory)์ ์์ธกํฉ๋๋ค. ์์์ผ๋ก๋ p_hat(tau | z_0, a_{1:H}, c)๋ก ํํํ ์ ์์ต๋๋ค. ์ฌ๊ธฐ์ ์ค์ํ ๋ณ์๋ c๋ก, ์ด๋ ํด๋น ๋๋ฉ์ธ์ ๋ฒ์น(๋ฌผ๋ฆฌ์ , ์ฌํ์ ์ ์ฝ ์กฐ๊ฑด ๋ฑ)์ ์๋ฏธํฉ๋๋ค. AI๋ ์ด ๋ฒ์น๋ค์ ์๋ฐํ์ง ์์ผ๋ฉด์ ๋ฏธ๋๋ฅผ ์๋ฎฌ๋ ์ด์ ํด์ผ ํฉ๋๋ค.
L3 Evolver๋ ์์ธก์ด ์คํจํ์ ๋ ์ด๋ฅผ ๊ฐ์งํ๊ณ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ theta๋ฅผ ์์จ์ ์ผ๋ก ์์ ํ๋ ํผ๋๋ฐฑ ๋ฃจํ๋ฅผ ํฌํจํฉ๋๋ค. ๋จ์ํ ์ค์ฐจ๋ฅผ ์ค์ด๋ ๊ฒ์ด ์๋๋ผ, ๊ฐ์ค์ ์ธ์ฐ๊ณ ์คํํ์ฌ ์ง์ ์์ฒด๋ฅผ ๊ฐ์ ํ๋ ๊ณผ์ ์ ์๊ณ ๋ฆฌ์ฆํํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ด ๋ ผ๋ฌธ์ ๋จ์ผํ ์๋ก์ด ๋ชจ๋ธ์ ์ ์ํ๋ ์ฑ๊ฒฉ๋ณด๋ค๋, ๊ธฐ์กด์ ๋ค์ํ ์์คํ ์ ๋ถ๋ฅํ๊ณ ํ๊ฐํ๋ ํ(Frameowrk)์ ์ ์ํ๋ ๊ฒ์ด ํต์ฌ์ ๋๋ค. ๋ฐ๋ผ์ ์ ํต์ ์ธ ๋ฒค์น๋งํฌ์์์ ์์น ๋น๊ต๋ณด๋ค๋, ์ ์๋ L3 ๋จ๊ณ์ ์คํ ๊ฐ๋ฅ์ฑ์ ๊ฒ์ฆํ๋ ์ฌ๋ก ์ฐ๊ตฌ(Case Study) ์ค์ฌ์ผ๋ก ๊ฒฐ๊ณผ๋ฅผ ์ ์ํฉ๋๋ค.
๋ ผ๋ฌธ์ ์์จ ๊ณผํ(Autonomous Science) ๋ถ์ผ์ ์์คํ ์ธ CAMEO์ A-Lab์ L3 Evolver์ ๋ํ์ ์ธ ์ฑ๊ณต ์ฌ๋ก๋ก ์ธ๊ธํ๋ฉฐ ๋ถ์ํ์ต๋๋ค. ์ด ์์คํ ๋ค์ ์คํ ์ค๊ณ๋ถํฐ ๊ฒฐ๊ณผ ๋ถ์, ๋ชจ๋ธ ์์ ๊น์ง ์์จ์ ์ผ๋ก ์ํํ์ฌ ์ค์ ๋ก ์๋ก์ด ๋ฌผ์ง์ ํฉ์ฑํ๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค. ์ด๋ L3 ๋ฅ๋ ฅ์ด ๋จ์ํ ์ด๋ก ์ด ์๋๋ผ ์ค์ ๊ณผํ์ ๋ฐ๊ฒฌ์ ๊ธฐ์ฌํ ์ ์์์ ์ ์ฆํ ๊ฒ์ ๋๋ค.
๋ํ, L2 Simulator ๋จ๊ณ์์์ ํ๊ฐ ์งํ๋ก ์ ์๋ โ๊ฐ์ ๋ฏผ๊ฐ๋(Intervention Sensitivity)โ์ โ์ ์ฝ ์กฐ๊ฑด ์ผ๊ด์ฑ(Constraint Consistency)โ์ ํตํด ๊ธฐ์กด์ ๋น๋์ค ์์ฑ ๋ชจ๋ธ๋ค์ด ๋ฌผ๋ฆฌ ๋ฒ์น์ ์๋ฐํ๋ ๋๋ฆฌํํธ(Drift) ํ์์ ์ผ๋ง๋ ๋ณด์ฌ์ฃผ๋์ง ์ ๋์ ์ผ๋ก ๋ถ์ํ์ต๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, ๊ธฐ์กด์ ๊ณ ์ฑ๋ฅ ์์ฑ ๋ชจ๋ธ๋ค์กฐ์ฐจ L2 ์์ค์ ์์ฌ ๊ฒฐ์ ์ ์ฌ์ฉํ๊ธฐ์๋ ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ์ด ๋ถ์กฑํจ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ํฅํ ๊ฐ์ ๋ฐฉํฅ์ ์ ์ํ์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๋ค์ ํ์ฌ์ L3 ์์คํ ๋ค์ด ์ฃผ๋ก ์ ํ๋ ์คํ์ค ํ๊ฒฝ(์: ์ฌ๋ฃ ๊ณผํ)์์๋ง ์ฑ๊ณตํ๊ณ ์๋ค๋ ์ ์ ํ๊ณ๋ก ์ง์ ํฉ๋๋ค. ์ด๋ฆฐ ์ธ์(Open World)์ด๋ ๋ณต์กํ ์ฌํ์ ์ํธ์์ฉ์ด ํฌํจ๋ ํ๊ฒฝ์์๋ L3๊ฐ ์๋ํ๊ธฐ ์ํ ๋น์ฉ์ด ๋๋ฌด ๋๊ณ ๋ถํ์ค์ฑ์ด ํฝ๋๋ค.
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก๋ 4๊ฐ์ง ๋ฒ์น ์ฒด๊ณ(๋ฌผ๋ฆฌ, ๋์งํธ, ์ฌํ, ๊ณผํ)๋ฅผ ํตํฉํ๋ ํตํฉ ๋ชจ๋ธ ๊ฐ๋ฐ์ด ์ ์๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ก๋ด์ด ๋ฌผ๋ฆฌ ๋ฒ์น(L1)์ ์งํค๋ฉฐ ์์ง์ด๋, ์ฌ๋์ ์ฌํ์ ๊ท์น(์ฌํ์ ๋ฒ์น)๊น์ง ์ดํดํ๋ฉฐ ์ํธ์์ฉํ๋ ์์คํ ์ ๋ง๋๋ ๊ฒ์ด ๋ชฉํ์ ๋๋ค. ๋ํ, L3 ์์ด์ ํธ๊ฐ ์์ ์ ๋ชจ๋ธ์ ์์ ํ ๋ ๋๋ ๊ณ์ฐ ๋น์ฉ์ ์ค์ด๊ณ ํจ์จ์ฑ์ ๋์ด๋ ์๊ณ ๋ฆฌ์ฆ ์ฐ๊ตฌ๋ ํ์ํฉ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด ๋ ผ๋ฌธ์ ํ๋ ์์ํฌ๋ ๋ก๋ด ๊ณตํ๊ณผ ์์จ ์ฃผํ ๋ถ์ผ์ ์ฆ์ ์ ์ฉํ ์ ์์ต๋๋ค. ํนํ L2 Simulator ๊ธฐ๋ฅ์ ์ค์ ๋ก๋ด์ ์์ง์ด๊ธฐ ์ ์ ๊ฐ์ ํ๊ฒฝ์์ ์๋ง ๋ฒ์ ์๋ฎฌ๋ ์ด์ ์ ํตํด ์์ ํ ๊ฒฝ๋ก๋ฅผ ๊ณํํ๋ ๋ฐ ์ฌ์ฉ๋ ์ ์์ต๋๋ค. ์ด๋ ์ค์ ์ฌ๊ณ ๋ฅ ์ ํ๊ธฐ์ ์ผ๋ก ๋ฎ์ถ๊ณ ํ๋์จ์ด ๋น์ฉ์ ์ ๊ฐํด ์ค๋๋ค.
๋ํ, ์ํํธ์จ์ด ํ ์คํธ ์๋ํ(Digital World Model) ๋ถ์ผ์๋ ์ ํฉํฉ๋๋ค. AI๊ฐ ์๋ก์ด ์ฝ๋๋ฅผ ์์ฑํ๊ฑฐ๋ ์์ ํ ๋, L2 ์์ค์ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ํตํด ์ด ์ฝ๋๊ฐ ์์คํ ์ ๋ค๋ฅธ ๋ถ๋ถ์ ๋ฏธ์น ์ํฅ์ ๋ฏธ๋ฆฌ ์์ธกํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ํ์ํ ๋ฆฌ์์ค ์ธก๋ฉด์์๋ L1๊ณผ L2๋ฅผ ๊ตฌ์ถํ๋ ๋ฐ ์๋นํ ์์ GPU์ ๊ณ ํ์ง์ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ๊ฐ ํ์ํ์ง๋ง, ํ๋ฒ ๊ตฌ์ถ๋๋ฉด ์ค์ ํ๊ฒฝ์์์ ํ ์คํธ ๋น์ฉ์ ํฌ๊ฒ ์๋ ์ ์์ต๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- POMDP (Partially Observable Markov Decision Process): ์์ด์ ํธ๊ฐ ํ๊ฒฝ์ ๋ชจ๋ ์ํ๋ฅผ ์๋ฒฝํ๊ฒ ๊ด์ฐฐํ ์ ์์ ๋, ๋ด๋ถ์ ๋ฏฟ์(Belief) ์ํ๋ฅผ ์ ์งํ๋ฉฐ ์์ฌ ๊ฒฐ์ ์ ๋ด๋ฆฌ๋ ์ํ์ ํ๋ ์์ํฌ์ ๋๋ค.
- Markov Property: ๋ฏธ๋์ ์ํ๋ ์ค์ง ํ์ฌ์ ์ํ์๋ง ์์กดํ๊ณ , ๊ณผ๊ฑฐ์ ์ด๋ ฅ์๋ ์์กดํ์ง ์๋ ์ฑ์ง์ ๋งํฉ๋๋ค.
- Latent Dynamics Model: ๊ด์ฐฐ๋ ๋ฐ์ดํฐ(์ด๋ฏธ์ง, ํ ์คํธ ๋ฑ)๋ฅผ ์์ถ๋ ์ ์ฌ ๊ณต๊ฐ(Latent Space)์ผ๋ก ํํํ๊ณ , ๊ทธ ์์์ ์ํ ๋ณํ๋ฅผ ํ์ตํ๋ ๋ชจ๋ธ์ ๋๋ค.
- Model-Based Reinforcement Learning: ์ค์ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ์ฌ ๋ฐฐ์ฐ๋ ๋์ , ํ๊ฒฝ์ ๋ชจ๋ธ์ ๋ฐฐ์์ ๊ทธ ๋ชจ๋ธ ์์์ ๊ณํํ๊ณ ํ์ตํ๋ ๊ฐํํ์ต ๋ฐฉ์์ ๋๋ค.
- Causal Inference (์ธ๊ณผ ์ถ๋ก ): ๋จ์ํ ์๊ด๊ด๊ณ๋ฅผ ๋์ด, ๋ณ์ ๊ฐ์ ์ธ๊ณผ ๊ด๊ณ(์์ธ๊ณผ ๊ฒฐ๊ณผ)๋ฅผ ํ์ ํ๋ ๋ฐฉ๋ฒ๋ก ์ผ๋ก, L2์ ๊ฐ์ (Intervention) ๋ฅ๋ ฅ๊ณผ ๊น์ ๊ด๋ จ์ด ์์ต๋๋ค.
- Sim-to-Real: ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ํ์ต๋ ์ง์์ด๋ ์ ์ฑ ์ ์ค์ ํ์ค ์ธ๊ณ๋ก ์ ์ด(Transfer)์ํค๋ ๊ธฐ์ ์ ๋๋ค.
- Active Learning: ๋ชจ๋ธ์ด ์ค์ค๋ก ๋ฐ์ดํฐ ์ค์์ ์ด๋ค ์ํ์ ํ์ตํด์ผ ์ฑ๋ฅ์ด ๊ฐ์ฅ ๋ง์ด ํฅ์๋ ์ง๋ฅผ ํ๋จํ์ฌ ๋ผ๋ฒจ๋ง์ ์์ฒญํ๊ฑฐ๋ ์คํ์ ์ค๊ณํ๋ ํ์ต ๋ฐฉ๋ฒ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Recursive Multi-Agent Systems | DD-077 |
| ๐ฅ | Agentic World Modeling: Foundationsโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | Heterogeneous Scientific Foundationโฆ | DD-079 |
| 4. | From Skills to Talent: Organising Hโฆ | DD-080 |
| 5. | World-R1: Reinforcing 3D Constraintโฆ | DD-081 |
๐ ์์ฑ์ผ: 2026-05-03 | ๐ค GLM-4.7 Deep Dive