โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-043 OpenClaw-RL: Train Any Agent Simply by Talking
arXiv: 2603.10165 ๊ธฐ๊ด: Princeton AI Lab Upvotes: 90 | Comments: 3 ์์: ์ด๋ฒ ์ฃผ Top 3
๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: OpenClaw-RL
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
ํ์ฌ์ AI ์์ด์ ํธ๋ค์ ์ฌ์ฉ์์์ ์ํธ์์ฉ์ด๋ ๋๊ตฌ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋จ์ํ ๋ค์ ํ๋์ ์ํ ๋งฅ๋ฝ์ผ๋ก๋ง ์ฌ์ฉํ ๋ฟ, ์ค์๊ฐ ํ์ต์ ๊ธฐํ๋ก ํ์ฉํ์ง ๋ชปํ๊ณ ์๋ ์์ ๋ญ๋น ํ์์ด ์กด์ฌํฉ๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ด๋ฌํ โ๋ค์ ์ํ(Next-State)โ ์ ํธ๋ฅผ ํ๊ฐ์ ์ง์ ์ ๋ณด๋ก ๋ณํํ์ฌ, ๊ฐ์ธ ๋ํ๋ถํฐ ๋ณต์กํ ์ํํธ์จ์ด ์์ ๊น์ง ๋ชจ๋ ์ํธ์์ฉ์ ํตํฉ๋ ๊ฐํ ํ์ต ๋ฃจํ๋ก ์ฆ์ ํ์ตํ ์ ์๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด์ ์ ์ ๋ฐ์ดํฐ์ ์ ์์กดํ ์คํ๋ผ์ธ ํ์ต ๋ฐฉ์์ ํ๊ณ๋ฅผ ๋์ด, ๋ฐฐํฌ๋ ์์ด์ ํธ๊ฐ ์ค์๊ฐ์ผ๋ก ๋๊น ์์ด ์งํํ ์ ์๋ ๊ธธ์ ์ด์๋ค๋ ์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : โ์๋ฆฌ์ฌ์ ์๋์ ํผ๋๋ฐฑโ
์ด ์์คํ ์ ๋์์์ด ์๋ฆฌ๋ฅผ ๋ด๋๋ ์ค๋งํธ ๋ก๋ด ์๋ฆฌ์ฌ๋ผ๊ณ ์์ํด ๋ณด์ธ์. ๊ธฐ์กด์ AI ์์ด์ ํธ๋ ์๋์ด ์์์ ๋จน๊ณ ๋ ํ์ ๋ฐ์(๋ค์ ์ํ ์ ํธ)์ ๋ฌด์ํ๊ฑฐ๋, ๋จ์ง ๋ค์ ์๋ฆฌ๋ฅผ ์ค๋นํ๊ธฐ ์ํ ์ฐธ๊ณ ์๋ฃ๋ก๋ง ํ์ฉํ์ต๋๋ค.
๋ฐ๋ฉด, OpenClaw-RL์ ์๋์ ๋ชจ๋ ๋ฐ์์ ํ์ต ๊ธฐํ๋ก ์ผ์ต๋๋ค. ์๋์ด โ๋ง์๋คโ๊ณ ๋งํ๊ฑฐ๋ ๊นจ๋์ด ๋จน์ผ๋ฉด ์ด๋ฅผ ์ ์(+1)๋ก ๊ธฐ๋กํ์ฌ ์๋ฆฌ๋ฒ์ ๊ฐํํฉ๋๋ค. ๋ง์ฝ ์๋์ด โ์ง๋คโ๋ฉฐ ์กฐ๋ฏธ๋ฃ ํต์ ๊ฐ๋ฆฌํค๋ฉด, ๋จ์ํ ์คํจ(-1)๋ผ๊ณ ๋ง ์๊ฐํ๋ ๊ฒ ์๋๋ผ โ์๊ธ์ ๋ ๋ฃ์ด๋ผโ๋ ๊ตฌ์ฒด์ ์ธ ์ง์ ์ฌํญ์ผ๋ก ํด์ํ์ฌ ์๋ฆฌ๋ฒ์ ์ฆ์ ์์ ํฉ๋๋ค. ๋ก๋ด์ ์๋ฆฌ๋ฅผ ํ๊ณ , ์๋น์ ํ๊ณ , ํ๊ฐ๋ฅผ ๋ฐ๋ ๊ณผ์ ์ ๋ฐ๋ก๋ฐ๋ก ๊ธฐ๋ค๋ฆฌ์ง ์๊ณ ๋์์ ์ํํ๋ฉฐ ์ค๋ ฅ์ด ์ ์ ๋์ด๊ฐ๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
์ด ์์คํ ์ ํฌ๊ฒ ๋ค ๊ฐ์ง ๋ ๋ฆฝ์ ์ธ ํ์ดํ๋ผ์ธ์ด ๋น๋๊ธฐ์ ์ผ๋ก ๋์๊ฐ๋ฉฐ ์๋ํฉ๋๋ค.
์ฒซ์งธ, ์ ์ฑ ์๋น(Policy Serving) ๋จ๊ณ์์ ์์ด์ ํธ๊ฐ ์ฌ์ฉ์์ ์์ฒญ์ ์ฆ๊ฐ ๋ฐ์ํ์ฌ ํ๋์ ์ทจํฉ๋๋ค. ๋์งธ, ํ๊ฒฝ ํธ์คํ (Environment Hosting) ๋จ๊ณ์์ ๊ทธ ํ๋์ ๋ํ ๊ฒฐ๊ณผ(์ฌ์ฉ์์ ๋ต์ฅ, ํฐ๋ฏธ๋ ์คํ ๊ฒฐ๊ณผ ๋ฑ)์ธ ๋ค์ ์ํ ์ ํธ๋ฅผ ์์งํฉ๋๋ค. ์ ์งธ, ๋ณด์ ํ์ (Reward Judging) ๋จ๊ณ์์ ์์ง๋ ์ ํธ๋ฅผ ๋ถ์ํฉ๋๋ค. ์ฌ๊ธฐ์๋ PRM(Process Reward Model)์ด๋ผ๋ ์ฌํ์ด โ์ด ํ๋์ ์ข์๋ค(+1), ๋๋นด๋ค(-1), ์๋๋ฉด ๊ทธ์ ๊ทธ๋ฌ๋ค(0)โ๊ณ ์ ์๋ฅผ ๋งค๊น๋๋ค. ๋ํ ์ค๋ฅ ๋ก๊ทธ ๋ฑ์์ โ์ด๋ ๊ฒ ๊ณ ์ณ๋ผโ๋ผ๋ ํํธ๋ ์ถ์ถํฉ๋๋ค. ๋ท์งธ, ์ ์ฑ ํ๋ จ(Policy Training) ๋จ๊ณ์์ ์ด ์ ์์ ํํธ๋ฅผ ์ด์ฉํด ์์ด์ ํธ์ ๋๋(๋ชจ๋ธ)๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค. ์ด ๊ณผ์ ์ ์๋น์ด ๋ฉ์ถ์ง ์๊ณ ๊ณ์ ์งํ๋๋ ๋์ ๋ฐฑ๊ทธ๋ผ์ด๋์์ ์กฐ์ฉํ ์ผ์ด๋ฉ๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ: PPO๋ฅผ ํ์ฉํ ์ด์ง ๊ฐํ ํ์ต
์ด ๋ ผ๋ฌธ์ ํ์ค์ ์ธ PPO(Proximal Policy Optimization) ์๊ณ ๋ฆฌ์ฆ์ ๋ณํํ์ฌ ์ฌ์ฉํฉ๋๋ค. ์์ด์ ํธ์ ํ๋์ด ์ข์์ง ๋์์ง๋ฅผ ํ๋จํ๋ ์ฒ๋์ธ ์ด๋๋ฐดํฐ์ง(Advantage, $A_t$)๋ฅผ PRM์ด ํ์ ํ ์ ์($r_{final}$)๋ก ์ง์ ์ค์ ํฉ๋๋ค.
์์ค ํจ์(Loss Function)๋ ์์ด์ ํธ๊ฐ ์ด์ ๋ณด๋ค ๋ ์ข์ ํ๋์ ํ ํ๋ฅ ์ ๋์ด๋๋ก ์ค๊ณ๋์์ต๋๋ค. ์์ $\mathcal{L}_{pg}$๋ ์์ด์ ํธ๊ฐ ์ทจํ ํ๋์ ํ๋ฅ ๋น์จ($\rho_t$)๊ณผ ๋ณด์($A_t$)์ ๊ณฑํ์ฌ ๊ธฐ๋๊ฐ์ ์ต๋ํํ๋๋ก ์ ๋ํฉ๋๋ค. ์ฌ๊ธฐ์ $\text{clip}$ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋ฐ์ดํธ๊ฐ ๋๋ฌด ๊ธ๊ฒฉํ๊ฒ ๋ณํ๋ ๊ฒ์ ๋ฐฉ์งํ๋ ์์ ์ฅ์น๊ฐ ํฌํจ๋์ด ์์ต๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ด ๋ ผ๋ฌธ์ ํน์ ๋ฒค์น๋งํฌ ์ ์(์: SOTA ๋๋น 10% ํฅ์ ๋ฑ)๋ฅผ ๊ตฌ์ฒด์ ์ธ ์์น๋ก ์ ๊ณตํ๊ธฐ๋ณด๋ค๋, ์๋ก ๋ค๋ฅธ ์ข ๋ฅ์ ํ๊ฒฝ(๊ฐ์ธ ๋ํ, ํฐ๋ฏธ๋, GUI, ์ํํธ์จ์ด ์์ง๋์ด๋ง ๋ฑ)์์ ๋ฐ์ํ๋ ์ด์ง์ ์ธ ๋ฐ์ดํฐ๋ฅผ ํ๋์ ํตํฉ๋ ๊ฐํ ํ์ต ์์คํ ์ผ๋ก ์ฑ๊ณต์ ์ผ๋ก ๋ณํํ์์ ์ ์ฆํ๋ ๋ฐ ์ด์ ์ ๋ง์ถ์์ต๋๋ค.
ํ ์คํธ ํ๊ฒฝ์ ํฌ๊ฒ ๊ฐ์ธ ์์ด์ ํธ๋ฅผ ์ํ ๋ํํ ํ๊ฒฝ๊ณผ ์ผ๋ฐ์ ์ธ ๋๊ตฌ ์ฌ์ฉ์ด ๊ฐ๋ฅํ ํฐ๋ฏธ๋ ๋ฐ GUI ํ๊ฒฝ์ผ๋ก ๋๋ฉ๋๋ค. ํนํ ์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ๋ ๋น๋๊ธฐ ํ์ดํ๋ผ์ธ(Asynchronous Pipeline) ์ค๊ณ๋ฅผ ํตํด, ๊ธด ์์ ์ํ ์๊ฐ์ด ๋ฐ์ํ๋๋ผ๋ ํ์ต ๊ณผ์ ์ด ๋ฉ์ถ์ง ์๊ณ ์ค์๊ฐ์ผ๋ก ์ด์ด์ง ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ ์ค์ ์๋น์ค ํ๊ฒฝ์์ ์์ด์ ํธ๊ฐ ์ง์์ ์ผ๋ก ํ์ตํ๊ธฐ ์ํ ํ์์ ์ธ ๊ธฐ์ ์ ์ฅ๋ฒฝ์ ํด๊ฒฐํ๋ค๋ ์ ์์ ์์๊ฐ ์์ต๋๋ค. ๋ํ, ๋จ์ํ ์ฑ๊ณต/์คํจ ๋ณด์์ ๋์ด ์ฌ์ฉ์์ ๋ฐ์์ด๋ ์ค๋ฅ ๋ฉ์์ง ํธ๋ ์ด์ค๋ฅผ ์ธ๋ฐํ ํ์ต ์ ํธ๋ก ๋ณํํ๋ PRM ํ์ ๊ธฐ์ ํจ์จ์ฑ์ ๊ฒ์ฆํ์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๋ค์ ์ฌ์ฉ์์ ํผ๋๋ฐฑ์ด ํญ์ ๋ช ํํ์ง ์์ ์ ์๋ค๋ ์ ์ ํ๊ณ๋ก ์ธ๊ธํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ์ฉ์๊ฐ โ๊ธ์์โ๋ผ๊ณ ๋ชจํธํ๊ฒ ๋ฐ์ํ๋ฉด ์์คํ ์ด ์ด๋ฅผ ์ด๋ป๊ฒ ํด์ํ ์ง ์ ๋งคํ ์ ์์ต๋๋ค. ์ด๋ด ๊ฒฝ์ฐ ์์คํ ์ ์ํฉ์ ๋ง์ถฐ ์ถ์ ํ๊ฒ ๋์ง๋ง, ์ฌ์ฉ์๊ฐ ๋ ๋ช ํํ ํผ๋๋ฐฑ์ ์ฃผ๋๋ก ์ ๋ํ๋ ๋ฉ์ปค๋์ฆ์ด ํ์ํ ์ ์์ต๋๋ค.
๋ํ, ์ด ์์คํ ์ PRM ํ์ ๊ธฐ์ OPD(On-Policy Distillation)์ ๊ฐ์ ์ถ๊ฐ์ ์ธ ๋ชจ๋ธ ๋ฐ ๊ตฌ์ฑ ์์๋ฅผ ํ์๋ก ํ๋ฏ๋ก ์์คํ ์ ์ฒด์ ๋ณต์ก๋๊ฐ ๋์์ง๋๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ์ด๋ฌํ ๊ตฌ์ฑ ์์๋ค์ ๋ ๊ฐ๋ณ๊ณ ํจ์จ์ ์ผ๋ก ์ต์ ํํ๊ฑฐ๋, ์ ๋งคํ ํผ๋๋ฐฑ์ ๋ ์ ๊ตํ๊ฒ ํด์ํ๋ ํ๋จ ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ ๊ฒ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด ๊ธฐ์ ์ ์ค์ ์๋น์ค๋๊ณ ์๋ ๋ชจ๋ ์ข ๋ฅ์ AI ์์ด์ ํธ์ ์ฆ์ ์ ์ฉ๋ ์ ์์ต๋๋ค. ํนํ ์ฌ์ฉ์์ ์ง์ ๋ํํ๋ ๊ฐ์ธ ๋น์๋, ์ฝ๋ฉ์ ๋์์ฃผ๋ ๊ฐ๋ฐ์ ๋๊ตฌ(Copilot ๋ฑ), ์น ๋ธ๋ผ์ฐ์ ๋ฅผ ์ ์ดํ๋ ์๋ํ ์์ด์ ํธ ๋ฑ์ ์ ํฉํฉ๋๋ค.
์ ์ฉ์ ์ํด์๋ ๋ชจ๋ธ์ ์๋นํ๋ ์ธํ๋ผ๋ฟ๋ง ์๋๋ผ, ๋ณ๋์ ํ๊ฒฝ ์๋ฒ, ํ์ ๋ชจ๋ธ(Judge), ํ๋ จ์ฉ ํด๋ฌ์คํฐ๊ฐ ๋์์ ๊ตฌ์ถ๋์ด์ผ ํ๋ฏ๋ก ์๋นํ ๊ท๋ชจ์ GPU ์์๊ณผ ๋ถ์ฐ ์์คํ ์ด์ ์ญ๋์ด ํ์ํฉ๋๋ค. ํ์ง๋ง ํ ๋ฒ ๊ตฌ์ถ๋๋ฉด, ์์ด์ ํธ๊ฐ ์ฌ์ฉ๋๋ ๋ชจ๋ ์๊ฐ ๋ฐ์ดํฐ๊ฐ ๋์ ๋์ด ์ ์ ๋๋ํด์ง๋ ์๊ฐ ์งํ ์์คํ ์ ๊ตฌ์ถํ ์ ์์ต๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ๊ฐํ ํ์ต(Reinforcement Learning): ์์ด์ ํธ๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ๋ณด์์ ํตํด ์ต์ ์ ํ๋์ ํ์ตํ๋ ๋จธ์ ๋ฌ๋์ ํ ๋ถ์ผ์ ๋๋ค.
- PPO(Proximal Policy Optimization): ์ ์ฑ ์ ์ ๋ฐ์ดํธํ ๋ ๋๋ฌด ํฐ ๋ณํ๋ฅผ ๋ง์ ํ์ต์ ์์ ์ ์ผ๋ก ๋ง๋๋ ๋ํ์ ์ธ ๊ฐํ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
- ํ๋ก์ธ์ค ๋ณด์ ๋ชจ๋ธ(Process Reward Model): ์ต์ข ๊ฒฐ๊ณผ๊ฐ ์๋ ๋ฌธ์ ํด๊ฒฐ ๊ณผ์ ์ ์ค๊ฐ ๋จ๊ณ๋ณ๋ก ์ผ๋ง๋ ์ฌ๋ฐ๋ฅธ์ง ์ ์๋ฅผ ๋งค๊ธฐ๋ ๋ชจ๋ธ์ ๋๋ค.
- ๋ค์ ์ํ(Next-State): ์์ด์ ํธ๊ฐ ํน์ ํ๋์ ์ทจํ ํ ํ๊ฒฝ์ด ๋ณํํ์ฌ ๋ํ๋๋ ์๋ก์ด ์ํ๋ฅผ ์๋ฏธํฉ๋๋ค.
- ๋น๋๊ธฐ ํ์ดํ๋ผ์ธ(Asynchronous Pipeline): ํ ์์ ์ด ๋๋๊ธฐ๋ฅผ ๊ธฐ๋ค๋ฆฌ์ง ์๊ณ , ์ฌ๋ฌ ์์ ์ด ๋ ๋ฆฝ์ ์ผ๋ก ๋์์ ์คํ๋๋ ์์คํ ๊ตฌ์กฐ์ ๋๋ค.
- ์์ด์ ํธ(Agent): ์ฌ์ฉ์์ ์๋๋ฅผ ํ์ ํ๊ณ ์ค์ค๋ก ๋๊ตฌ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๋ ค๋ ์์จ์ ์ธ AI ์์คํ ์ ๋๋ค.
- ์ฆ๋ฅ(Distillation): ํฌ๊ณ ๋ณต์กํ ๋ชจ๋ธ(์ ์๋)์ ์ง์์ ์๊ณ ๊ฐ๋ฒผ์ด ๋ชจ๋ธ(ํ์)์๊ฒ ์ฎ๊ฒจ ๋ด๋ ๊ธฐ์ ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Geometry-Guided Reinforcement Learnโฆ | DD-041 |
| ๐ฅ | Penguin-VL: Exploring the Efficiencโฆ | DD-042 |
| ๐ฅ | OpenClaw-RL: Train Any Agent Simplyโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 4. | Lost in Stories: Consistency Bugs iโฆ | DD-044 |
| 5. | Holi-Spatial: Evolving Video Streamโฆ | DD-045 |
๐ ์์ฑ์ผ: 2026-03-15 | ๐ค GLM-4.7 Deep Dive