โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-085 RLDX-1 Technical Report
arXiv: 2605.03269 ๊ธฐ๊ด: RLWRLD Upvotes: 101 | Comments: 2 ์์: ์ด๋ฒ ์ฃผ Top 4
RLDX-1 Technical Report ๋ ผ๋ฌธ ๋ถ์
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๋น์ -์ธ์ด-ํ๋ ๋ชจ๋ธ๋ค์ ์ฅ๋ฉด์ ์ดํดํ๋ ์ง๋ฅ์ ๋ฐ์ด๋ฌ์ง๋ง, ์์ง์ด๋ ๋ฌผ์ฒด์ ๋์ํ๊ฑฐ๋ ์ด๊ฐ์ ๋๋ผ๋ ๋ฑ ๋ก๋ด์ด ์ค์ ํ๊ฒฝ์์ ์๋ํ๊ธฐ ์ํด ํ์์ ์ธ ๊ธฐ๋ฅ์ ๋ฅ๋ ฅ์ด ๋ถ์กฑํ์ต๋๋ค. RLDX-1์ ์ด๋ ์ธ์, ์ฅ๊ธฐ ๊ธฐ์ต, ๋ฌผ๋ฆฌ์ ๊ฐ๊ฐ์ ํ๋์ ํตํฉ๋ ๊ตฌ์กฐ๋ก ๊ฒฐํฉํ์ฌ ๋ก๋ด์ด ๋จ์ํ ๋ณด๊ณ ํ๋ํ๋ ๊ฒ์ ๋์ด, ์ธ๊ฐ๊ณผ ๊ฐ์ ์ ๊ตํ ์กฐ์์ด ๊ฐ๋ฅํ๋๋ก ๋ง๋ค์์ต๋๋ค. ์ด๋ ์ค์ ๊ฐ๋ณ์ ์ธ ํ์ค ์ธ๊ณ์์ ๋ก๋ด ์ ์ฑ ์ ์ผ๋ฐํํ๊ณ ๋ฐฐ์นํ๋ ๋ฐ ์์ด ์ค์ํ ์ง์ ์ ์๋ฏธํฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : โ๋ฒ ์คํธ์ ๋ฌ ์๊ฐโ์ โํ์ฅ ํ๋ก ์ ์โ์ ์ฐจ์ด
๊ธฐ์กด์ ๋ก๋ด ๋ชจ๋ธ์ ๋ง์น ํ๊ตฌ์ ๊ดํ ์ฑ ์ ์๋ง ๊ถ ์ฝ์ โ๋ฒ ์คํธ์ ๋ฌ ์๊ฐโ์ ๊ฐ์ต๋๋ค. ์ด๋ก ์ ์ผ๋ก ์ด๋ป๊ฒ ์น๋์ง ์๊ณ ์๊ณ , โ๊ณต์ ๋๋ ค๋ผโ๋ผ๋ ๋ง์ ์๋ฒฝํ๊ฒ ์ดํดํ์ง๋ง, ๋ง์ ์ค์ ์ฝํธ์์ ๋ ์์ค๋ ๊ณต์ ์คํผ๋ฅผ ๊ณ์ฐํ๊ฑฐ๋ ๋ผ์ผ์ ๋ฟ๋ ์๊ฐ์ ๋ฏธ์ธํ ์ง๋์ ๋๋ผ๋ฉฐ ๋ฐ์ํ๋ ๋ฐ์๋ ์ด๋ ค์์ด ์์์ต๋๋ค. ๋ฐ๋ฉด, RLDX-1์ ๊ทธ ์ด๋ก ์ ์ง์์ ๋ํด, ์ค์ ์ ์๊ฐ ๊ฒฝ๊ธฐ ์ค์ ๋๋ผ๋ โ๊ทผ์ก์ ๊ธฐ์ตโ, โ๊ณต์ ๊ถค์ ์์ธกโ, โ๋ผ์ผ ์ฅ๋ ํ ์กฐ์ โ๊ณผ ๊ฐ์ ๊ฐ๊ฐ์ ํตํฉํ โํ์ฅ ํ๋ก ์ ์โ๋ผ๊ณ ํ ์ ์์ต๋๋ค.
๋จ๊ณ๋ณ ๋์ ๋ฐฉ์
RLDX-1์ ๋ค์ค ์คํธ๋ฆผ ํ๋ ํธ๋์คํฌ๋จธ(MSAT)๋ผ๋ ํน๋ณํ ๋๋ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด ๊ตฌ์กฐ๋ ๋(๋น์ ), ๊ท(์ธ์ด), ๊ฐ๊ฐ(์ด๊ฐ, ๊ด์ ์ ๋ณด)์ด ๊ฐ์์ ์ ์ฉ ์ฑ๋(Stream)์ ํตํด ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๋, ์๋ก ํ์ํ ์๊ฐ์๋ง ์ํตํ๋ ๋ฐฉ์(Cross-modal joint self-attention)์ ์ทจํฉ๋๋ค.
๋จผ์ ๋ก๋ด์ ์นด๋ฉ๋ผ์ ์ผ์๋ก๋ถํฐ ๋ค์ด์ค๋ ์ ๋ณด๋ฅผ ๊ฐ๊ฐ์ ์ ์ฉ ํต๋ก๋ก ๋ณด๋ ๋๋ค. ์ด๋ ๋จ์ํ ์ ๋ณด๋ฅผ ์ฃฝ ์์ง ์๊ณ , ์์ ์ ๋ณด๋ ์์๋๋ก, ์ด๊ฐ ์ ๋ณด๋ ์ด๊ฐ๋๋ก ํน์ฑ์ ์ ์งํ๋ฉฐ ์ฒ๋ฆฌํฉ๋๋ค. ๊ทธ ํ, ์ค์ ํต์ ์ค์ธ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ด ์ด๋ค์ ์ฐ๊ฒฐํ์ฌ ํ์ ์์ง์ผ ๋๋ ์ด๊ฐ๊ณผ ์์์ ํจ๊ป ๊ณ ๋ คํ๊ฒ ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ก๋ด์ โ์ง๊ธ ์ปต์ด ๋ฏธ๋๋ฌ์ฐ๋๊น ์กฐ๊ธ ๋ ๊ฝ ์ฅ์ด์ผ๊ฒ ๋คโ๋ ์์ ๋ณตํฉ์ ์ธ ํ๋จ์ด ๊ฐ๋ฅํด์ง๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ๊ณผ ํ์ต ๋ฐฉ์
์ด ๋ ผ๋ฌธ์ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ์ ์ฌ์ฉํ๋ค๋ ์ ์ด ๋ ํนํฉ๋๋ค. ์ค์ ๋ก ์์งํ๊ธฐ ์ด๋ ค์ด ์ธ๊ฐํ ๋ก๋ด์ ์์ง์์ ์๋ฎฌ๋ ์ด์ ์ผ๋ก ๋ง๋ค์ด๋ด๊ณ , ์ฌ๊ธฐ์ ์์ง์์ ์ผ๊ด์ฑ์ ๊ฒ์ฌํ๋ ํํฐ๋ง ๊ณผ์ ์ ๊ฑฐ์ณ ์ง์ง์ฒ๋ผ ๋ณด์ด๋ ๋ฐ์ดํฐ๋ง ํ์ต์ ์ฌ์ฉํฉ๋๋ค.
ํ์ต์ ์ด 3๋จ๊ณ๋ก ์งํ๋ฉ๋๋ค. ์ฒซ ๋ฒ์งธ๋ ๋ค์ํ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ํต์งธ๋ก ๋ฃ์ด ๊ธฐ๋ณธ ๋์์ ๋ฐฐ์ฐ๋ โ์ฌ์ ํ์ต(Pre-training)โ ๋จ๊ณ์ ๋๋ค. ๋ ๋ฒ์งธ๋ ํน์ ๊ธฐ๋ฅ(๊ธฐ์ต๋ ฅ, ์ด๊ฐ ํ์ฉ ๋ฑ)์ ๊ฐํํ๋ โ์ค๊ฐ ํ์ต(Mid-training)โ์ ๋๋ค. ๋ง์ง๋ง์ผ๋ก ์ค์ ๊ณผ์ ์ ๋ง์ถฐ ์ฑ๋ฅ์ ๋ค๋ฌ๋ โ์ฌํ ํ์ต(Post-training)โ์ ๊ฑฐ์ณ ์ต์ข ๋ชจ๋ธ์ ์์ฑํฉ๋๋ค. ์์ค ํจ์๋ ํ๋ก์ฐ ๋งค์นญ(Flow Matching) ๋ชฉ์ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ, ๋ก๋ด์ ํ๋ ๊ถค์ ์ ๋ถ๋๋ฝ๊ณ ์์ฐ์ค๋ฝ๊ฒ ์์ธกํ๋๋ก ์ ๋ํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
ํ ์คํธ ๋ฒค์น๋งํฌ
์ฐ๊ตฌ์ง์ ์ค์ ํ๊ฒฝ์์์ ์ฑ๋ฅ์ ๊ฒ์ฆํ๊ธฐ ์ํด ALLEX ํด๋จธ๋ ธ์ด๋ ํ๋ซํผ์ ์ฌ์ฉํ์ต๋๋ค. ํนํ ์์ง์ด๋ ์ปจ๋ฒ ์ด์ด ๋ฒจํธ ์์ ๋ฌผ์ฒด๋ฅผ ์กฐ์ํ๊ฑฐ๋, ๊ฐ๋ ค์ง ์ํ์์ ์ด๊ฐ์ ์์กดํด ์กฐ์ํด์ผ ํ๋ ๋ฑ ๊ธฐ์กด ๋ชจ๋ธ์ด ์ด๋ ค์ํ๋ โ๊ธฐ๋ฅ์ ์ญ๋โ์ด ํ์ํ ๊ณผ์ ๋ฅผ ํฌํจํ์ต๋๋ค.
๊ธฐ์กด ๋ชจ๋ธ ๋๋น ์ฑ๋ฅ ํฅ์
ALLEX ํด๋จธ๋ ธ์ด๋ ๊ณผ์ ์์ RLDX-1์ ์ฝ 90ํผ์ผํธ๋ผ๋ ์๋์ ์ธ ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ์ต๋๋ค. ์ด๋ ๊ฐ์ ์กฐ๊ฑด์์ ํ ์คํธ๋ ์ต์ฒจ๋จ VLA ๋ชจ๋ธ๋ค์ด 40ํผ์ผํธ ์์ค์ ๋จธ๋ฌธ ๊ฒ์ ๋นํด ๋ ๋ฐฐ ์ด์ ๋์ ์ฑ๊ณผ์ ๋๋ค. ์๋ฎฌ๋ ์ด์ ๋ฒค์น๋งํฌ์์๋ RLDX-1์ ๋ชจ๋ ํ๊ฐ ์งํ์์ ๊ธฐ์กด ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ๋ค์ ์ผ๊ด๋๊ฒ ๋ฅ๊ฐํ์ต๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
๋จ์ํ ํ๊ท ์ฑ๊ณต๋ฅ ์ด ์ค๋ฅธ ๊ฒ์ ๋์ด, ๋ฌผ์ฒด๊ฐ ์์ง์ด๋ ๋์ ํ๊ฒฝ์ด๋ ์๊ฐ์ ์ผ๋ก ๊ฐ๋ ค์ง ์ํฉ์์๋ RLDX-1์ด ์์ ์ ์ผ๋ก ์๋ํ๋ค๋ ์ ์ด ์ฃผ๋ชฉ๋ฐ์ต๋๋ค. ์ด๋ ์ค์ ๊ณต์ฅ์ด๋ ๊ฐ์ ๋ด์ฒ๋ผ ์์ธก ๋ถ๊ฐ๋ฅํ ํ๊ฒฝ์์ ๋ก๋ด์ ๋ฐฐ์นํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ๋ ๊ฒฐ์ ์ ์ธ ์ฆ๊ฑฐ์ ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ
๋ ผ๋ฌธ์์๋ ๋ช ์์ ์ธ ํ๊ณ์ ์น์ ์ด ์ ๊ณต๋์ง ์์์ง๋ง, ์ ์ฒด ๋งฅ๋ฝ์ ํตํด ์ ์ถํ ์ ์์ต๋๋ค. RLDX-1์ ๋งค์ฐ ๋ฐฉ๋ํ ์์ง์ ๋ฐ์ดํฐ(์ค์ ๋ฐ ํฉ์ฑ ๋ฐ์ดํฐ)์ ๋ณต์กํ 3๋จ๊ณ ํ์ต ๊ณผ์ ์ ํ์๋ก ํ๋ฏ๋ก, ๋ชจ๋ธ์ ์ฒ์๋ถํฐ ๊ตฌ์ถํ๊ณ ํ์ต์ํค๋ ๋ฐ ๋ง๋ํ ์ปดํจํ ์์๊ณผ ๋ฐ์ดํฐ ์์ง ๋น์ฉ์ด ๋ญ๋๋ค. ๋ํ, ์ค์๊ฐ ๋ฐฐํฌ๋ฅผ ์ํ ์ต์ ํ ํ์ดํ๋ผ์ธ์ด ํ์์ ์ด๋ผ๋ ์ ์ ์ผ๋ฐ์ ์ธ ํ๋์จ์ด์์์ ์ฆ๊ฐ์ ์ธ ์ฌ์ฉ์ ์ ํํ ์ ์์ต๋๋ค.
๊ฐ์ ๊ฐ๋ฅํ ์
ํฅํ ์ฐ๊ตฌ์์๋ ๋ชจ๋ธ์ ๊ฒฝ๋ํ๋ฅผ ํตํด ๋ ์ ์ ๋ ฅ์ ์๋ฒ ๋๋ ์์คํ ์์๋ ๊ตฌ๋ ๊ฐ๋ฅํ๋๋ก ๋ง๋๋ ๊ฒ์ด ํ์ํฉ๋๋ค. ๋ํ, ํ์ฌ ํฉ์ฑ ๋ฐ์ดํฐ์ ์์กดํ๊ณ ์๋ ํฌ๊ท ์กฐ์ ์๋๋ฆฌ์ค์ ๋ค์์ฑ์ ๋์ฑ ํ๋ํ๊ณ , ์ค์ ๋ฌผ๋ฆฌ์ ์ผ์์ ๋ ธ์ด์ฆ์ ๋ ๊ฐ๊ฑดํด์ง๋๋ก ๋ง๋๋ ์ฐ๊ตฌ๊ฐ ์ด์ด์ง ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ถ์ผ
RLDX-1์ ๋ฌผ๋ฅ ์ฐฝ๊ณ ์ ์ปจ๋ฒ ์ด์ด ๋ฒจํธ ์์คํ ์ฒ๋ผ ๋ฌผ์ฒด๊ฐ ๋์์์ด ์์ง์ด๋ ์ญ๋์ ์ธ ํ๊ฒฝ์ ์ฆ์ ํ์ฉ๋ ์ ์์ต๋๋ค. ๋ํ, ์๊ฐ์ ์ฅ์ ๊ฐ ๋ฐ์ํ๊ฑฐ๋ ์ฌ์ธํ ํ ์กฐ์ ์ด ํ์ํ ์ ๋ฐ ์กฐ๋ฆฝ ๋ผ์ธ์ด๋, ์ฅ์ ๋ฌผ์ด ๋ง์ ๋ณต์กํ ๊ฐ์ ๋ด ํ ์๋น์ค ๋ก๋ด ๋ถ์ผ์์๋ ์ ์ฉํ๊ฒ ์ฐ์ผ ์ ์์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค
์ด ๋ชจ๋ธ์ ์ค์ ๋ก ์ด์ํ๊ฑฐ๋ ์ฌํ์ต์ํค๊ธฐ ์ํด์๋ ๊ณ ์ฑ๋ฅ์ GPU ํด๋ฌ์คํฐ๊ฐ ํ์์ ์ ๋๋ค. ๋ํ, ๋ชจ๋ธ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋ ๋ค์ํ ๊ด์ ์ ์นด๋ฉ๋ผ ์์ ๋ฐ์ดํฐ์ ํ ์ผ์, ๊ด์ ๊ฐ๋์ผ์ ๋ฑ์ด ํฌํจ๋ ๋ฐฉ๋ํ ๋ก๋ด ์กฐ์ ๋ฐ์ดํฐ์ ์ด ํ๋ณด๋์ด์ผ ํฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
-
๋น์ -์ธ์ด-ํ๋ ๋ชจ๋ธ (Vision-Language-Action Model, VLA)
- ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ์ ๋ ฅ๋ฐ์ ๋ก๋ด์ ํ๋์ ์ถ๋ ฅํ๋๋ก ์ค๊ณ๋ ๋ค๋ชฉ์ ๋ก๋ด ์ ์ฑ ๋ชจ๋ธ์ ๋๋ค.
-
ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ (Transformer Architecture)
- ์์ฐ์ด ์ฒ๋ฆฌ์์ ์์๋์ด ํ์ฌ AI์ ํ์ค์ด ๋ ๊ตฌ์กฐ๋ก, ๋ฐ์ดํฐ ๊ฐ์ ๊ด๊ณ๋ฅผ ๋งค์ฐ ํจ์จ์ ์ผ๋ก ํ์ตํ๋๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
-
์ ํ ์ดํ ์ (Self-Attention)
- ์ ๋ ฅ ๋ฐ์ดํฐ ๋ด์ ์์๋ค์ด ์๋ก ์ด๋ป๊ฒ ๊ด๋ จ๋์ด ์๋์ง ๊ณ์ฐํ์ฌ ๋ฌธ๋งฅ์ ์ดํดํ๋ ๊ธฐ์ ์ ๋๋ค.
-
๊ตฌํ (Embodiment)
- AI๋ ๋ก๋ด์ด ๋ฌผ๋ฆฌ์ ์ธ ๋ชธ์ ๊ฐ์ง๊ณ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ ํํ๋ฅผ ์๋ฏธํฉ๋๋ค.
-
์ฌ์ ํ์ต ๋ฐ ๋ฏธ์ธ ์กฐ์ (Pre-training & Fine-tuning)
- ๋จผ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ก ๊ธฐ๋ณธ์ ์ธ ์ง๋ฅ์ ํ์ตํ ๋ค, ํน์ ์์ ์ ๋ง์ถฐ ์ถ๊ฐ๋ก ํ์ต์ํค๋ ์ ํ์ ์ธ ๋ฅ๋ฌ๋ ํ์ต ๋ฐฉ์์ ๋๋ค.
-
ํ๋ก์ฐ ๋งค์นญ (Flow Matching)
- ๋ฐ์ดํฐ ์์ฑ์ด๋ ํ๋ ์์ธก์์ ํ๋ฅ ์ ๊ฒฝ๋ก๋ฅผ ๋ฐ๋ผ ์ ์ง์ ์ผ๋ก ๋ชฉํ ์ํ์ ๋๋ฌํ๊ฒ ํ์ต์ํค๋ ๋ฐฉ๋ฒ๋ก ์ผ๋ก, ๊ธฐ์กด์ ๋ฐฉ๋ฒ๋ณด๋ค ํ์ต์ด ์์ ์ ์ ๋๋ค.
-
๊ณ ์ ์์ฉ (Proprioception)
- ๋ก๋ด์ด ์์ ์ ๊ด์ ๊ฐ๋๋ ํ ํฌ ๋ฑ์ ํตํด ์ค์ค๋ก์ ์ํ๋ฅผ ์ธ์งํ๋ ๊ฐ๊ฐ ๋ฅ๋ ฅ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | MolmoAct2: Action Reasoning Models โฆ | DD-082 |
| ๐ฅ | From Context to Skills: Can Languagโฆ | DD-083 |
| ๐ฅ | Stream-R1: Reliability-Perplexity Aโฆ | DD-084 |
| 4. | RLDX-1 Technical Report | ๐ ํ์ฌ ๋ฌธ์ |
| 5. | ARIS: Autonomous Research via Adverโฆ | DD-086 |
๐ ์์ฑ์ผ: 2026-05-10 | ๐ค GLM-4.7 Deep Dive