โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-085 RLDX-1 Technical Report

arXiv: 2605.03269 ๊ธฐ๊ด€: RLWRLD Upvotes: 101 | Comments: 2 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 4


RLDX-1 Technical Report ๋…ผ๋ฌธ ๋ถ„์„

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ๋น„์ „-์–ธ์–ด-ํ–‰๋™ ๋ชจ๋ธ๋“ค์€ ์žฅ๋ฉด์„ ์ดํ•ดํ•˜๋Š” ์ง€๋Šฅ์€ ๋›ฐ์–ด๋‚ฌ์ง€๋งŒ, ์›€์ง์ด๋Š” ๋ฌผ์ฒด์— ๋Œ€์‘ํ•˜๊ฑฐ๋‚˜ ์ด‰๊ฐ์„ ๋А๋ผ๋Š” ๋“ฑ ๋กœ๋ด‡์ด ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์ž‘๋™ํ•˜๊ธฐ ์œ„ํ•ด ํ•„์ˆ˜์ ์ธ ๊ธฐ๋Šฅ์  ๋Šฅ๋ ฅ์ด ๋ถ€์กฑํ–ˆ์Šต๋‹ˆ๋‹ค. RLDX-1์€ ์šด๋™ ์ธ์‹, ์žฅ๊ธฐ ๊ธฐ์–ต, ๋ฌผ๋ฆฌ์  ๊ฐ๊ฐ์„ ํ•˜๋‚˜์˜ ํ†ตํ•ฉ๋œ ๊ตฌ์กฐ๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ ๋กœ๋ด‡์ด ๋‹จ์ˆœํžˆ ๋ณด๊ณ  ํ–‰๋™ํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด, ์ธ๊ฐ„๊ณผ ๊ฐ™์€ ์ •๊ตํ•œ ์กฐ์ž‘์ด ๊ฐ€๋Šฅํ•˜๋„๋ก ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์‹ค์ œ ๊ฐ€๋ณ€์ ์ธ ํ˜„์‹ค ์„ธ๊ณ„์—์„œ ๋กœ๋ด‡ ์ •์ฑ…์„ ์ผ๋ฐ˜ํ™”ํ•˜๊ณ  ๋ฐฐ์น˜ํ•˜๋Š” ๋ฐ ์žˆ์–ด ์ค‘์š”ํ•œ ์ง„์ „์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€˜๋ฒ ์ŠคํŠธ์…€๋Ÿฌ ์ž‘๊ฐ€โ€™์™€ โ€˜ํ˜„์žฅ ํ”„๋กœ ์„ ์ˆ˜โ€™์˜ ์ฐจ์ด

๊ธฐ์กด์˜ ๋กœ๋ด‡ ๋ชจ๋ธ์€ ๋งˆ์น˜ ํƒ๊ตฌ์— ๊ด€ํ•œ ์ฑ…์„ ์ˆ˜๋งŒ ๊ถŒ ์ฝ์€ โ€˜๋ฒ ์ŠคํŠธ์…€๋Ÿฌ ์ž‘๊ฐ€โ€™์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ด๋ก ์ ์œผ๋กœ ์–ด๋–ป๊ฒŒ ์น˜๋Š”์ง€ ์•Œ๊ณ  ์žˆ๊ณ , โ€œ๊ณต์„ ๋•Œ๋ ค๋ผโ€๋ผ๋Š” ๋ง์„ ์™„๋ฒฝํ•˜๊ฒŒ ์ดํ•ดํ•˜์ง€๋งŒ, ๋ง‰์ƒ ์‹ค์ œ ์ฝ”ํŠธ์—์„œ ๋‚ ์•„์˜ค๋Š” ๊ณต์˜ ์Šคํ”ผ๋ฅผ ๊ณ„์‚ฐํ•˜๊ฑฐ๋‚˜ ๋ผ์ผ“์— ๋‹ฟ๋Š” ์ˆœ๊ฐ„์˜ ๋ฏธ์„ธํ•œ ์ง„๋™์„ ๋А๋ผ๋ฉฐ ๋ฐ˜์‘ํ•˜๋Š” ๋ฐ์—๋Š” ์–ด๋ ค์›€์ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, RLDX-1์€ ๊ทธ ์ด๋ก ์  ์ง€์‹์— ๋”ํ•ด, ์‹ค์ œ ์„ ์ˆ˜๊ฐ€ ๊ฒฝ๊ธฐ ์ค‘์— ๋А๋ผ๋Š” โ€˜๊ทผ์œก์˜ ๊ธฐ์–ตโ€™, โ€˜๊ณต์˜ ๊ถค์  ์˜ˆ์ธกโ€™, โ€˜๋ผ์ผ“ ์ฅ๋Š” ํž˜ ์กฐ์ ˆโ€™๊ณผ ๊ฐ™์€ ๊ฐ๊ฐ์„ ํ†ตํ•ฉํ•œ โ€˜ํ˜„์žฅ ํ”„๋กœ ์„ ์ˆ˜โ€™๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ๋ฐฉ์‹

RLDX-1์€ ๋‹ค์ค‘ ์ŠคํŠธ๋ฆผ ํ–‰๋™ ํŠธ๋žœ์Šคํฌ๋จธ(MSAT)๋ผ๋Š” ํŠน๋ณ„ํ•œ ๋‘๋‡Œ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ตฌ์กฐ๋Š” ๋ˆˆ(๋น„์ „), ๊ท€(์–ธ์–ด), ๊ฐ๊ฐ(์ด‰๊ฐ, ๊ด€์ ˆ ์ •๋ณด)์ด ๊ฐ์ž์˜ ์ „์šฉ ์ฑ„๋„(Stream)์„ ํ†ตํ•ด ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•˜๋˜, ์„œ๋กœ ํ•„์š”ํ•œ ์ˆœ๊ฐ„์—๋งŒ ์†Œํ†ตํ•˜๋Š” ๋ฐฉ์‹(Cross-modal joint self-attention)์„ ์ทจํ•ฉ๋‹ˆ๋‹ค.

๋จผ์ € ๋กœ๋ด‡์€ ์นด๋ฉ”๋ผ์™€ ์„ผ์„œ๋กœ๋ถ€ํ„ฐ ๋“ค์–ด์˜ค๋Š” ์ •๋ณด๋ฅผ ๊ฐ๊ฐ์˜ ์ „์šฉ ํ†ต๋กœ๋กœ ๋ณด๋ƒ…๋‹ˆ๋‹ค. ์ด๋•Œ ๋‹จ์ˆœํžˆ ์ •๋ณด๋ฅผ ์ฃฝ ์„ž์ง€ ์•Š๊ณ , ์˜์ƒ ์ •๋ณด๋Š” ์˜์ƒ๋Œ€๋กœ, ์ด‰๊ฐ ์ •๋ณด๋Š” ์ด‰๊ฐ๋Œ€๋กœ ํŠน์„ฑ์„ ์œ ์ง€ํ•˜๋ฉฐ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ํ›„, ์ค‘์•™ ํ†ต์ œ์‹ค์ธ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ์ด๋“ค์„ ์—ฐ๊ฒฐํ•˜์—ฌ ํŒ”์„ ์›€์ง์ผ ๋•Œ๋Š” ์ด‰๊ฐ๊ณผ ์˜์ƒ์„ ํ•จ๊ป˜ ๊ณ ๋ คํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋กœ๋ด‡์€ โ€œ์ง€๊ธˆ ์ปต์ด ๋ฏธ๋„๋Ÿฌ์šฐ๋‹ˆ๊นŒ ์กฐ๊ธˆ ๋” ๊ฝ‰ ์ฅ์–ด์•ผ๊ฒ ๋‹คโ€๋Š” ์‹์˜ ๋ณตํ•ฉ์ ์ธ ํŒ๋‹จ์ด ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ํ•™์Šต ๋ฐฉ์‹

์ด ๋…ผ๋ฌธ์€ ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ์„ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ์ ์ด ๋…ํŠนํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ์ˆ˜์ง‘ํ•˜๊ธฐ ์–ด๋ ค์šด ์ธ๊ฐ„ํ˜• ๋กœ๋ด‡์˜ ์›€์ง์ž„์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์œผ๋กœ ๋งŒ๋“ค์–ด๋‚ด๊ณ , ์—ฌ๊ธฐ์„œ ์›€์ง์ž„์˜ ์ผ๊ด€์„ฑ์„ ๊ฒ€์‚ฌํ•˜๋Š” ํ•„ํ„ฐ๋ง ๊ณผ์ •์„ ๊ฑฐ์ณ ์ง„์งœ์ฒ˜๋Ÿผ ๋ณด์ด๋Š” ๋ฐ์ดํ„ฐ๋งŒ ํ•™์Šต์— ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

ํ•™์Šต์€ ์ด 3๋‹จ๊ณ„๋กœ ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ๋Š” ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ต์งธ๋กœ ๋„ฃ์–ด ๊ธฐ๋ณธ ๋™์ž‘์„ ๋ฐฐ์šฐ๋Š” โ€˜์‚ฌ์ „ ํ•™์Šต(Pre-training)โ€™ ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. ๋‘ ๋ฒˆ์งธ๋Š” ํŠน์ • ๊ธฐ๋Šฅ(๊ธฐ์–ต๋ ฅ, ์ด‰๊ฐ ํ™œ์šฉ ๋“ฑ)์„ ๊ฐ•ํ™”ํ•˜๋Š” โ€˜์ค‘๊ฐ„ ํ•™์Šต(Mid-training)โ€˜์ž…๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ ์‹ค์ œ ๊ณผ์ œ์— ๋งž์ถฐ ์„ฑ๋Šฅ์„ ๋‹ค๋“ฌ๋Š” โ€˜์‚ฌํ›„ ํ•™์Šต(Post-training)โ€˜์„ ๊ฑฐ์ณ ์ตœ์ข… ๋ชจ๋ธ์„ ์™„์„ฑํ•ฉ๋‹ˆ๋‹ค. ์†์‹ค ํ•จ์ˆ˜๋Š” ํ”Œ๋กœ์šฐ ๋งค์นญ(Flow Matching) ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, ๋กœ๋ด‡์˜ ํ–‰๋™ ๊ถค์ ์„ ๋ถ€๋“œ๋Ÿฝ๊ณ  ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์˜ˆ์ธกํ•˜๋„๋ก ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

ํ…Œ์ŠคํŠธ ๋ฒค์น˜๋งˆํฌ

์—ฐ๊ตฌ์ง„์€ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ์˜ ์„ฑ๋Šฅ์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด ALLEX ํœด๋จธ๋…ธ์ด๋“œ ํ”Œ๋žซํผ์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์›€์ง์ด๋Š” ์ปจ๋ฒ ์ด์–ด ๋ฒจํŠธ ์œ„์˜ ๋ฌผ์ฒด๋ฅผ ์กฐ์ž‘ํ•˜๊ฑฐ๋‚˜, ๊ฐ€๋ ค์ง„ ์ƒํƒœ์—์„œ ์ด‰๊ฐ์— ์˜์กดํ•ด ์กฐ์ž‘ํ•ด์•ผ ํ•˜๋Š” ๋“ฑ ๊ธฐ์กด ๋ชจ๋ธ์ด ์–ด๋ ค์›Œํ–ˆ๋˜ โ€˜๊ธฐ๋Šฅ์  ์—ญ๋Ÿ‰โ€™์ด ํ•„์š”ํ•œ ๊ณผ์ œ๋ฅผ ํฌํ•จํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด ๋ชจ๋ธ ๋Œ€๋น„ ์„ฑ๋Šฅ ํ–ฅ์ƒ

ALLEX ํœด๋จธ๋…ธ์ด๋“œ ๊ณผ์ œ์—์„œ RLDX-1์€ ์•ฝ 90ํผ์„ผํŠธ๋ผ๋Š” ์••๋„์ ์ธ ์„ฑ๊ณต๋ฅ ์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ฐ™์€ ์กฐ๊ฑด์—์„œ ํ…Œ์ŠคํŠธ๋œ ์ตœ์ฒจ๋‹จ VLA ๋ชจ๋ธ๋“ค์ด 40ํผ์„ผํŠธ ์ˆ˜์ค€์— ๋จธ๋ฌธ ๊ฒƒ์— ๋น„ํ•ด ๋‘ ๋ฐฐ ์ด์ƒ ๋†’์€ ์„ฑ๊ณผ์ž…๋‹ˆ๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฒค์น˜๋งˆํฌ์—์„œ๋„ RLDX-1์€ ๋ชจ๋“  ํ‰๊ฐ€ ์ง€ํ‘œ์—์„œ ๊ธฐ์กด ๋ฒ ์ด์Šค๋ผ์ธ ๋ชจ๋ธ๋“ค์„ ์ผ๊ด€๋˜๊ฒŒ ๋Šฅ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

๋‹จ์ˆœํžˆ ํ‰๊ท  ์„ฑ๊ณต๋ฅ ์ด ์˜ค๋ฅธ ๊ฒƒ์„ ๋„˜์–ด, ๋ฌผ์ฒด๊ฐ€ ์›€์ง์ด๋Š” ๋™์  ํ™˜๊ฒฝ์ด๋‚˜ ์‹œ๊ฐ์ ์œผ๋กœ ๊ฐ€๋ ค์ง„ ์ƒํ™ฉ์—์„œ๋„ RLDX-1์ด ์•ˆ์ •์ ์œผ๋กœ ์ž‘๋™ํ–ˆ๋‹ค๋Š” ์ ์ด ์ฃผ๋ชฉ๋ฐ›์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์‹ค์ œ ๊ณต์žฅ์ด๋‚˜ ๊ฐ€์ • ๋‚ด์ฒ˜๋Ÿผ ์˜ˆ์ธก ๋ถˆ๊ฐ€๋Šฅํ•œ ํ™˜๊ฒฝ์—์„œ ๋กœ๋ด‡์„ ๋ฐฐ์น˜ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ๋Š” ๊ฒฐ์ •์ ์ธ ์ฆ๊ฑฐ์ž…๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„

๋…ผ๋ฌธ์—์„œ๋Š” ๋ช…์‹œ์ ์ธ ํ•œ๊ณ„์  ์„น์…˜์ด ์ œ๊ณต๋˜์ง€ ์•Š์•˜์ง€๋งŒ, ์ „์ฒด ๋งฅ๋ฝ์„ ํ†ตํ•ด ์œ ์ถ”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. RLDX-1์€ ๋งค์šฐ ๋ฐฉ๋Œ€ํ•œ ์–‘์งˆ์˜ ๋ฐ์ดํ„ฐ(์‹ค์ œ ๋ฐ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ)์™€ ๋ณต์žกํ•œ 3๋‹จ๊ณ„ ํ•™์Šต ๊ณผ์ •์„ ํ•„์š”๋กœ ํ•˜๋ฏ€๋กœ, ๋ชจ๋ธ์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ๊ตฌ์ถ•ํ•˜๊ณ  ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐ ๋ง‰๋Œ€ํ•œ ์ปดํ“จํŒ… ์ž์›๊ณผ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋น„์šฉ์ด ๋“ญ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์‹ค์‹œ๊ฐ„ ๋ฐฐํฌ๋ฅผ ์œ„ํ•œ ์ตœ์ ํ™” ํŒŒ์ดํ”„๋ผ์ธ์ด ํ•„์ˆ˜์ ์ด๋ผ๋Š” ์ ์€ ์ผ๋ฐ˜์ ์ธ ํ•˜๋“œ์›จ์–ด์—์„œ์˜ ์ฆ‰๊ฐ์ ์ธ ์‚ฌ์šฉ์„ ์ œํ•œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅํ•œ ์ 

ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ๋ชจ๋ธ์˜ ๊ฒฝ๋Ÿ‰ํ™”๋ฅผ ํ†ตํ•ด ๋” ์ €์ „๋ ฅ์˜ ์ž„๋ฒ ๋””๋“œ ์‹œ์Šคํ…œ์—์„œ๋„ ๊ตฌ๋™ ๊ฐ€๋Šฅํ•˜๋„๋ก ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ˜„์žฌ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์— ์˜์กดํ•˜๊ณ  ์žˆ๋Š” ํฌ๊ท€ ์กฐ์ž‘ ์‹œ๋‚˜๋ฆฌ์˜ค์˜ ๋‹ค์–‘์„ฑ์„ ๋”์šฑ ํ™•๋Œ€ํ•˜๊ณ , ์‹ค์ œ ๋ฌผ๋ฆฌ์  ์„ผ์„œ์˜ ๋…ธ์ด์ฆˆ์— ๋” ๊ฐ•๊ฑดํ•ด์ง€๋„๋ก ๋งŒ๋“œ๋Š” ์—ฐ๊ตฌ๊ฐ€ ์ด์–ด์งˆ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ถ„์•ผ

RLDX-1์€ ๋ฌผ๋ฅ˜ ์ฐฝ๊ณ ์˜ ์ปจ๋ฒ ์ด์–ด ๋ฒจํŠธ ์‹œ์Šคํ…œ์ฒ˜๋Ÿผ ๋ฌผ์ฒด๊ฐ€ ๋Š์ž„์—†์ด ์›€์ง์ด๋Š” ์—ญ๋™์ ์ธ ํ™˜๊ฒฝ์— ์ฆ‰์‹œ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์‹œ๊ฐ์  ์žฅ์• ๊ฐ€ ๋ฐœ์ƒํ•˜๊ฑฐ๋‚˜ ์„ฌ์„ธํ•œ ํž˜ ์กฐ์ ˆ์ด ํ•„์š”ํ•œ ์ •๋ฐ€ ์กฐ๋ฆฝ ๋ผ์ธ์ด๋‚˜, ์žฅ์• ๋ฌผ์ด ๋งŽ์€ ๋ณต์žกํ•œ ๊ฐ€์ • ๋‚ด ํ™ˆ ์„œ๋น„์Šค ๋กœ๋ด‡ ๋ถ„์•ผ์—์„œ๋„ ์œ ์šฉํ•˜๊ฒŒ ์“ฐ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

์ด ๋ชจ๋ธ์„ ์‹ค์ œ๋กœ ์šด์˜ํ•˜๊ฑฐ๋‚˜ ์žฌํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ณ ์„ฑ๋Šฅ์˜ GPU ํด๋Ÿฌ์Šคํ„ฐ๊ฐ€ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋ชจ๋ธ์˜ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉ๋  ๋‹ค์–‘ํ•œ ๊ด€์ ์˜ ์นด๋ฉ”๋ผ ์˜์ƒ ๋ฐ์ดํ„ฐ์™€ ํž˜ ์„ผ์„œ, ๊ด€์ ˆ ๊ฐ๋„์„ผ์„œ ๋“ฑ์ด ํฌํ•จ๋œ ๋ฐฉ๋Œ€ํ•œ ๋กœ๋ด‡ ์กฐ์ž‘ ๋ฐ์ดํ„ฐ์…‹์ด ํ™•๋ณด๋˜์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. ๋น„์ „-์–ธ์–ด-ํ–‰๋™ ๋ชจ๋ธ (Vision-Language-Action Model, VLA)

    • ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ์ž…๋ ฅ๋ฐ›์•„ ๋กœ๋ด‡์˜ ํ–‰๋™์„ ์ถœ๋ ฅํ•˜๋„๋ก ์„ค๊ณ„๋œ ๋‹ค๋ชฉ์  ๋กœ๋ด‡ ์ •์ฑ… ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  2. ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜ (Transformer Architecture)

    • ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์—์„œ ์‹œ์ž‘๋˜์–ด ํ˜„์žฌ AI์˜ ํ‘œ์ค€์ด ๋œ ๊ตฌ์กฐ๋กœ, ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ๋งค์šฐ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•˜๋Š”๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  3. ์…€ํ”„ ์–ดํ…์…˜ (Self-Attention)

    • ์ž…๋ ฅ ๋ฐ์ดํ„ฐ ๋‚ด์˜ ์š”์†Œ๋“ค์ด ์„œ๋กœ ์–ด๋–ป๊ฒŒ ๊ด€๋ จ๋˜์–ด ์žˆ๋Š”์ง€ ๊ณ„์‚ฐํ•˜์—ฌ ๋ฌธ๋งฅ์„ ์ดํ•ดํ•˜๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.
  4. ๊ตฌํ˜„ (Embodiment)

    • AI๋‚˜ ๋กœ๋ด‡์ด ๋ฌผ๋ฆฌ์ ์ธ ๋ชธ์„ ๊ฐ€์ง€๊ณ  ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋Š” ํ˜•ํƒœ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  5. ์‚ฌ์ „ ํ•™์Šต ๋ฐ ๋ฏธ์„ธ ์กฐ์ • (Pre-training & Fine-tuning)

    • ๋จผ์ € ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ๋กœ ๊ธฐ๋ณธ์ ์ธ ์ง€๋Šฅ์„ ํ•™์Šตํ•œ ๋’ค, ํŠน์ • ์ž‘์—…์— ๋งž์ถฐ ์ถ”๊ฐ€๋กœ ํ•™์Šต์‹œํ‚ค๋Š” ์ „ํ˜•์ ์ธ ๋”ฅ๋Ÿฌ๋‹ ํ•™์Šต ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
  6. ํ”Œ๋กœ์šฐ ๋งค์นญ (Flow Matching)

    • ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์ด๋‚˜ ํ–‰๋™ ์˜ˆ์ธก์—์„œ ํ™•๋ฅ ์  ๊ฒฝ๋กœ๋ฅผ ๋”ฐ๋ผ ์ ์ง„์ ์œผ๋กœ ๋ชฉํ‘œ ์ƒํƒœ์— ๋„๋‹ฌํ•˜๊ฒŒ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ, ๊ธฐ์กด์˜ ๋ฐฉ๋ฒ•๋ณด๋‹ค ํ•™์Šต์ด ์•ˆ์ •์ ์ž…๋‹ˆ๋‹ค.
  7. ๊ณ ์œ  ์ˆ˜์šฉ (Proprioception)

    • ๋กœ๋ด‡์ด ์ž์‹ ์˜ ๊ด€์ ˆ ๊ฐ๋„๋‚˜ ํ† ํฌ ๋“ฑ์„ ํ†ตํ•ด ์Šค์Šค๋กœ์˜ ์ƒํƒœ๋ฅผ ์ธ์ง€ํ•˜๋Š” ๊ฐ๊ฐ ๋Šฅ๋ ฅ์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡MolmoAct2: Action Reasoning Models โ€ฆDD-082
๐ŸฅˆFrom Context to Skills: Can Languagโ€ฆDD-083
๐Ÿฅ‰Stream-R1: Reliability-Perplexity Aโ€ฆDD-084
4.RLDX-1 Technical Report๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
5.ARIS: Autonomous Research via Adverโ€ฆDD-086

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-05-10 | ๐Ÿค– GLM-4.7 Deep Dive