โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-083 From Context to Skills: Can Language Models Learn from Context Skillfully?

arXiv: 2604.27660 Upvotes: 145 | Comments: 3 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 2


1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ์–ธ์–ด ๋ชจ๋ธ(LLM)์€ ๋ฐฉ๋Œ€ํ•œ ์‚ฌ์ „ ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์˜์กดํ•˜์—ฌ ์ง€์‹์„ ํ™œ์šฉํ•˜์ง€๋งŒ, ์‹ค์ œ ํ˜„์—…์—์„œ ๋งˆ์ฃผํ•˜๋Š” ๊ธด ๊ธฐ์ˆ  ๋ฌธ์„œ๋‚˜ ์ƒˆ๋กœ์šด ๊ทœ์น™ ๊ฐ™์€ ๋ณต์žกํ•œ ๋งฅ๋ฝ์„ ์ฆ‰๊ฐ์ ์œผ๋กœ ํ•™์Šตํ•˜์—ฌ ํ™œ์šฉํ•˜๋Š” ๋ฐ์—๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ์ด๋Ÿฌํ•œ ๋งฅ๋ฝ(Context)์—์„œ ์œ ์šฉํ•œ ๊ทœ์น™์ด๋‚˜ ์ ˆ์ฐจ๋ฅผ ๋ฝ‘์•„๋‚ด์–ด ๋ชจ๋ธ์—๊ฒŒ ๋„๊ตฌ๋กœ ์ œ๊ณตํ•˜๋Š” โ€˜์Šคํ‚ฌ(Skill)โ€™ ์ƒ์„ฑ์€ ์‚ฌ๋žŒ์ด ์ง์ ‘ ์ฃผ์„์„ ๋‹ฌ์•„์•ผ ํ–ˆ๊ธฐ์— ๋น„์šฉ์ด ๋„ˆ๋ฌด ๋งŽ์ด ๋“ค๊ณ  ์™ธ๋ถ€ ํ”ผ๋“œ๋ฐฑ์ด ์—†์–ด ์ž๋™ํ™”๊ฐ€ ์–ด๋ ต๋‹ค๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์€ Ctx2Skill์ด๋ผ๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ์‚ฌ๋žŒ์˜ ๊ฐœ์ž…์ด๋‚˜ ์™ธ๋ถ€ ํ”ผ๋“œ๋ฐฑ ์—†์ด๋„, ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ๋ฌธ๋งฅ์„ ์ฝ๊ณ  ํ•„์š”ํ•œ ์Šคํ‚ฌ์„ ๋ฐœ๊ฒฌ, ์ •์ œ, ์„ ํƒํ•˜์—ฌ ์ž์‹ ์˜ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์ฒ˜์Œ์œผ๋กœ ์ฆ๋ช…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์–ธ์–ด ๋ชจ๋ธ์ด ๋‹จ์ˆœํ•œ ํ…์ŠคํŠธ ์ƒ์„ฑ๊ธฐ๋ฅผ ๋„˜์–ด, ์ฃผ์–ด์ง„ ํ™˜๊ฒฝ์—์„œ ์Šค์Šค๋กœ ์ง„ํ™”ํ•˜์—ฌ ์ƒˆ๋กœ์šด ์ง€์‹๊ณผ ์ ˆ์ฐจ๋ฅผ ์Šต๋“ํ•  ์ˆ˜ ์žˆ๋Š” ์ง€๋Šฅํ˜• ์—์ด์ „ํŠธ๋กœ ๋ฐœ์ „ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค๋Š” ์ ์—์„œ ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€˜์ŠคํŒŒ๋ง ํ›ˆ๋ จ์„ ํ•˜๋Š” ๊ฒฉํˆฌ๊ธฐ ์„ ์ˆ˜โ€™

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ๋งˆ์น˜ ๋‘ ๋ช…์˜ ๊ฒฉํˆฌ๊ธฐ ์„ ์ˆ˜๊ฐ€ ์„œ๋กœ ์ŠคํŒŒ๋ง์„ ํ•˜๋ฉฐ ์‹ค๋ ฅ์„ ํ‚ค์šฐ๋Š” ๊ณผ์ •๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

๋ณดํ†ต ์–ธ์–ด ๋ชจ๋ธ์ด ์–ด๋ ค์šด ๋งค๋‰ด์–ผ์„ ๋ณด๊ณ  ๋ฌธ์ œ๋ฅผ ํ‘ธ๋Š” ๊ฒƒ์€, ์„ ์ˆ˜๊ฐ€ ๋งค๋‰ด์–ผ์„ ์ฝ๊ณ  ๋ฐ”๋กœ ์‹œํ•ฉ์— ๋‚˜๊ฐ€๋Š” ๊ฒƒ๊ณผ ๊ฐ™์•„์„œ ์‹ค์ˆ˜๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์ด ๋งค๋‰ด์–ผ์„ ์ฝ๊ณ  โ€œ์ด๊ฑด ์™ผ์†์œผ๋กœ ๋ง‰์„ ๋•Œ ์จ๋ผโ€๋ผ๊ณ  ์Šคํ‚ฌ์„ ์ •๋ฆฌํ•ด์ฃผ๋ฉด ์ข‹์ง€๋งŒ, ๋งค๋‰ด์–ผ์ด ๋„ˆ๋ฌด ๊ธธ๋ฉด ์‚ฌ๋žŒ๋„ ํž˜๋“ญ๋‹ˆ๋‹ค.

Ctx2Skill์€ ๋ชจ๋ธ์„ ๋‘ ์‚ฌ๋žŒ, ๋„์ „์ž(Challenger)์™€ ํ•ด๊ฒฐ์‚ฌ(Reasoner)๋กœ ๋‚˜๋ˆ•๋‹ˆ๋‹ค. ๋„์ „์ž๋Š” ๋งค๋‰ด์–ผ(Context)์„ ๋ฐ”ํƒ•์œผ๋กœ ์—ฐ์Šต ๋ฌธ์ œ๋ฅผ ๋‚ด๊ณ , ํ•ด๊ฒฐ์‚ฌ๋Š” ๊ทธ ๋ฌธ์ œ๋ฅผ ํ’‰๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์— ์‹ฌํŒ(Judge)์ด ์ฑ„์ ์„ ํ•ฉ๋‹ˆ๋‹ค. ๋งŒ์•ฝ ํ•ด๊ฒฐ์‚ฌ๊ฐ€ ๋ฌธ์ œ๋ฅผ ํ‹€๋ฆฌ๋ฉด, ์ž์‹ ์˜ ๋ถ€์กฑํ•จ์„ ๊นจ๋‹ซ๊ณ  โ€œ๋‹ค์Œ์—” ์ด๋ ‡๊ฒŒ ํ•ด๊ฒฐํ•˜์žโ€๋ผ๊ณ  ์Šค์Šค๋กœ ์Šคํ‚ฌ์„ ์ˆ˜์ •ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋Œ€๋กœ ๋„์ „์ž์˜ ๋ฌธ์ œ๊ฐ€ ๋„ˆ๋ฌด ์‰ฌ์šฐ๋ฉด, ๋„์ „์ž๋Š” โ€œ๋” ๊นŒ๋‹ค๋กœ์šด ๋ฌธ์ œ๋ฅผ ๋‚ด์•ผ์ง€โ€๋ผ๊ณ  ์ž์‹ ์˜ ์ถœ์ œ ์Šคํ‚ฌ์„ ๋†’์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์„œ๋กœ ๊ฒฝ์Ÿํ•˜๋ฉฐ ์„œ๋กœ์˜ ์Šคํ‚ฌ์„ ๋Š์ž„์—†์ด ์—…๊ทธ๋ ˆ์ด๋“œํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ๊ณผ์ •

์‹œ์Šคํ…œ์€ ํฌ๊ฒŒ ๋„ค ๊ฐ€์ง€ ๋‹จ๊ณ„๋กœ ์ˆœํ™˜ํ•˜๋ฉฐ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.

  1. ๊ณผ์ œ ์ƒ์„ฑ: ๋„์ „์ž๋Š” ํ˜„์žฌ ๊ฐ€์ง„ ์Šคํ‚ฌ์„ ๋ฐ”ํƒ•์œผ๋กœ ๊ธด ๋ฌธ๋งฅ(Context)์—์„œ ์ค‘์š”ํ•œ ๋ถ€๋ถ„์„ ๊ณจ๋ผ ํ•ด๊ฒฐ์‚ฌ๋ฅผ ํ…Œ์ŠคํŠธํ•  ๋ฌธ์ œ์™€ ์ฑ„์  ๊ธฐ์ค€(Rubric)์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
  2. ๋ฌธ์ œ ํ•ด๊ฒฐ ๋ฐ ์ฑ„์ : ํ•ด๊ฒฐ์‚ฌ๋Š” ์ž์‹ ์˜ ์Šคํ‚ฌ์„ ์‚ฌ์šฉํ•ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋ ค ์‹œ๋„ํ•ฉ๋‹ˆ๋‹ค. ์ค‘๋ฆฝ์ ์ธ ์‹ฌํŒ์ด ์ด ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ  ๋งž์•˜๋Š”์ง€ ํ‹€๋ ธ๋Š”์ง€(O/X) ํŒ์ •ํ•ฉ๋‹ˆ๋‹ค.
  3. ์Šคํ‚ฌ ์ง„ํ™” (Skill Evolution): ๊ฒฐ๊ณผ์— ๋”ฐ๋ผ ์ œ์•ˆ์ž(Proposer)์™€ ์ƒ์„ฑ์ž(Generator)๊ฐ€ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค. ํ•ด๊ฒฐ์‚ฌ๊ฐ€ ํ‹€๋ ธ๋‹ค๋ฉด, ์–ด๋””์„œ ์‹คํŒจํ–ˆ๋Š”์ง€ ๋ถ„์„ํ•ด์„œ ํ…์ŠคํŠธ๋กœ ๋œ ์Šคํ‚ฌ(Skill)์„ ์ˆ˜์ •ํ•˜์—ฌ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์— ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ๋„์ „์ž๊ฐ€ ๋„ˆ๋ฌด ์‰ฌ์šด ๋ฌธ์ œ๋ฅผ ๋ƒˆ๋‹ค๋ฉด ๋„์ „์ž์˜ ์Šคํ‚ฌ์„ ์—…๋ฐ์ดํŠธํ•˜์—ฌ ๋” ์–ด๋ ค์šด ๋ฌธ์ œ๋ฅผ ๋‚ด๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.
  4. ๊ต์ฐจ ์‹œ์  ์žฌ์ƒ (Cross-Time Replay): ๊ณ„์† ๊ฒฝ์Ÿํ•˜๋‹ค ๋ณด๋ฉด, ์•„์ฃผ ํŠน์ดํ•œ ์˜ˆ์™ธ๋งŒ ๋งžํžˆ๋Š” ํŠนํ™”๋œ ์Šคํ‚ฌ๋งŒ ๋Š˜์–ด๋‚  ์œ„ํ—˜์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ๊ณผ๊ฑฐ์˜ ๋ฌธ์ œ๋“ค์„ ๋‹ค์‹œ ๊บผ๋‚ด ํ’€์–ด๋ณด๋ฉฐ, ๊ฐ€์žฅ ๋ฒ”์šฉ์ ์œผ๋กœ ์„ฑ๋Šฅ์ด ์ข‹์€ ์Šคํ‚ฌ ์„ธํŠธ๋ฅผ ์„ ํƒํ•˜์—ฌ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ์žƒ์ง€ ์•Š๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ตฌ์กฐ

์ด ๊ณผ์ •์€ ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ˆœํ™˜ ๊ณผ์ •์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹œ์  t์—์„œ์˜ ์Šคํ‚ฌ ์„ธํŠธ $S_t$๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์—…๋ฐ์ดํŠธ๋ฉ๋‹ˆ๋‹ค.

$S_{t+1} = \text{Evolve}(S_t, \text{Verdict}(\text{Solve}(\text{Generate}(S_t))))$

์—ฌ๊ธฐ์„œ $\text{Evolve}$๋Š” ์‹คํŒจ ๋ถ„์„์„ ํ†ตํ•ด ํ…์ŠคํŠธ ์Šคํ‚ฌ์„ ์ˆ˜์ •ํ•˜๋Š” ํ•จ์ˆ˜์ด๋ฉฐ, $\text{Cross-Time Replay}$ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ์ด ๊ณผ์ •์—์„œ ์ตœ์ ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋‚ด๋Š” $S_{best}$๋ฅผ ์œ ์ง€ํ•˜๋„๋ก ๋ณด์žฅํ•˜๋Š” ์•ˆ์ „์žฅ์น˜ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

๋ฒค์น˜๋งˆํฌ ๋ฐ ์„ค์ •

์ด ๋…ผ๋ฌธ์€ ์–ธ์–ด ๋ชจ๋ธ์˜ ๋ฌธ๋งฅ ํ•™์Šต ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๊ณ ์•ˆ๋œ CL-bench๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฒค์น˜๋งˆํฌ๋Š” ๋‹จ์ˆœํ•œ ๋…ํ•ด ๋Šฅ๋ ฅ์„ ํ…Œ์ŠคํŠธํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, 500๊ฐœ์˜ ๋ณต์žกํ•œ ๋ฌธ๋งฅ๊ณผ 1,899๊ฐœ์˜ ์ž‘์—…, 31,607๊ฐœ์˜ ๊ฒ€์ฆ ๊ธฐ์ค€(Rubric)์„ ํฌํ•จํ•˜๋ฉฐ, ๋ชจ๋ธ์ด ๋ฌธ๋งฅ ์•ˆ์— ์žˆ๋Š” ์ƒˆ๋กœ์šด ์ง€์‹์„ ํ•™์Šตํ•˜์—ฌ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š”์ง€๋ฅผ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. ํ‰๊ฐ€๋Š” GPT-5.1์„ ์‹ฌํŒ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๋งค์šฐ ์—„๊ฒฉํ•˜๊ฒŒ ์ด๋ฃจ์–ด์กŒ์Šต๋‹ˆ๋‹ค.

์„ฑ๋Šฅ ํ–ฅ์ƒ ์ˆ˜์น˜

์‹คํ—˜ ๊ฒฐ๊ณผ์— ๋”ฐ๋ฅด๋ฉด Ctx2Skill์„ ์ ์šฉํ•˜์ง€ ์•Š์€ ์ตœ์‹  ๋ชจ๋ธ๋“ค(GPT-5.1, Claude Opus 4.5)์˜ ์ „์ฒด ๋ฌธ์ œ ํ•ด๊ฒฐ์œจ์€ ์•ฝ 21% ์ˆ˜์ค€์— ๋จธ๋ฌผ๋ €์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, Ctx2Skill ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ์Šค์Šค๋กœ ์Šคํ‚ฌ์„ ํ•™์Šตํ•œ ๋ชจ๋ธ์€ ๋ชจ๋“  ์นดํ…Œ๊ณ ๋ฆฌ(์˜์—ญ ์ง€์‹ ์ถ”๋ก , ๊ทœ์น™ ์‹œ์Šคํ…œ ์ ์šฉ, ์ ˆ์ฐจ์  ์ž‘์—… ์ˆ˜ํ–‰, ๊ฒฝํ—˜์  ๋ฐœ๊ฒฌ ๋ฐ ์‹œ๋ฎฌ๋ ˆ์ด์…˜)์—์„œ ์ผ๊ด€๋˜๊ฒŒ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์— ์ œ์‹œ๋œ ํ‘œ์—์„œ ๋ถ‰์€์ƒ‰์œผ๋กœ ํ‘œ์‹œ๋œ ๋ถ€๋ถ„์€ ์Šคํ‚ฌ์„ ์ถ”๊ฐ€ํ–ˆ์„ ๋•Œ ์–ป๋Š” ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ์ด ํ–ฅ์ƒ ํญ์€ ๋‹จ์ˆœํ•œ ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง์œผ๋กœ๋Š” ๋‹ฌ์„ฑํ•˜๊ธฐ ํž˜๋“  ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

๊ฐ€์žฅ ์ธ์ƒ์ ์ธ ์ ์€ ๋ชจ๋ธ์˜ ์ข…๋ฅ˜์— ์ƒ๊ด€์—†์ด ์Šคํ‚ฌ์ด ์ „์ด(Transfer) ๊ฐ€๋Šฅ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํ•œ ๋ชจ๋ธ์ด ํ•™์Šตํ•œ ์Šคํ‚ฌ์„ ๋‹ค๋ฅธ ๋ชจ๋ธ์—๋„ ์ ์šฉํ–ˆ์„ ๋•Œ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” Ctx2Skill์ด ์ƒ์„ฑํ•˜๋Š” ์Šคํ‚ฌ์ด ํŠน์ • ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ์— ์˜์กดํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋ฌธ๋งฅ ์ž์ฒด์— ๋‚ด์žฌ๋œ ๊ฐ๊ด€์ ์ธ ์ ˆ์ฐจ์  ์ง€์‹์„ ์ž˜ ํฌ์ฐฉํ•˜๊ณ  ์žˆ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„ ๋ฐ ์œ„ํ—˜ ์š”์†Œ

์ €์ž๋“ค์€ ์ ๋Œ€์  ๋ถ•๊ดด(Adversarial Collapse)์— ๋Œ€ํ•ด ์–ธ๊ธ‰ํ•˜๋ฉฐ ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Cross-Time Replay๋ฅผ ์ œ์•ˆํ–ˆ์ง€๋งŒ, ์—ฌ์ „ํžˆ ์ž๊ฐ€ ํ•™์Šต(Self-play) ๊ณผ์ •์—์„œ ์ง€์—ญ ์ตœ์ ํ•ด(Local Optima)์— ๋น ์งˆ ์œ„ํ—˜์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๋„์ „์ž๊ฐ€ ๋„ˆ๋ฌด ๊ธฐ์ดํ•œ ๋ฌธ์ œ๋ฅผ ๊ณ„์† ์ƒ์„ฑํ•˜๊ณ  ํ•ด๊ฒฐ์‚ฌ๊ฐ€ ๊ทธ ๋ฌธ์ œ๋งŒ ๋งžํžˆ๋Š” ์—‰๋šฑํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ์ง„ํ™”ํ•  ๊ฐ€๋Šฅ์„ฑ์„ ์™„์ „ํžˆ ๋ฐฐ์ œํ•  ์ˆ˜๋Š” ์—†์Šต๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅํ•œ ์ 

ํ˜„์žฌ์˜ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜์˜ ์Šคํ‚ฌ ์ƒ์„ฑ๊ณผ ์ˆ˜์ •์— ์ง‘์ค‘๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ํ…์ŠคํŠธ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ฝ”๋“œ ์‹คํ–‰์ด๋‚˜ ์™ธ๋ถ€ ๋„๊ตฌ ํ˜ธ์ถœ์„ ํฌํ•จํ•œ ๋” ๋ณต์žกํ•œ ํ˜•ํƒœ์˜ ์Šคํ‚ฌ์„ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ํ™•์žฅํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ˜„์žฌ๋Š” ์ˆœ์ฐจ์ ์ธ ๋ฐ˜๋ณต ๊ณผ์ •์ด ๋งŽ์€ ์—ฐ์‚ฐ ๋ฆฌ์†Œ์Šค๋ฅผ ์†Œ๋ชจํ•˜๋ฏ€๋กœ, ์ด ๊ณผ์ •์„ ๋” ํšจ์œจ์ ์œผ๋กœ ๋ณ‘๋ ฌํ™”ํ•˜์—ฌ ํ•™์Šต ์†๋„๋ฅผ ๋†’์ด๋Š” ๊ฒƒ๋„ ์ค‘์š”ํ•œ ๊ณผ์ œ์ž…๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ถ„์•ผ

Ctx2Skill์€ ๋ณต์žกํ•œ ๋ฌธ์„œ๋ฅผ ์ฝ๊ณ  ์—…๋ฌด๋ฅผ ์ฒ˜๋ฆฌํ•ด์•ผ ํ•˜๋Š” ๋ถ„์•ผ์— ์ฆ‰์‹œ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ธ‰๋ณ€ํ•˜๋Š” ๋ฒ•๋ฅ  ๊ทœ์ •์ด๋‚˜ ๊ธฐ์ˆ  ๋งค๋‰ด์–ผ, ์˜๋ฃŒ ์ง„๋ฃŒ ์ง€์นจ ๋“ฑ์ด ๋‹ด๊ธด ๊ธด ๋ฌธ์„œ๋ฅผ ๋ชจ๋ธ์—๊ฒŒ ์ œ๊ณตํ–ˆ์„ ๋•Œ, ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ๊ทธ ๋ฌธ์„œ์—์„œ ํ•ต์‹ฌ ๋ฃฐ์„ ์ถ”์ถœํ•˜์—ฌ โ€˜์—…๋ฌด ๋งค๋‰ด์–ผ(์Šคํ‚ฌ)โ€˜์„ ๋งŒ๋“ค๊ณ  ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๊ณ ๊ฐ ๋ฌธ์˜๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ฑฐ๋‚˜ ์žฅ์• ๋ฅผ ์ง„๋‹จํ•˜๋Š” ์‹œ์Šคํ…œ์„ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

์ด ๋ฐฉ์‹์€ ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ฏธ์„ธ ์กฐ์ •(Fine-tuning) ๊ณผ์ •์ด ์—†์œผ๋ฏ€๋กœ ๋ง‰๋Œ€ํ•œ GPU ํ•™์Šต ๋ฆฌ์†Œ์Šค๋Š” ํ•„์š”ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋Œ€์‹ , ๋„์ „์ž, ํ•ด๊ฒฐ์‚ฌ, ์‹ฌํŒ ์—์ด์ „ํŠธ๋“ค์ด ์ˆ˜๋งŽ์€ ํ† ํฐ์„ ์ƒ์„ฑํ•˜๊ณ  ํ‰๊ฐ€ํ•˜๋Š” โ€˜์ถ”๋ก  ์‹œ๊ฐ„(Inference-time)โ€™ ์—ฐ์‚ฐ์ด ๋งŽ์ด ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๊ณ ํ’ˆ์งˆ์˜ ์–ธ์–ด ๋ชจ๋ธ API๋ฅผ ์ถฉ๋ถ„ํžˆ ํ˜ธ์ถœํ•  ์ˆ˜ ์žˆ๋Š” ๋น„์šฉ ์˜ˆ์‚ฐ์ด๋‚˜, ๋น ๋ฅธ ์ถ”๋ก  ์†๋„๋ฅผ ๋‚ด๋Š” ๋กœ์ปฌ ์ถ”๋ก  ์„œ๋ฒ„๊ฐ€ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. ํŒŒ๋ผ๋ฉ”ํŠธ๋ฆญ ์ง€์‹ (Parametric Knowledge): ์–ธ์–ด ๋ชจ๋ธ์ด ์‚ฌ์ „ ํ•™์Šต ๋‹จ๊ณ„์—์„œ ๊ฐ€์ค‘์น˜(Weights)์— ์ €์žฅํ•ด ๋‘” ๋‚ด์žฌ๋œ ์ง€์‹์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ์ด ์‚ฌ์ „์— ํ•™์Šตํ•˜์ง€ ์•Š์€ ์ตœ์‹  ์ •๋ณด๋Š” ์•Œ ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค.
  2. ๋งฅ๋ฝ ํ•™์Šต (Context Learning): ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ˆ˜์ •ํ•˜์ง€ ์•Š๊ณ , ํ”„๋กฌํ”„ํŠธ์— ์ œ๊ณต๋œ ๋ฌธ๋งฅ(Context)์ด๋‚˜ ์˜ˆ์‹œ๋ฅผ ํ†ตํ•ด ์ƒˆ๋กœ์šด ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•˜๋Š” ๋Šฅ๋ ฅ์ž…๋‹ˆ๋‹ค.
  3. ์ถ”๋ก  ์‹œ๊ฐ„ ์Šคํ‚ฌ ์ฆ๊ฐ• (Inference-time Skill Augmentation): ๋ชจ๋ธ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ๋•Œ, ์™ธ๋ถ€์—์„œ ์ฃผ์–ด์ง€๊ฑฐ๋‚˜ ๋ฏธ๋ฆฌ ์ •์˜๋œ ์ž์—ฐ์–ด ํ˜•ํƒœ์˜ ๊ทœ์น™์ด๋‚˜ ์ ˆ์ฐจ(Skill)๋ฅผ ์ฐธ๊ณ ํ•˜์—ฌ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋†’์ด๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
  4. ์ž๊ฐ€ ํ”Œ๋ ˆ์ด (Self-play): ๊ฐ•ํ™”ํ•™์Šต์—์„œ ์ž์ฃผ ์“ฐ์ด๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, ์—์ด์ „ํŠธ๊ฐ€ ์ž๊ธฐ ์ž์‹  ๋˜๋Š” ๋‹ค๋ฅธ ์—์ด์ „ํŠธ์™€ ๊ฒŒ์ž„์„ ํ•˜๋ฉฐ ๊ฒฝ์Ÿํ•˜๊ณ  ํ˜‘๋ ฅํ•˜์—ฌ ์‹ค๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ํ•™์Šต ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. (์˜ˆ: ์•ŒํŒŒ๊ณ )
  5. ์ ๋Œ€์  ๋ถ•๊ดด (Adversarial Collapse): ์ž๊ฐ€ ํ”Œ๋ ˆ์ด ๊ณผ์ •์—์„œ ์—์ด์ „ํŠธ๋“ค์ด ํŠน์ •ํ•œ ํŒจํ„ด์—๋งŒ ๊ณผ๋„ํ•˜๊ฒŒ ์ตœ์ ํ™”๋˜์–ด, ์ผ๋ฐ˜์ ์ธ ์ƒํ™ฉ์—์„œ๋Š” ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€๊ฑฐ๋‚˜ ์„œ๋กœ ๋ฌด์˜๋ฏธํ•œ ํŒจํ„ด๋งŒ ๋ฐ˜๋ณตํ•˜๊ฒŒ ๋˜๋Š” ํ˜„์ƒ์ž…๋‹ˆ๋‹ค.
  6. ์ œ๋„ˆ๋ ˆ์ดํ‹ฐ๋ธŒ ์—์ด์ „ํŠธ (Generative Agent): ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜์—ฌ, ์Šค์Šค๋กœ ๊ณ„ํš์„ ์„ธ์šฐ๊ณ  ํ–‰๋™ํ•˜๋ฉฐ ๋‹ค๋ฅธ ์—์ด์ „ํŠธ์™€ ์ƒํ˜ธ์ž‘์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์ž์œจ์ ์ธ AI ์‹œ์Šคํ…œ์„ ๋งํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡MolmoAct2: Action Reasoning Models โ€ฆDD-082
๐ŸฅˆFrom Context to Skills: Can Languagโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐Ÿฅ‰Stream-R1: Reliability-Perplexity Aโ€ฆDD-084
4.RLDX-1 Technical ReportDD-085
5.ARIS: Autonomous Research via Adverโ€ฆDD-086

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-05-10 | ๐Ÿค– GLM-4.7 Deep Dive