โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-098 SkillOpt: Executive Strategy for Self-Evolving Agent Skills

arXiv: 2605.23904 ๊ธฐ๊ด€: Microsoft Research Upvotes: 207 | Comments: 3 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 2


SkillOpt: Executive Strategy for Self-Evolving Agent Skills ๋…ผ๋ฌธ ๋ถ„์„

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

ํ˜„์žฌ AI ์—์ด์ „ํŠธ์˜ ๊ธฐ์ˆ ๋“ค์€ ์ฃผ๋กœ ์‚ฌ๋žŒ์ด ์ง์ ‘ ๋งŒ๋“ค๊ฑฐ๋‚˜ ๋‹จ๋ฐœ์„ฑ์œผ๋กœ ์ƒ์„ฑ๋˜์–ด, ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•œ ์ง€์†์ ์ธ ๊ฐœ์„ ์ด ์–ด๋ ต๊ณ  ์„ฑ๋Šฅ์ด ์ •์ฒด๋˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์—์ด์ „ํŠธ์˜ ๋‘๋‡Œ(๋ชจ๋ธ)๋ฅผ ๊ฑด๋“œ๋ฆฌ์ง€ ์•Š๊ณ , ์—์ด์ „ํŠธ๊ฐ€ ์‚ฌ์šฉํ•˜๋Š” โ€˜์„ค๋ช…์„œ(Skill)โ€™ ์ž์ฒด๋ฅผ ๋”ฅ๋Ÿฌ๋‹์˜ ๊ฐ€์ค‘์น˜ ์ตœ์ ํ™” ๋ฐฉ์‹์ฒ˜๋Ÿผ ํ›ˆ๋ จ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ์‡„ํ˜• ์ตœ์‹  ๋ชจ๋ธ(Large Language Model)์„ ์žฌํ•™์Šต์‹œํ‚ฌ ํ•„์š” ์—†์ด, ์™ธ๋ถ€ ํ…์ŠคํŠธ๋งŒ์œผ๋กœ ์—์ด์ „ํŠธ์˜ ์„ฑ๋Šฅ์„ ์•ˆ์ •์ ์ด๊ณ  ์ง€์†์ ์œผ๋กœ ๋Œ์–ด์˜ฌ๋ฆด ์ˆ˜ ์žˆ๋Š” ๊ธธ์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์š”๋ฆฌ์‚ฌ์™€ ๋ ˆ์‹œํ”ผ์˜ ๋น„์œ 

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์„ ์ดํ•ดํ•˜๋ ค๋ฉด โ€˜๋ ˆ์Šคํ† ๋ž‘ ์ฃผ๋ฐฉโ€™์„ ์ƒ์ƒํ•ด ๋ณด์„ธ์š”. AI ์—์ด์ „ํŠธ๋Š” โ€˜์š”๋ฆฌ์‚ฌโ€™์ด๊ณ , Skill(์Šคํ‚ฌ)์€ โ€˜์š”๋ฆฌ ๋ ˆ์‹œํ”ผโ€™์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹์€ ๋ ˆ์‹œํ”ผ๋ฅผ ํ•œ๋ฒˆ ์ž‘์„ฑํ•ด ๋‘๋ฉด ์š”๋ฆฌ์‚ฌ๊ฐ€ ์•„๋ฌด๋ฆฌ ์Œ์‹ ๋ง›์ด ์ด์ƒํ•ด๋„ ๋ ˆ์‹œํ”ผ๋ฅผ ๊ณ ์น  ์ˆ˜ ์—†์—ˆ๊ฑฐ๋‚˜, ์ฃผ์ธ์ด ๋ฉ‹๋Œ€๋กœ ๋‚ด์šฉ์„ ๋œฏ์–ด๊ณ ์ณ์„œ ๋ง์น˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•˜์Šต๋‹ˆ๋‹ค.

SkillOpt๋Š” ๋ ˆ์‹œํ”ผ๋ฅผ ์Šค์Šค๋กœ ๊ฐœ์„ ํ•˜๋Š” โ€˜์Šค๋งˆํŠธ ํ…Œ์Šคํ„ฐโ€™๋ฅผ ๋„์ž…ํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์š”๋ฆฌ์‚ฌ๊ฐ€ ๋ ˆ์‹œํ”ผ๋Œ€๋กœ ์š”๋ฆฌ๋ฅผ ํ•ด์„œ ๋‚ด๋†“์œผ๋ฉด(์‹คํ–‰), ํ…Œ์Šคํ„ฐ๊ฐ€ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ  โ€œ์—ฌ๊ธฐ ์†Œ๊ธˆ์„ ์กฐ๊ธˆ ๋œ ๋„ฃ์œผ์„ธ์š”(ํŽธ์ง‘ ์ œ์•ˆ)โ€œ๋ผ๊ณ  ์กฐ์–ธํ•ฉ๋‹ˆ๋‹ค. ์ด ์กฐ์–ธ์„ ๋ฐ˜์˜ํ•œ ์š”๋ฆฌ๋ฅผ ์†๋‹˜(๊ฒ€์ฆ ๋ฐ์ดํ„ฐ)์—๊ฒŒ ๋จน์—ฌ ๋ณธ ๋’ค, ๋ง›์ด ์ข‹์•„์กŒ์„ ๋•Œ๋งŒ ๋ ˆ์‹œํ”ผ์— ์˜๊ตฌ ๋ฐ˜์˜ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์„ ๊ณ„์† ๋ฐ˜๋ณตํ•˜๋ฉด ์š”๋ฆฌ์‚ฌ์˜ ์‹ค๋ ฅ์€ ๊ทธ๋Œ€๋กœ์—ฌ๋„ ๋ ˆ์‹œํ”ผ๊ฐ€ ์™„๋ฒฝํ•ด์ ธ์„œ ๋ง›์žˆ๋Š” ์š”๋ฆฌ๋ฅผ ๊ณ„์† ๋‚ด๋†“๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๋™์ž‘ ๊ณผ์ •

์‹œ์Šคํ…œ์€ ํฌ๊ฒŒ ์„ธ ๋‹จ๊ณ„๋กœ ์ˆœํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ฒซ์งธ, ํ˜„์žฌ์˜ ์Šคํ‚ฌ ๋ฌธ์„œ๋ฅผ ๊ฐ€์ง„ ์—์ด์ „ํŠธ๊ฐ€ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๊ณ  ๊ทธ ๊ณผ์ •์„ ๊ธฐ๋ก์œผ๋กœ ๋‚จ๊น๋‹ˆ๋‹ค(ํŠธ๋ž˜์ ํ† ๋ฆฌ ์ƒ์„ฑ). ๋‘˜์งธ, ๋ณ„๋„์˜ ์ตœ์ ํ™” ๋ชจ๋ธ์ด ์ด ๊ธฐ๋ก์„ ๋ถ„์„ํ•˜์—ฌ ์Šคํ‚ฌ ๋ฌธ์„œ์˜ ์–ด๋А ๋ถ€๋ถ„์„ ์ถ”๊ฐ€, ์‚ญ์ œ, ์ˆ˜์ •ํ• ์ง€ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์…‹์งธ, ๊ฒ€์ฆ ๊ฒŒ์ดํŠธ(Selection Gate)๊ฐ€ ์ด ์ œ์•ˆ๋œ ์ˆ˜์ •์•ˆ์ด ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๊ฐ€์ ธ์˜ค๋Š”์ง€ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค. ์„ฑ๋Šฅ์ด ์˜ค๋ฅด๋ฉด ์ˆ˜์ •์•ˆ์„ ์ฑ„ํƒํ•˜๊ณ , ๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉด ๋ฒ„๋ฆฝ๋‹ˆ๋‹ค.

ํ…์ŠคํŠธ ๊ณต๊ฐ„ ์ตœ์ ํ™” (Text-space Optimization)

์ด ๋…ผ๋ฌธ์˜ ๊ฐ€์žฅ ํฅ๋ฏธ๋กœ์šด ์ ์€ ๋”ฅ๋Ÿฌ๋‹์˜ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(Gradient Descent) ๊ฐœ๋…์„ ํ…์ŠคํŠธ ์˜์—ญ์œผ๋กœ ๊ทธ๋Œ€๋กœ ์˜ฎ๊ฒจ์™”๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜(Weights)๊ฐ€ ์•„๋‹Œ ์Šคํ‚ฌ ๋ฌธ์„œ(Skill Document)๋ฅผ ์—…๋ฐ์ดํŠธ ๋Œ€์ƒ์œผ๋กœ ์‚ผ๊ณ , ์˜ค์ฐจ ์—ญ์ „ํŒŒ๋ฅผ ํ†ตํ•ด ๊ตฌํ•œ ๊ธฐ์šธ๊ธฐ(Gradient) ๋Œ€์‹  ์‹คํ–‰ ๊ถค์ ์—์„œ ์œ ๋„ํ•œ ํŽธ์ง‘ ๋ฐฉํ–ฅ(Edit Direction)์„ ์‚ฌ์šฉํ•˜๋ฉฐ, ํ•™์Šต๋ฅ (Learning Rate)์ฒ˜๋Ÿผ ํŽธ์ง‘์˜ ํฌ๊ธฐ๋ฅผ ์ œํ•œํ•˜๋Š” ์˜ˆ์‚ฐ(Edit Budget)์„ ๋‘ก๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ…์ŠคํŠธ ์ˆ˜์ •์ด ๋„ˆ๋ฌด ์ปค์ ธ์„œ ์Šคํ‚ฌ์ด ๋ง๊ฐ€์ง€๋Š” ์ผ์„ ๋ฐฉ์ง€ํ•˜๊ณ , ์•ˆ์ •์ ์œผ๋กœ ์ ์ง„์ ์ธ ๊ฐœ์„ ์„ ์ด๋Œ์–ด๋ƒ…๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

๋…ผ๋ฌธ์˜ ๋ณธ๋ฌธ ํ…์ŠคํŠธ๊ฐ€ ์ œ๊ณต๋˜์ง€ ์•Š์•˜์œผ๋ฏ€๋กœ, ๋„์ž…๋ถ€์™€ ๊ฐœ์š”์—์„œ ์–ธ๊ธ‰๋œ ์ •์„ฑ์  ์„ฑ๊ณผ๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.

์ œ๊ณต๋œ ์š”์•ฝ์— ๋”ฐ๋ฅด๋ฉด, ์ด ๋ฐฉ์‹์€ ๊ธฐ์กด์˜ โ€˜๋А์Šจํ•˜๊ฒŒ ํ†ต์ œ๋œ ์ž๊ฐ€ ์ˆ˜์ •(loosely controlled self-revision)โ€™ ๋ฐฉ์‹์ด๋‚˜ โ€˜์ˆ˜์ž‘์—…โ€™ ๋ฐฉ์‹๋ณด๋‹ค ํ›จ์”ฌ ์•ˆ์ •์ ์ด๋ผ๊ณ  ์ฃผ์žฅํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ์‹œ์ž‘์ (Initial Skill)๋ณด๋‹ค ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๊ฒŒ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋ฉฐ, ํŽธ์ง‘ ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ์˜๋ฏธ์  ํฐ ๋ณ€๋™(Semantic Jumps)์ด๋‚˜ ๋ถˆ์•ˆ์ •ํ•œ ์—…๋ฐ์ดํŠธ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์–ต์ œํ–ˆ๋‹ค๋Š” ์ ์ด ์ฃผ์š” ์„ฑ๊ณผ์ž…๋‹ˆ๋‹ค.

๊ธฐ์กด ๋ฐฉ์‹๋“ค์ด ๊ฒช๋˜ โ€˜์ธก์ •ํ•  ์ˆ˜ ์—†๋Š” ๋ณ€ํ™”โ€™๋‚˜ โ€˜๋ถ€์ž‘์šฉโ€™ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ , ๋งˆ์น˜ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์ด ํ•™์Šต๋ฅ ๊ณผ ๋ฐฐ์น˜๋ฅผ ์กฐ์ ˆํ•˜๋ฉฐ ์•ˆ์ •์ ์œผ๋กœ ์ˆ˜๋ ดํ•˜๋“ฏ, ํ…์ŠคํŠธ ์Šคํ‚ฌ๋„ ์ฒด๊ณ„์ ์œผ๋กœ ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์„œ๋กœ ๋‹ค๋ฅธ ๋ชจ๋ธ์ด๋‚˜ ํ•˜๋‹ˆ์Šค(Harness) ๊ฐ„์—๋„ ์ผ๋ฐ˜ํ™”๊ฐ€ ์ž˜ ์ด๋ฃจ์–ด์ง€๊ณ , ์ ์€ ๋น„์šฉ์œผ๋กœ ์ „์ด ๋ฐ ๋ฐ˜๋ณต์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์žฅ์ ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๋“ค์€ ๊ธฐ๋ณธ ๋ชจ๋ธ(Frozen Agent) ์ž์ฒด๋ฅผ ๋ณ€๊ฒฝํ•˜์ง€ ์•Š๋Š”๋‹ค๋Š” ์ ์„ ์ „์ œ๋กœ ํ•˜๋ฏ€๋กœ, ๋ชจ๋ธ ๊ณ ์œ ์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ•œ๊ณ„๋ฅผ ๋›ฐ์–ด๋„˜๋Š” ์Šคํ‚ฌ่ฟ›ๅŒ–๋Š” ๋ถˆ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ํ•œ๊ณ„๋ฅผ ๋‚ดํฌํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์•„๋ฌด๋ฆฌ ์Šคํ‚ฌ์„ ์ตœ์ ํ™”ํ•ด๋„ ๊ธฐ๋ณธ ๋ชจ๋ธ์˜ ์ง€๋Šฅ์ด ๋ถ€์กฑํ•˜๋ฉด ๋ณต์žกํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค.

ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์œผ๋กœ๋Š” ์Šคํ‚ฌ ๋ฌธ์„œ์˜ ํŽธ์ง‘ ๋ฐฉํ–ฅ์„ ๋” ์ •๊ตํ•˜๊ฒŒ ๊ฒฐ์ •ํ•˜๊ธฐ ์œ„ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐœ๋ฐœ, ๊ทธ๋ฆฌ๊ณ  ๋‹ค์–‘ํ•œ ๋„๊ตฌ์™€ ํ™˜๊ฒฝ์—์„œ์˜ ๊ฒ€์ฆ ๊ฒŒ์ดํŠธ(Gate) ์„ค์ •์„ ์ž๋™ํ™”ํ•˜๋Š” ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ˜„์žฌ๋Š” ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜์˜ ์Šคํ‚ฌ์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์œผ๋‚˜, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ(์ด๋ฏธ์ง€, ์˜ค๋””์˜ค ๋“ฑ) ์ž…๋ ฅ์„ ๋‹ค๋ฃจ๋Š” ์Šคํ‚ฌ๋กœ ํ™•์žฅํ•˜๋Š” ๊ฒƒ๋„ ๊ณผ์ œ๊ฐ€ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์ด ๊ธฐ์ˆ ์€ ๋ณต์žกํ•œ ๋„๊ตฌ ์‚ฌ์šฉ์ด ํ•„์š”ํ•œ โ€˜์ž๋™ํ™”๋œ ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ ์—์ด์ „ํŠธโ€™๋‚˜ โ€˜๊ธฐ์—…์šฉ ๋ฐ์ดํ„ฐ ๋ถ„์„ ์‹œ์Šคํ…œโ€™์— ์ฆ‰์‹œ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐœ๋ฐœ์ž๊ฐ€ ๋ณต์žกํ•œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ๋งค๋ฒˆ ์†์œผ๋กœ ์ˆ˜์ •ํ•˜์ง€ ์•Š์•„๋„, ์—์ด์ „ํŠธ๊ฐ€ ์Šค์Šค๋กœ ์‚ฌ์šฉ ๋กœ๊ทธ๋ฅผ ๋ถ„์„ํ•˜์—ฌ ์ž‘์—… ๊ฐ€์ด๋“œ๋ผ์ธ์„ ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค ์ธก๋ฉด์—์„œ๋Š” ๊ฑฐ๋Œ€ํ•œ GPU ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ์ƒˆ๋กœ ๊ตฌ์ถ•ํ•  ํ•„์š”๋Š” ์—†์ง€๋งŒ, ์—์ด์ „ํŠธ๊ฐ€ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๊ณ  ๋กœ๊ทธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” โ€˜์ถ”๋ก  ๋น„์šฉ(Inference Cost)โ€˜๊ณผ ์ด๋ฅผ ๋ถ„์„ํ•˜๋Š” โ€˜์ตœ์ ํ™” ๋ชจ๋ธโ€™์˜ ์—ฐ์‚ฐ ๋น„์šฉ์ด ์ง€์†์ ์œผ๋กœ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ๊ฒ€์ฆ์„ ์œ„ํ•œ ๋ณ„๋„์˜ ๋ฐ์ดํ„ฐ์…‹(Held-out set)์„ ํ™•๋ณดํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋ฏ€๋กœ ๊ณ ํ’ˆ์งˆ์˜ ๋„๋ฉ”์ธ๋ณ„ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • Large Language Model (LLM): ํ…์ŠคํŠธ๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•˜๋Š” ๋Œ€๊ทœ๋ชจ ์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ๋กœ, ์—์ด์ „ํŠธ์˜ ๋‘๋‡Œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
  • AI Agent: ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์Šค์Šค๋กœ ํŒ๋‹จํ•˜๊ณ  ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ–‰๋™ํ•˜๋Š” ์ž์œจ ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค.
  • Prompt Engineering: ๋ชจ๋ธ์ด ์›ํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋‚ด๋„๋ก ์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์„ค๊ณ„ํ•˜๊ณ  ์กฐ์ •ํ•˜๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.
  • Gradient Descent (๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•): ๋ชจ๋ธ์˜ ์˜ค์ฐจ๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ •ํ•˜๋Š” ๋”ฅ๋Ÿฌ๋‹์˜ ํ•ต์‹ฌ ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.
  • Trajectory (ํŠธ๋ž˜์ ํ† ๋ฆฌ): ์—์ด์ „ํŠธ๊ฐ€ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ณผ์ •์—์„œ ์ƒ์„ฑ๋œ ์ƒํƒœ, ํ–‰๋™, ๊ด€์ฐฐ ๋“ฑ์˜ ์ˆœ์ฐจ์ ์ธ ๊ธฐ๋ก์ž…๋‹ˆ๋‹ค.
  • Held-out Set (๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์…‹): ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ฑฐ๋‚˜ ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ํ•™์Šต์— ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  ๋ณ„๋„๋กœ ๋–ผ์–ด๋‘” ๋ฐ์ดํ„ฐ์ž…๋‹ˆ๋‹ค.
  • Fine-tuning: ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ํŠน์ • ์ž‘์—…์— ๋งž์ถฐ ์ถ”๊ฐ€๋กœ ํ•™์Šต์‹œํ‚ค๋Š” ๊ณผ์ •์œผ๋กœ, ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š” ๋Œ€์‹  โ€˜์Šคํ‚ฌ ์ตœ์ ํ™”โ€™๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Gamma-World: Generative Multi-Agentโ€ฆDD-097
๐ŸฅˆSkillOpt: Executive Strategy for Seโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐Ÿฅ‰DVAO: Dynamic Variance-adaptive Advโ€ฆDD-099
4.LocateAnything: Fast and High-Qualiโ€ฆDD-100
5.AgentDoG 1.5: A Lightweight and Scaโ€ฆDD-101

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-05-31 | ๐Ÿค– GLM-4.7 Deep Dive