โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-098 SkillOpt: Executive Strategy for Self-Evolving Agent Skills
arXiv: 2605.23904 ๊ธฐ๊ด: Microsoft Research Upvotes: 207 | Comments: 3 ์์: ์ด๋ฒ ์ฃผ Top 2
SkillOpt: Executive Strategy for Self-Evolving Agent Skills ๋ ผ๋ฌธ ๋ถ์
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
ํ์ฌ AI ์์ด์ ํธ์ ๊ธฐ์ ๋ค์ ์ฃผ๋ก ์ฌ๋์ด ์ง์ ๋ง๋ค๊ฑฐ๋ ๋จ๋ฐ์ฑ์ผ๋ก ์์ฑ๋์ด, ํผ๋๋ฐฑ์ ํตํ ์ง์์ ์ธ ๊ฐ์ ์ด ์ด๋ ต๊ณ ์ฑ๋ฅ์ด ์ ์ฒด๋๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์์ด์ ํธ์ ๋๋(๋ชจ๋ธ)๋ฅผ ๊ฑด๋๋ฆฌ์ง ์๊ณ , ์์ด์ ํธ๊ฐ ์ฌ์ฉํ๋ โ์ค๋ช ์(Skill)โ ์์ฒด๋ฅผ ๋ฅ๋ฌ๋์ ๊ฐ์ค์น ์ต์ ํ ๋ฐฉ์์ฒ๋ผ ํ๋ จ ๊ฐ๋ฅํ๊ฒ ๋ง๋ญ๋๋ค. ์ด๋ฅผ ํตํด ํ์ํ ์ต์ ๋ชจ๋ธ(Large Language Model)์ ์ฌํ์ต์ํฌ ํ์ ์์ด, ์ธ๋ถ ํ ์คํธ๋ง์ผ๋ก ์์ด์ ํธ์ ์ฑ๋ฅ์ ์์ ์ ์ด๊ณ ์ง์์ ์ผ๋ก ๋์ด์ฌ๋ฆด ์ ์๋ ๊ธธ์ ์ด์์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์๋ฆฌ์ฌ์ ๋ ์ํผ์ ๋น์
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ์ดํดํ๋ ค๋ฉด โ๋ ์คํ ๋ ์ฃผ๋ฐฉโ์ ์์ํด ๋ณด์ธ์. AI ์์ด์ ํธ๋ โ์๋ฆฌ์ฌโ์ด๊ณ , Skill(์คํฌ)์ โ์๋ฆฌ ๋ ์ํผโ์ ๋๋ค. ๊ธฐ์กด ๋ฐฉ์์ ๋ ์ํผ๋ฅผ ํ๋ฒ ์์ฑํด ๋๋ฉด ์๋ฆฌ์ฌ๊ฐ ์๋ฌด๋ฆฌ ์์ ๋ง์ด ์ด์ํด๋ ๋ ์ํผ๋ฅผ ๊ณ ์น ์ ์์๊ฑฐ๋, ์ฃผ์ธ์ด ๋ฉ๋๋ก ๋ด์ฉ์ ๋ฏ์ด๊ณ ์ณ์ ๋ง์น๋ ๊ฒฝ์ฐ๊ฐ ๋ง์์ต๋๋ค.
SkillOpt๋ ๋ ์ํผ๋ฅผ ์ค์ค๋ก ๊ฐ์ ํ๋ โ์ค๋งํธ ํ ์คํฐโ๋ฅผ ๋์ ํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ์๋ฆฌ์ฌ๊ฐ ๋ ์ํผ๋๋ก ์๋ฆฌ๋ฅผ ํด์ ๋ด๋์ผ๋ฉด(์คํ), ํ ์คํฐ๊ฐ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ โ์ฌ๊ธฐ ์๊ธ์ ์กฐ๊ธ ๋ ๋ฃ์ผ์ธ์(ํธ์ง ์ ์)โ๋ผ๊ณ ์กฐ์ธํฉ๋๋ค. ์ด ์กฐ์ธ์ ๋ฐ์ํ ์๋ฆฌ๋ฅผ ์๋(๊ฒ์ฆ ๋ฐ์ดํฐ)์๊ฒ ๋จน์ฌ ๋ณธ ๋ค, ๋ง์ด ์ข์์ก์ ๋๋ง ๋ ์ํผ์ ์๊ตฌ ๋ฐ์ํฉ๋๋ค. ์ด ๊ณผ์ ์ ๊ณ์ ๋ฐ๋ณตํ๋ฉด ์๋ฆฌ์ฌ์ ์ค๋ ฅ์ ๊ทธ๋๋ก์ฌ๋ ๋ ์ํผ๊ฐ ์๋ฒฝํด์ ธ์ ๋ง์๋ ์๋ฆฌ๋ฅผ ๊ณ์ ๋ด๋๊ฒ ๋ฉ๋๋ค.
๋์ ๊ณผ์
์์คํ ์ ํฌ๊ฒ ์ธ ๋จ๊ณ๋ก ์ํํฉ๋๋ค. ์ฒซ์งธ, ํ์ฌ์ ์คํฌ ๋ฌธ์๋ฅผ ๊ฐ์ง ์์ด์ ํธ๊ฐ ์์ ์ ์ํํ๊ณ ๊ทธ ๊ณผ์ ์ ๊ธฐ๋ก์ผ๋ก ๋จ๊น๋๋ค(ํธ๋์ ํ ๋ฆฌ ์์ฑ). ๋์งธ, ๋ณ๋์ ์ต์ ํ ๋ชจ๋ธ์ด ์ด ๊ธฐ๋ก์ ๋ถ์ํ์ฌ ์คํฌ ๋ฌธ์์ ์ด๋ ๋ถ๋ถ์ ์ถ๊ฐ, ์ญ์ , ์์ ํ ์ง ์ ์ํฉ๋๋ค. ์ ์งธ, ๊ฒ์ฆ ๊ฒ์ดํธ(Selection Gate)๊ฐ ์ด ์ ์๋ ์์ ์์ด ๊ฒ์ฆ ๋ฐ์ดํฐ์ ์์ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์ค๋์ง ํ์ธํฉ๋๋ค. ์ฑ๋ฅ์ด ์ค๋ฅด๋ฉด ์์ ์์ ์ฑํํ๊ณ , ๊ทธ๋ ์ง ์์ผ๋ฉด ๋ฒ๋ฆฝ๋๋ค.
ํ ์คํธ ๊ณต๊ฐ ์ต์ ํ (Text-space Optimization)
์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ํฅ๋ฏธ๋ก์ด ์ ์ ๋ฅ๋ฌ๋์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent) ๊ฐ๋ ์ ํ ์คํธ ์์ญ์ผ๋ก ๊ทธ๋๋ก ์ฎ๊ฒจ์๋ค๋ ๊ฒ์ ๋๋ค. ๋ชจ๋ธ์ ๊ฐ์ค์น(Weights)๊ฐ ์๋ ์คํฌ ๋ฌธ์(Skill Document)๋ฅผ ์ ๋ฐ์ดํธ ๋์์ผ๋ก ์ผ๊ณ , ์ค์ฐจ ์ญ์ ํ๋ฅผ ํตํด ๊ตฌํ ๊ธฐ์ธ๊ธฐ(Gradient) ๋์ ์คํ ๊ถค์ ์์ ์ ๋ํ ํธ์ง ๋ฐฉํฅ(Edit Direction)์ ์ฌ์ฉํ๋ฉฐ, ํ์ต๋ฅ (Learning Rate)์ฒ๋ผ ํธ์ง์ ํฌ๊ธฐ๋ฅผ ์ ํํ๋ ์์ฐ(Edit Budget)์ ๋ก๋๋ค. ์ด๋ฅผ ํตํด ํ ์คํธ ์์ ์ด ๋๋ฌด ์ปค์ ธ์ ์คํฌ์ด ๋ง๊ฐ์ง๋ ์ผ์ ๋ฐฉ์งํ๊ณ , ์์ ์ ์ผ๋ก ์ ์ง์ ์ธ ๊ฐ์ ์ ์ด๋์ด๋ ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
๋ ผ๋ฌธ์ ๋ณธ๋ฌธ ํ ์คํธ๊ฐ ์ ๊ณต๋์ง ์์์ผ๋ฏ๋ก, ๋์ ๋ถ์ ๊ฐ์์์ ์ธ๊ธ๋ ์ ์ฑ์ ์ฑ๊ณผ๋ฅผ ์ค์ฌ์ผ๋ก ๋ถ์ํฉ๋๋ค.
์ ๊ณต๋ ์์ฝ์ ๋ฐ๋ฅด๋ฉด, ์ด ๋ฐฉ์์ ๊ธฐ์กด์ โ๋์จํ๊ฒ ํต์ ๋ ์๊ฐ ์์ (loosely controlled self-revision)โ ๋ฐฉ์์ด๋ โ์์์ โ ๋ฐฉ์๋ณด๋ค ํจ์ฌ ์์ ์ ์ด๋ผ๊ณ ์ฃผ์ฅํฉ๋๋ค. ํนํ, ์์์ (Initial Skill)๋ณด๋ค ์ ๋ขฐํ ์ ์๊ฒ ์ฑ๋ฅ์ ํฅ์์ํค๋ฉฐ, ํธ์ง ๊ณผ์ ์์ ๋ฐ์ํ ์ ์๋ ์๋ฏธ์ ํฐ ๋ณ๋(Semantic Jumps)์ด๋ ๋ถ์์ ํ ์ ๋ฐ์ดํธ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ต์ ํ๋ค๋ ์ ์ด ์ฃผ์ ์ฑ๊ณผ์ ๋๋ค.
๊ธฐ์กด ๋ฐฉ์๋ค์ด ๊ฒช๋ โ์ธก์ ํ ์ ์๋ ๋ณํโ๋ โ๋ถ์์ฉโ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ , ๋ง์น ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ด ํ์ต๋ฅ ๊ณผ ๋ฐฐ์น๋ฅผ ์กฐ์ ํ๋ฉฐ ์์ ์ ์ผ๋ก ์๋ ดํ๋ฏ, ํ ์คํธ ์คํฌ๋ ์ฒด๊ณ์ ์ผ๋ก ์ต์ ํํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋ํ, ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ์ด๋ ํ๋์ค(Harness) ๊ฐ์๋ ์ผ๋ฐํ๊ฐ ์ ์ด๋ฃจ์ด์ง๊ณ , ์ ์ ๋น์ฉ์ผ๋ก ์ ์ด ๋ฐ ๋ฐ๋ณต์ด ๊ฐ๋ฅํ๋ค๋ ์ฅ์ ์ ๊ฐ์กฐํฉ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๋ค์ ๊ธฐ๋ณธ ๋ชจ๋ธ(Frozen Agent) ์์ฒด๋ฅผ ๋ณ๊ฒฝํ์ง ์๋๋ค๋ ์ ์ ์ ์ ๋ก ํ๋ฏ๋ก, ๋ชจ๋ธ ๊ณ ์ ์ ์ถ๋ก ๋ฅ๋ ฅ ํ๊ณ๋ฅผ ๋ฐ์ด๋๋ ์คํฌ่ฟๅ๋ ๋ถ๊ฐ๋ฅํ๋ค๋ ํ๊ณ๋ฅผ ๋ดํฌํ๊ณ ์์ต๋๋ค. ์ฆ, ์๋ฌด๋ฆฌ ์คํฌ์ ์ต์ ํํด๋ ๊ธฐ๋ณธ ๋ชจ๋ธ์ ์ง๋ฅ์ด ๋ถ์กฑํ๋ฉด ๋ณต์กํ ์์ ์ ์ํํ ์ ์์ต๋๋ค.
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก๋ ์คํฌ ๋ฌธ์์ ํธ์ง ๋ฐฉํฅ์ ๋ ์ ๊ตํ๊ฒ ๊ฒฐ์ ํ๊ธฐ ์ํ ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ, ๊ทธ๋ฆฌ๊ณ ๋ค์ํ ๋๊ตฌ์ ํ๊ฒฝ์์์ ๊ฒ์ฆ ๊ฒ์ดํธ(Gate) ์ค์ ์ ์๋ํํ๋ ์ฐ๊ตฌ๊ฐ ํ์ํ ๊ฒ์ ๋๋ค. ๋ํ, ํ์ฌ๋ ํ ์คํธ ๊ธฐ๋ฐ์ ์คํฌ์ ์ด์ ์ ๋ง์ถ๊ณ ์์ผ๋, ๋ฉํฐ๋ชจ๋ฌ(์ด๋ฏธ์ง, ์ค๋์ค ๋ฑ) ์ ๋ ฅ์ ๋ค๋ฃจ๋ ์คํฌ๋ก ํ์ฅํ๋ ๊ฒ๋ ๊ณผ์ ๊ฐ ๋ ์ ์์ต๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด ๊ธฐ์ ์ ๋ณต์กํ ๋๊ตฌ ์ฌ์ฉ์ด ํ์ํ โ์๋ํ๋ ์ํํธ์จ์ด ๊ฐ๋ฐ ์์ด์ ํธโ๋ โ๊ธฐ์ ์ฉ ๋ฐ์ดํฐ ๋ถ์ ์์คํ โ์ ์ฆ์ ์ ์ฉํ ์ ์์ต๋๋ค. ๊ฐ๋ฐ์๊ฐ ๋ณต์กํ ํ๋กฌํํธ๋ฅผ ๋งค๋ฒ ์์ผ๋ก ์์ ํ์ง ์์๋, ์์ด์ ํธ๊ฐ ์ค์ค๋ก ์ฌ์ฉ ๋ก๊ทธ๋ฅผ ๋ถ์ํ์ฌ ์์ ๊ฐ์ด๋๋ผ์ธ์ ์ต์ ํํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
ํ์ํ ๋ฆฌ์์ค ์ธก๋ฉด์์๋ ๊ฑฐ๋ํ GPU ํด๋ฌ์คํฐ๋ฅผ ์๋ก ๊ตฌ์ถํ ํ์๋ ์์ง๋ง, ์์ด์ ํธ๊ฐ ์์ ์ ์ํํ๊ณ ๋ก๊ทธ๋ฅผ ์์ฑํ๋ โ์ถ๋ก ๋น์ฉ(Inference Cost)โ๊ณผ ์ด๋ฅผ ๋ถ์ํ๋ โ์ต์ ํ ๋ชจ๋ธโ์ ์ฐ์ฐ ๋น์ฉ์ด ์ง์์ ์ผ๋ก ๋ฐ์ํฉ๋๋ค. ํนํ, ๊ฒ์ฆ์ ์ํ ๋ณ๋์ ๋ฐ์ดํฐ์ (Held-out set)์ ํ๋ณดํ๋ ๊ฒ์ด ์ค์ํ๋ฏ๋ก ๊ณ ํ์ง์ ๋๋ฉ์ธ๋ณ ํ๊ฐ ๋ฐ์ดํฐ๊ฐ ํ์์ ์ ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- Large Language Model (LLM): ํ ์คํธ๋ฅผ ์ดํดํ๊ณ ์์ฑํ๋ ๋๊ท๋ชจ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ๋ก, ์์ด์ ํธ์ ๋๋ ์ญํ ์ ํฉ๋๋ค.
- AI Agent: ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํด ์ค์ค๋ก ํ๋จํ๊ณ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ํ๋ ์์จ ์์คํ ์ ๋๋ค.
- Prompt Engineering: ๋ชจ๋ธ์ด ์ํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋๋ก ์ ๋ ฅ ํ๋กฌํํธ๋ฅผ ์ค๊ณํ๊ณ ์กฐ์ ํ๋ ๊ธฐ์ ์ ๋๋ค.
- Gradient Descent (๊ฒฝ์ฌ ํ๊ฐ๋ฒ): ๋ชจ๋ธ์ ์ค์ฐจ๋ฅผ ์ค์ด๊ธฐ ์ํด ๊ฐ์ค์น๋ฅผ ์กฐ์ ํ๋ ๋ฅ๋ฌ๋์ ํต์ฌ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
- Trajectory (ํธ๋์ ํ ๋ฆฌ): ์์ด์ ํธ๊ฐ ์์ ์ ์ํํ๋ ๊ณผ์ ์์ ์์ฑ๋ ์ํ, ํ๋, ๊ด์ฐฐ ๋ฑ์ ์์ฐจ์ ์ธ ๊ธฐ๋ก์ ๋๋ค.
- Held-out Set (๊ฒ์ฆ ๋ฐ์ดํฐ์ ): ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ฑฐ๋ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๊ธฐ ์ํด ํ์ต์ ์ฌ์ฉํ์ง ์๊ณ ๋ณ๋๋ก ๋ผ์ด๋ ๋ฐ์ดํฐ์ ๋๋ค.
- Fine-tuning: ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ํน์ ์์ ์ ๋ง์ถฐ ์ถ๊ฐ๋ก ํ์ต์ํค๋ ๊ณผ์ ์ผ๋ก, ๋ณธ ๋ ผ๋ฌธ์์๋ ์ฌ์ฉํ์ง ์๋ ๋์ โ์คํฌ ์ต์ ํโ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Gamma-World: Generative Multi-Agentโฆ | DD-097 |
| ๐ฅ | SkillOpt: Executive Strategy for Seโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | DVAO: Dynamic Variance-adaptive Advโฆ | DD-099 |
| 4. | LocateAnything: Fast and High-Qualiโฆ | DD-100 |
| 5. | AgentDoG 1.5: A Lightweight and Scaโฆ | DD-101 |
๐ ์์ฑ์ผ: 2026-05-31 | ๐ค GLM-4.7 Deep Dive