โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-061 GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning

arXiv: 2604.02721 ๊ธฐ๊ด€: DeepReinforce Upvotes: 347 | Comments: 2 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 1


GrandCode: Agentic Reinforcement Learning์„ ํ†ตํ•œ ๊ฒฝ์Ÿ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๊ทธ๋žœ๋“œ๋งˆ์Šคํ„ฐ ๋‹ฌ์„ฑ ๋…ผ๋ฌธ ๋ถ„์„

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

์ง€๊ธˆ๊นŒ์ง€็š„ไบบๅทฅ์ง€๋Šฅ(AI) ๋ชจ๋ธ๋“ค์€ ๊ตฌ๊ธ€์˜ ์ œ๋ฏธ๋‹ˆ(Deep Think)๋‚˜ ์˜คํ”ˆAI์˜ o3 ๊ฐ™์€ ์ตœ์‹  ๋ชจ๋ธ์กฐ์ฐจ๋„ ์‹ค์ œ ๋ผ์ด๋ธŒ ๊ฒฝ์Ÿ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋Œ€ํšŒ์—์„œ ์ตœ๊ณ ์˜ ์ธ๊ฐ„ ๊ทธ๋žœ๋“œ๋งˆ์Šคํ„ฐ๋“ค์„ ๊พธ์ค€ํžˆ ์ด๊ธฐ์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‹จ์ˆœํžˆ ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด, ๋ณต์žกํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ ๊ณผ์ •์—์„œ ์—ฌ๋Ÿฌ ์—์ด์ „ํŠธ๊ฐ€ ํ˜‘๋ ฅํ•˜๊ณ  ์Šค์Šค๋กœ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•ด ํ•™์Šตํ•˜๋Š” โ€˜์—์ด์ „ํ‹ฑ(Agentic)โ€™ ์ ‘๊ทผ ๋ฐฉ์‹์ด ํ•„์ˆ˜์ ์ด์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ GrandCode๋ผ๋Š” ๋‹ค์ค‘ ์—์ด์ „ํŠธ ๊ฐ•ํ™” ํ•™์Šต ์‹œ์Šคํ…œ์„ ํ†ตํ•ด, ์‹ค์‹œ๊ฐ„ ๋Œ€ํšŒ ํ™˜๊ฒฝ์—์„œ ๋ชจ๋“  ์ธ๊ฐ„ ์ฐธ๊ฐ€์ž๋ฅผ ์ œ์น˜๊ณ  1์œ„๋ฅผ ์ฐจ์ง€ํ•œ ์ตœ์ดˆ์˜ ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•˜๋ฉฐ AI ์ฝ”๋“œ ์ƒ์„ฑ ๋Šฅ๋ ฅ์˜ ์ƒˆ๋กœ์šด ์ง€ํ‰์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

๋ณต์žกํ•œ ์ˆ˜์ˆ  ํŒ€์— ๋น„์œ ํ•˜๊ธฐ

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ์‹œ์Šคํ…œ์ธ GrandCode๋Š” ๋งˆ์น˜ โ€˜๊ณ ๋‚œ๋„ ์ˆ˜์ˆ ์„ ํ•˜๋Š” ์ „๋ฌธ ์˜๋ฃŒ ํŒ€โ€™๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ํ˜ผ์ž์„œ ๋ชจ๋“  ๊ฒƒ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋‹จ์ผ ์˜์‚ฌ(๊ธฐ์กด LLM) ๋Œ€์‹ , ๊ฐ์ž์˜ ์—ญํ• ์„ ๊ฐ€์ง„ ์ „๋ฌธ๊ฐ€๋“ค์ด ํ˜‘๋ ฅํ•˜์—ฌ ํ™˜์ž(๋‚œ์ œ ๋ฌธ์ œ)๋ฅผ ์น˜๋ฃŒํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

  • ์ฃผ๋„์  ํ•ด๊ฒฐ์‚ฌ(Main Solver): ์‹ค์ œ ์ˆ˜์ˆ  ๋ฉ”์Šค๋ฅผ ์žก๊ณ  ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ์ฃผ ์™ธ๊ณผ์˜์‚ฌ์ž…๋‹ˆ๋‹ค. ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์ถ”๋ก ๊ณผ ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•ฉ๋‹ˆ๋‹ค.
  • ๊ฐ€์„ค ์ œ์•ˆ ๋ชจ๋ธ(Hypothesis Model): ์ˆ˜์ˆ  ์ „์— ํ™˜์ž์˜ ์ƒํƒœ๋ฅผ ๋ถ„์„ํ•˜์—ฌ โ€œ์ด๋Ÿฐ ์ˆ˜์ˆ ๋ฒ•์ด ํ†ตํ•  ๊ฒƒ ๊ฐ™๋‹คโ€๋ผ๋Š” ๊ฐ€์„ค์„ ์ œ์‹œํ•˜๋Š” ์ง„๋‹จ ์˜์‚ฌ์ž…๋‹ˆ๋‹ค. ์ž‘์€ ์˜ˆ์ œ๋ฅผ ํ†ตํ•ด ๊ฐ€์„ค์„ ๊ฒ€์ฆํ•˜๊ณ , ๋งž๋‹ค๋ฉด ์ฃผ ์˜์‚ฌ์—๊ฒŒ ์•Œ๋ ค์ค๋‹ˆ๋‹ค.
  • ์š”์•ฝ ๋ชจ๋ธ(Summarization Model): ์ˆ˜์ˆ ์ด ๊ธธ์–ด์ง€๋ฉด ๊ธฐ๋ก์ด ๋„ˆ๋ฌด ๊ธธ์–ด์ง€๋ฏ€๋กœ, ์ค‘์š”ํ•œ ์ •๋ณด๋งŒ ๊ฐ„์ถ”๋ ค ์ฃผ ์˜์‚ฌ์˜ ๊ธฐ์–ต ๋ถ€๋‹ด์„ ์ค„์—ฌ์ฃผ๋Š” ๊ฐ„ํ˜ธ ๊ธฐ๋ก์‚ฌ์ž…๋‹ˆ๋‹ค.
  • ํ…Œ์ŠคํŠธ ์ƒ์„ฑ๊ธฐ(Test Generator): ์ˆ˜์ˆ  ํ›„ ํ•ฉ๋ณ‘์ฆ์ด ์—†๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด, ์˜๋„์ ์œผ๋กœ ์œ„ํ—˜ํ•œ ์ƒํ™ฉ(์—ฃ์ง€ ์ผ€์ด์Šค)์„ ๋งŒ๋“ค์–ด ์‹œํ—˜ํ•ด๋ณด๋Š” ๊ฒ€์‚ฌ ์˜์‚ฌ์ž…๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ๊ณผ์ •

GrandCode๋Š” ํฌ๊ฒŒ ๋‘ ๊ฐ€์ง€ ๋‹จ๊ณ„๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค. ์ฒซ์งธ, โ€˜์‚ฌ์ „ ํ›ˆ๋ จ(Post-training)โ€™ ๋‹จ๊ณ„์—์„œ๋Š” ์˜๋ฃŒ ํŒ€์ด ๋‹ค์–‘ํ•œ ์˜ํ•™ ์ง€์‹์„ ๊ณต๋ถ€ํ•˜๊ณ (CPT), ์‹ค์ œ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์—ฐ์Šตํ•˜๋ฉฐ(SFT), ํŒ€์›Œํฌ๋ฅผ ์ตํžˆ๋Š” ํ›ˆ๋ จ(Multi-component RL)์„ ๊ฑฐ์นฉ๋‹ˆ๋‹ค. ๋‘˜์งธ, โ€˜์‹ค์ „(Test-time)โ€™ ๋‹จ๊ณ„์—์„œ๋Š” ์‰ฌ์šด ๋ฌธ์ œ๋Š” ์ฃผ ์˜์‚ฌ๊ฐ€ ๋ฐ”๋กœ ํ•ด๊ฒฐํ•˜๊ณ , ์–ด๋ ค์šด ๋ฌธ์ œ๋Š” ํŒ€ ์ „์ฒด๊ฐ€ ๊ฐ€๋™๋ฉ๋‹ˆ๋‹ค. ๊ฐ€์„ค ๋ชจ๋ธ์ด ์•„์ด๋””์–ด๋ฅผ ๋‚ด๊ณ , ์š”์•ฝ ๋ชจ๋ธ์ด ๊ธฐ๋ก์„ ์ •๋ฆฌํ•˜๋ฉฐ, ํ…Œ์ŠคํŠธ ์ƒ์„ฑ๊ธฐ๊ฐ€ ์ฝ”๋“œ๋ฅผ ๊ณต๊ฒฉํ•˜๋ฉด์„œ ํŒ€์€ ์‹ค์‹œ๊ฐ„์œผ๋กœ ํ”ผ๋“œ๋ฐฑ์„ ์ฃผ๊ณ ๋ฐ›์œผ๋ฉฐ ๋‹ต์„ ์ˆ˜์ •ํ•ด ๋‚˜๊ฐ‘๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜: Agentic GRPO

์—ฌ๊ธฐ์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ๋Š” โ€˜Agentic GRPOโ€™ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. ๊ฒฝ์Ÿ ํ”„๋กœ๊ทธ๋ž˜๋ฐ์€ ์ฝ”๋“œ๋ฅผ ์งœ๊ณ  ์ปดํŒŒ์ผํ•˜๊ณ  ํ…Œ์ŠคํŠธํ•˜๋Š” ๋ฐ ์‹œ๊ฐ„์ด ์˜ค๋ž˜ ๊ฑธ๋ ค(1๋ถ„ ์ด์ƒ), AI๊ฐ€ ๋‹ต์„ ์ œ์ถœํ•˜๊ณ  ๊ฒฐ๊ณผ๋ฅผ ๋Œ๋ ค๋ฐ›๊ธฐ๊นŒ์ง€ ์‚ฌ์ด์— ๋ชจ๋ธ์ด ์ด๋ฏธ ๋ณ€๊ฒฝ๋˜์–ด๋ฒ„๋ฆฌ๋Š” โ€˜์˜คํ”„-ํด๋ฆฌ์‹œ(Off-policy)โ€™ ๋ฌธ์ œ๊ฐ€ ์‹ฌ๊ฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ•™์ƒ์ด ์‹œํ—˜์„ ์น˜๋Š” ๋„์ค‘์— ๋จธ๋ฆฌ๊ฐ€ ๋ฐ”๋€Œ์–ด ๋ฒ„๋ฆฌ๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด GrandCode๋Š” โ€˜์ฆ‰์‹œ ๋ณด์ƒ(Immediate Reward)โ€˜๊ณผ โ€˜์ง€์—ฐ ๊ต์ •(Delayed Correction)โ€™ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋“  ๊ณผ์ •์ด ๋๋‚˜๊ณ  ์ฑ„์  ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋‹ค๋ฆฌ๋Š” ๋Œ€์‹ , ๊ฐ ๋‹จ๊ณ„(์˜ˆ: ์ปดํŒŒ์ผ ์„ฑ๊ณต, ์ฒซ ๋ฒˆ์งธ ํ…Œ์ŠคํŠธ ํ†ต๊ณผ ๋“ฑ)๊ฐ€ ์™„๋ฃŒ๋  ๋•Œ๋งˆ๋‹ค ์ฆ‰์‹œ ์ ์ˆ˜๋ฅผ ์ฃผ์–ด ํ•™์Šต์„ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๋‚˜์ค‘์— ์ตœ์ข… ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜ค๋ฉด, ์ฒ˜์Œ์— ์ค€ ์ ์ˆ˜์™€ ์ตœ์ข… ์ ์ˆ˜์˜ ์ฐจ์ด๋งŒํผ์„ ๋‹ค์‹œ ์กฐ์ •ํ•˜์—ฌ ์ •ํ™•๋„๋ฅผ ๋†’์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๊ธด ๋Œ€๊ธฐ ์‹œ๊ฐ„ ๋™์•ˆ์—๋„ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์ด ๋…ผ๋ฌธ์˜ ์„ฑ๊ณผ๋Š” ๊ฒฝ์Ÿ ํ”„๋กœ๊ทธ๋ž˜๋ฐ์˜ ์„ฑ์ง€์ธ ์ฝ”๋“œํฌ์Šค(Codeforces) ๋ผ์ด๋ธŒ ๋Œ€ํšŒ ๊ฒฐ๊ณผ์—์„œ ๊ฐ€์žฅ ํ™•์‹คํ•˜๊ฒŒ ๋“œ๋Ÿฌ๋‚ฉ๋‹ˆ๋‹ค.

  • ํ…Œ์ŠคํŠธ ๋ฒค์น˜๋งˆํฌ: ์‹ค์ œ ์ฝ”๋“œํฌ์Šค(Codeforces)์˜ ์ตœ๊ทผ ๋ผ์ด๋ธŒ ๋ผ์šด๋“œ 3๊ฐœ์— ์ฐธ์—ฌํ•˜์—ฌ ์ธ๊ฐ„ ์ฐธ๊ฐ€์ž๋“ค๊ณผ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๊ฒฝ์Ÿํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๊ธฐ์กด ์ตœ๊ณ  ์„ฑ๊ณผ(SOTA) ๋Œ€๋น„ ์šฐ์œ„:
    • ๊ตฌ๊ธ€์˜ AlphaCode๋Š” ์ƒ์œ„ 54% ์ˆ˜์ค€(๋ ˆ์ดํŒ… ์•ฝ 1300)์— ๋จธ๋ฌผ๋ €์Šต๋‹ˆ๋‹ค.
    • AlphaCode2๋Š” ์ƒ์œ„ 85%๊นŒ์ง€ ์˜ฌ๋ž์œผ๋‚˜ ์—ฌ์ „ํžˆ ๊ทธ๋žœ๋“œ๋งˆ์Šคํ„ฐ ์ˆ˜์ค€์€ ์•„๋‹ˆ์—ˆ์Šต๋‹ˆ๋‹ค.
    • ์˜คํ”ˆAI์˜ o3๋Š” ์„ธ๊ณ„ 175์œ„๋ฅผ ๊ธฐ๋กํ–ˆ๊ณ , ๊ตฌ๊ธ€์˜ ์ œ๋ฏธ๋‹ˆ 3 ๋”ฅ ์”ฝํฌ(Gemini 3 Deep Think)๋Š” 8์œ„๋ฅผ ๊ธฐ๋กํ–ˆ์œผ๋‚˜ ๋ผ์ด๋ธŒ ๋Œ€ํšŒ๊ฐ€ ์•„๋‹Œ ๊ณผ๊ฑฐ ๋ฌธ์ œ ํ’€์ด ํ™˜๊ฒฝ์ด์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ: GrandCode๋Š” ์ฐธ์—ฌํ•œ 3๋ฒˆ์˜ ์ตœ๊ทผ ๋ผ์ด๋ธŒ ์ฝ”๋“œํฌ์Šค ๋ผ์šด๋“œ์—์„œ ๋ชจ๋‘ 1์œ„๋ฅผ ์ฐจ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ธ๊ฐ„ ๊ทธ๋žœ๋“œ๋งˆ์Šคํ„ฐ๋“ค์„ ํฌํ•จํ•œ ๋ชจ๋“  ์ฐธ๊ฐ€์ž๋ฅผ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๊บพ์€ ์ตœ์ดˆ์˜ ๊ธฐ๋ก์ด๋ฉฐ, AI๊ฐ€ ๋‹จ์ˆœํ•œ ์ฝ”๋”ฉ ๋„๊ตฌ๋ฅผ ๋„˜์–ด ์ตœ๊ณ ์˜ ๋ฌธ์ œ ํ•ด๊ฒฐ์‚ฌ๋กœ ์ง„ํ™”ํ–ˆ์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

ํ•œ๊ณ„์ 

์ €์ž๋“ค์€ ๋…ผ๋ฌธ์—์„œ ์ง์ ‘์ ์œผ๋กœ ์–ธ๊ธ‰ํ•˜์ง€๋Š” ์•Š์•˜์ง€๋งŒ, GrandCode์˜ ๊ตฌ์กฐ์  ํŠน์„ฑ์ƒ ๋ช‡ ๊ฐ€์ง€ ํ•œ๊ณ„์ ์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ์ฒซ์งธ, ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์ด๋ฏ€๋กœ ๋‹จ์ผ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•  ๋•Œ๋ณด๋‹ค ์ถ”๋ก ์— ๋“œ๋Š” ๋น„์šฉ๊ณผ ์‹œ๊ฐ„์ด ๋งค์šฐ ํฝ๋‹ˆ๋‹ค. ์ธ๊ฐ„์ด 1์‹œ๊ฐ„ ์•ˆ์— ํ‘ธ๋Š” ๋ฌธ์ œ๋ฅผ ํ’€๊ธฐ ์œ„ํ•ด ์ˆ˜์‹ญ ๋ถ„ ํ˜น์€ ๊ทธ ์ด์ƒ์˜ ์ปดํ“จํŒ… ์ž์›์ด ์†Œ๋ชจ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‘˜์งธ, ๊ฐ•ํ™” ํ•™์Šต(RL) ๊ณผ์ •์—์„œ ์ฝ”๋“œ๋ฅผ ์‹คํ–‰์‹œ์ผœ์•ผ ํ•˜๋ฏ€๋กœ ๋ณด์•ˆ์ƒ์˜ ์ด์œ ๋กœ ์ œํ•œ๋œ ์ƒŒ๋“œ๋ฐ•์Šค ํ™˜๊ฒฝ์ด ํ•„์š”ํ•˜๋ฉฐ, ์ด๋Š” ์‹œ์Šคํ…œ์˜ ํ™•์žฅ์„ฑ์„ ์ œ์•ฝํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

ํ–ฅํ›„ ์—ฐ๊ตฌ๋Š” ์ด๋Ÿฌํ•œ ๋น„์šฉ ํšจ์œจ์„ฑ์„ ๊ฐœ์„ ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์ง„ํ–‰๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋” ์ ์€ ํšŸ์ˆ˜์˜ ์ถ”๋ก ์œผ๋กœ๋„ ๋™์ผํ•œ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ๋„๋ก ๋ชจ๋ธ์„ ๊ฒฝ๋Ÿ‰ํ™”ํ•˜๊ฑฐ๋‚˜, ํ…Œ์ŠคํŠธ ์ƒ์„ฑ ๊ณผ์ •์„ ์ตœ์ ํ™”ํ•˜์—ฌ ๋ถˆํ•„์š”ํ•œ ๊ณ„์‚ฐ์„ ์ค„์ด๋Š” ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ฒฝ์Ÿ ํ”„๋กœ๊ทธ๋ž˜๋ฐ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์‹ค์ œ ์‚ฐ์—… ํ˜„์žฅ์˜ ๋ณต์žกํ•œ ์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋ง ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ ์ด ์—์ด์ „ํ‹ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์–ด๋–ป๊ฒŒ ์ ์šฉํ• ์ง€๊ฐ€ ์ฃผ์š” ๊ณผ์ œ๊ฐ€ ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ถ„์•ผ

  • ์ž๋™ ๋””๋ฒ„๊น… ๋ฐ ์ตœ์ ํ™” ๋„๊ตฌ: ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๋ฒ„๊ทธ๋ฅผ ์ž๋™์œผ๋กœ ์ฐพ์•„๋‚ด๊ณ  ์ˆ˜์ •ํ•ด ์ฃผ๋Š” ๊ณ ๊ธ‰ ๋„๊ตฌ ๊ฐœ๋ฐœ์— ์ฆ‰์‹œ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํŠธ๋ ˆ์ด๋‹ ํ”Œ๋žซํผ: ์ฝ”๋”ฉ ํ…Œ์ŠคํŠธ๋ฅผ ์ค€๋น„ํ•˜๋Š” ์ˆ˜ํ—˜์ƒ๋“ค์—๊ฒŒ, ๋‹จ์ˆœํžˆ ์ •๋‹ต ์ฝ”๋“œ๋งŒ ๋ณด์—ฌ์ฃผ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ๋ฌธ์ œ ํ•ด๊ฒฐ ๊ณผ์ •์„ ๋‹จ๊ณ„๋ณ„๋กœ ์ฝ”์นญํ•ด ์ฃผ๋Š” AI ํŠœํ„ฐ๋กœ ๊ฐœ๋ฐœํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋ณต์žกํ•œ ์‹œ์Šคํ…œ ๊ฒ€์ฆ: ๊ธˆ์œต ๊ฑฐ๋ž˜ ์‹œ์Šคํ…œ์ด๋‚˜ ๋ณด์•ˆ ์†”๋ฃจ์…˜์ฒ˜๋Ÿผ ์—ฃ์ง€ ์ผ€์ด์Šค(Edge Case) ์ฒ˜๋ฆฌ๊ฐ€ ์ค‘์š”ํ•œ ๋ถ„์•ผ์—์„œ, ๋‹ค์–‘ํ•œ ๊ณต๊ฒฉ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์ƒ์„ฑํ•˜์—ฌ ์‹œ์Šคํ…œ์˜ ๊ฒฌ๊ณ ํ•จ์„ ํ…Œ์ŠคํŠธํ•˜๋Š” ์šฉ๋„๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

  • ์ปดํ“จํŒ… ํŒŒ์›Œ: ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ˜์ด๋ฏ€๋กœ ํ•™์Šต ์‹œ์—๋Š” ์ˆ˜๋ฐฑ ๊ฐœ์˜ ๊ณ ์„ฑ๋Šฅ GPU(์˜ˆ: H100 ๋˜๋Š” A100 ํด๋Ÿฌ์Šคํ„ฐ)๊ฐ€ ํ•„์š”ํ•˜๋ฉฐ, ์ถ”๋ก  ์‹œ์—๋„ ๋‹ค์ค‘ ์—์ด์ „ํŠธ๋ฅผ ๋™์‹œ์— ๋Œ๋ ค์•ผ ํ•˜๋ฏ€๋กœ ์ƒ๋‹นํ•œ ๋ฉ”๋ชจ๋ฆฌ์™€ ์—ฐ์‚ฐ ์ž์›์ด ์†Œ์š”๋ฉ๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ: ๊ณ ํ’ˆ์งˆ์˜ ๊ฒฝ์Ÿ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋ฌธ์ œ์™€ ์ •๋‹ต ๋ฐ์ดํ„ฐ, ๊ทธ๋ฆฌ๊ณ  ์ฝ”๋“œ๋ฅผ ์‹คํ–‰ํ•˜๊ณ  ๊ฒ€์ฆํ•  ์ˆ˜ ์žˆ๋Š” ์•ˆ์ „ํ•œ ์‹คํ–‰ ํ™˜๊ฒฝ(Sandbox) ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. ๊ฒฝ์Ÿ ํ”„๋กœ๊ทธ๋ž˜๋ฐ(Competitive Programming): ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ์ฃผ์–ด์ง„ ๋ฌธ์ œ๋ฅผ ์ œํ•œ ์‹œ๊ฐ„ ๋‚ด์— ํ•ด๊ฒฐํ•˜๋Š” ์ง€์  ์Šคํฌ์ธ ๋กœ, ์ฝ”๋“œํฌ์Šค(Codeforces) ๊ฐ™์€ ํ”Œ๋žซํผ์—์„œ ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค.
  2. ๊ฐ•ํ™” ํ•™์Šต(Reinforcement Learning): ์—์ด์ „ํŠธ๊ฐ€ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ํ–‰๋™์„ ํ•™์Šตํ•˜๋Š” ๊ธฐ๊ณ„ ํ•™์Šต์˜ ํ•œ ๋ถ„์•ผ์ž…๋‹ˆ๋‹ค.
  3. ์˜คํ”„-ํด๋ฆฌ์‹œ(Off-policy): ํ•™์Šตํ•˜๋Š” ์ •์ฑ…๊ณผ ํ–‰๋™์„ ์„ ํƒํ•˜๋Š” ์ •์ฑ…์ด ๋‹ค๋ฅธ ์ƒํ™ฉ์„ ์˜๋ฏธํ•˜๋ฉฐ, ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ์„ ์ˆ˜์ง‘ํ•˜๋Š” ์‹œ์ ๊ณผ ํ•™์Šตํ•˜๋Š” ์‹œ์ ์˜ ๋ชจ๋ธ์ด ๋‹ฌ๋ผ์ ธ ๋ฐœ์ƒํ•˜๋Š” ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค.
  4. ์—์ด์ „ํŠธ(Agent): ํ™˜๊ฒฝ์„ๆ„Ÿ็Ÿฅ(Perceive)ํ•˜๊ณ  ํ–‰๋™์„ ์ทจํ•  ์ˆ˜ ์žˆ๋Š” ์ž์œจ์ ์ธ ์‹œ์Šคํ…œ์ด๋‚˜ ๋ชจ๋ธ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  5. LLM(๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ): ๋ฐฉ๋Œ€ํ•œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ๋กœ, ํ…์ŠคํŠธ ์ƒ์„ฑ ๋ฐ ์ดํ•ด์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  6. ๊ทธ๋ฃน ์ƒ๋Œ€ ์ •์ฑ… ์ตœ์ ํ™”(Group Relative Policy Optimization, GRPO): ์—ฌ๋Ÿฌ ํ›„๋ณด๊ตฐ์„ ์ƒ์„ฑํ•˜์—ฌ ๊ทธ ๊ทธ๋ฃน ๊ฐ„์˜ ์ƒ๋Œ€์ ์ธ ์ˆœ์œ„๋ฅผ ํ†ตํ•ด ์ •์ฑ…์„ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๊ฐ•ํ™” ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.
  7. ํ…Œ์ŠคํŠธ ์‹œ๊ฐ„ ์ ์‘(Test-time Adaptation): ์‹ค์ œ ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ๋งž์ถฐ ๋ชจ๋ธ์ด๋‚˜ ์‹œ์Šคํ…œ์„ ๋™์ ์œผ๋กœ ์กฐ์ •ํ•˜๊ฑฐ๋‚˜ ํ•™์Šตํ•˜๋Š” ๊ณผ์ •์„ ๋งํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡GrandCode: Achieving Grandmaster Leโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐ŸฅˆAdamโ€™s Law: Textual Frequency Law oโ€ฆDD-062
๐Ÿฅ‰Video-MME-v2: Towards the Next Stagโ€ฆDD-063
4.InCoder-32B-Thinking: Industrial Coโ€ฆDD-064
5.SkillClaw: Let Skills Evolve Collecโ€ฆDD-065

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-04-12 | ๐Ÿค– GLM-4.7 Deep Dive