β π μ΄λ² μ£Ό Weekly Digestλ‘ λμκ°κΈ°
DD-061 GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning
arXiv: 2604.02721 κΈ°κ΄: DeepReinforce Upvotes: 348 | Comments: 2 μμ: μ΄λ² μ£Ό Top 2
μλ νμΈμ. AI/ML μ λ¬Έκ°λ‘μ μ΄ ν₯λ―Έλ‘μ΄ λ Όλ¬Έμ μ£Όλμ΄ κ°λ°μ κ΄μ μμ κΉμ΄ μκ² λΆμν΄ λλ¦¬κ² μ΅λλ€.
1. μ μ΄ λ Όλ¬Έμ΄ μ€μνκ°?
μ§κΈκΉμ§ AIλ μ½λ© λ₯λ ₯μμ λλΌμ΄ λ°μ μ 보μμ§λ§, κ²½μ νλ‘κ·Έλλ°(Competitive Programming) λΆμΌμμλ μ΅κ³ μμ€μ μΈκ°(κ·Έλλλ§μ€ν°)μ μμ§ μλ²½ν λμ΄μμ§ λͺ»νμ΅λλ€. ꡬκΈμ Gemini 3μ‘°μ°¨ 8μκΆμ κ·Έμ³€κ³ , μ€μκ° λν νκ²½μ΄ μλ κ³Όκ±° λ¬Έμ λ₯Ό νΈλ 쑰건μμμμ£ . μ΄ λ Όλ¬Έμ μ¬λ¬ μ λ¬Έκ° μν μ νλ μμ΄μ νΈλ€κ³Ό μλ‘μ΄ κ°ν νμ΅ κΈ°λ²(Agentic GRPO)μ κ²°ν©νμ¬, μ²μμΌλ‘ μ€μκ° μ½λν¬μ€(Codeforces) λνμμ λͺ¨λ μΈκ° μ°Έκ°μλ₯Ό μ μΉκ³ 1μλ₯Ό μ°¨μ§ν βκ·Έλλμ½λ(GrandCode)β μμ€ν μ μκ°ν©λλ€. μ¦, 볡μ‘ν λ¬Έμ ν΄κ²°κ³Ό μ€μκ° νΌλλ°±μ΄ νμν κ³ λλ μ½λ© μμμμ AIκ° μΈκ°μ μ΄μν μ μμμ μ μ¦ν κ²°μ μ μΈ μ°κ΅¬μ λλ€.
2. ν΅μ¬ μμ΄λμ΄ μ½κ² μ΄ν΄νκΈ°
μΌμμν λΉμ : βμ€ννΈμ νλ‘μ νΈ νβ
μ΄ λ Όλ¬Έμ ν΅μ¬μΈ βλ©ν° μμ΄μ νΈ μμ€ν βμ νλμ μλ²½ν νλ‘μ νΈ νμΌλ‘ μμν΄ λ³΄μΈμ.
- λ©μΈ μλ²(Main Solver): μ€μ μ½λλ₯Ό μμ±νλ βν΅μ¬ κ°λ°μβμ λλ€. λ¬Έμ λ₯Ό ν΄κ²°νλ μ± μμ λ§‘μ΅λλ€.
- κ°μ€ λͺ¨λΈ(Hypothesis Model): λ¬Έμ μ μ¨κ²¨μ§ κ·μΉμ΄λ ꡬ쑰λ₯Ό λ¨Όμ μΆμΈ‘νλ βκΈ°νμβ λλ βμ λ΅κ°βμ λλ€. βμ΄ λ¬Έμ λ μ΄λ° μ±μ§μ μ΄μ©νλ©΄ ν릴 κ±°μΌβλΌκ³ ννΈλ₯Ό λμ Έμ€λλ€.
- μμ½ λͺ¨λΈ(Summarization Model): μμ£Ό κΈ΄ νμ λ΄μ©(λ¬Έμ νμ΄ κ³Όμ )μ ν΅μ¬λ§ μμ½ν΄μ βνμλ‘βμ μμ±νλ βμκΈ°βμ λλ€. κ°λ°μκ° κΈ°μ΅ν μ©λμ μ΄κ³Όνμ§ μλλ‘ λμμ€λλ€.
- ν μ€νΈ μμ±κΈ°(Test-case Generator): μ½λλ₯Ό μ£½μ΄λΌ 곡격νλ©° λ²κ·Έλ₯Ό μ°Ύλ βQA μμ§λμ΄βμ λλ€. μ£μ§ μΌμ΄μ€λ₯Ό λ§λ€μ΄ μ½λκ° νλ¦¬μ§ μμλμ§ κ²μ¦ν©λλ€.
λ¨κ³λ³ λμ κ³Όμ
μ΄ μμ€ν μ ν¬κ² λ λ¨κ³λ‘ νμ΅νκ³ μλν©λλ€.
- ν¬μ€νΈ νΈλ μ΄λ(μ¬ν νλ ¨) λ¨κ³: λ¨Όμ λ°©λν μ½λ© λ°μ΄ν°λ₯Ό κΈ°λ°μΌλ‘ κΈ°λ³Έ λ₯λ ₯μ ν€μλλ€. κ·Έλ€μ μ§λ¬Έ, μκ°μ κ³Όμ (Thinking), μ λ΅μ΄ ν¬ν¨λ κ³ νμ§ λ°μ΄ν°λ‘ μ§λ νμ΅μ μ§νν©λλ€. μ΄λ μμ λ§ν κΈ°νμ, μκΈ°, κ°λ°μ λͺ¨λΈμ κ°κ° νλ ¨μν€κ³ , μ΄λ€μ΄ νλνλλ‘ κ°ν νμ΅μΌλ‘ μ΅μ νν©λλ€.
- ν μ€νΈ νμ(μ€μ ) λ¨κ³: μ€μ λν λ¬Έμ κ° μ£Όμ΄μ§λ©΄ μ¬μ΄ λ¬Έμ λ λ°λ‘ νμ§λ§, μ΄λ €μ΄ λ¬Έμ λ βμ¨λΌμΈ κ°ν νμ΅ λ£¨νβλ₯Ό λλλ€. μ½λλ₯Ό μ§κ³ , μ€νν΄λ³΄κ³ (Sandbox), ν리면 μμ νλ κ³Όμ μ μ€μκ°μΌλ‘ λ°λ³΅νλ©° μ λ΅μ λ§μΆ₯λλ€.
ν΅μ¬ μκ³ λ¦¬μ¦: Agentic GRPO
μ΄ λ Όλ¬Έμ μκ³ κ°μ κΈ°μ μ βAgentic GRPOβμ λλ€. μΌλ°μ μΈ κ°ν νμ΅μ κ²μμ΄ λ€ λλμΌ μ μ(Reward)λ₯Ό μ£Όκ³ νμ΅ν©λλ€. νμ§λ§ μ½λ©μ μ»΄νμΌνκ³ μ€ννλ λ° μκ°μ΄ μ€λ κ±Έλ €, κ²°κ³Όκ° λμ¬ λκΉμ§ κΈ°λ€λ¦¬λ©΄ νμ΅ ν¨μ¨μ΄ λ¨μ΄μ§λλ€(Off-policy λ¬Έμ ). κ·Έλμ κ·Έλλμ½λλ **βμ¦μ 보μ(Immediate Reward)β**κ³Ό βμ§μ°λ μμ (Delayed Correction)β λ°©μμ μλλ€. λ§μΉ μνμ μΉ λ λ¬Έμ λ₯Ό νλ ν λλ§λ€ λ°λ‘ βλ©λλ , μ΄κ±΄ μ λ΅μ΄μΌβλΌκ³ νΌλλ°±μ μ£Όμ΄ λ°λ‘λ°λ‘ κ³ μΉ μ μκ² νκ³ , λμ€μ μ΅μ’ κ²°κ³Όκ° λμ€λ©΄ κ·Έλ βλ°©κΈ μ€ μ μκ° μ‘°κΈ νλ Έλ€, μ΄λ κ² μμ ν΄βλΌκ³ μ ννκ² λ§μΆ°μ£Όλ λ°©μμ λλ€. μ΄λ₯Ό ν΅ν΄ κΈ΄ νμ΄ κ³Όμ μμλ νμ΅ μλλ₯Ό μ μ§ν©λλ€.
3. μ€ν κ²°κ³Ό λΆμ
μ΄λ€ λ²€μΉλ§ν¬μμ ν μ€νΈνλ?
μ΄ λ Όλ¬Έμ μ€μ κ²½μ νλ‘κ·Έλλ° νλ«νΌμΈ **μ½λν¬μ€(Codeforces)**μ **μ΅κ·Ό 3λ²μ λΌμ΄λ(Live Contest)**μ μ€μ μ°Έκ°μλ‘ μ°Έμ¬νμ¬ μ±λ₯μ κ²μ¦νμ΅λλ€. λν κΈ°μ‘΄ λ²€μΉλ§ν¬ λ°μ΄ν°μ μμλ μ€νλΌμΈ μ±λ₯μ μΈ‘μ νμ΅λλ€.
κΈ°μ‘΄ SOTA λλΉ μΌλ§λ μ’μμ‘λ?
- AlphaCode: μμ 54% μμ€ (μ½ 1300μ )
- AlphaCode 2: μμ 85% μμ€
- OpenAI o3: μ 체 175μ
- Gemini 3 Deep Think: 8μ (λ¨, μ€μκ° λνκ° μλ κ³Όκ±° λ¬Έμ νμ΄ κΈ°μ€)
- GrandCode (μ΄ λ Όλ¬Έ): μ΅κ·Ό 3λ²μ μ½λν¬μ€ λΌμ΄λΈ λνμμ λͺ¨λ 1μ κΈ°λ‘. λͺ¨λ μΈκ° μ°Έκ°μ, μ μ€μ μΈ κ·Έλλλ§μ€ν°λ€μ μ μΉκ³ μλμ μΈ μ±λ₯μ 보μμ΅λλ€.
μ£Όλͺ©ν λ§ν μ±κ³Ό
λ¨μν μ½λλ₯Ό μμ±νλ λ₯λ ₯μ λμ΄, μ΄λ €μ΄ λ¬Έμ (Hard Problems)μΌμλ‘ μ±κ³Όκ° λ ν¬κ² ν₯μλμμ΅λλ€. μ΄λ μμ΄μ νΈλ€μ΄ μλ‘ νλ ₯νκ³ μ€μ€λ‘ λλ²κΉ νλ κ³Όμ μ΄ λ³΅μ‘ν λ¬Έμ μμ νΉν ν¨κ³Όμ μμ μλ―Έν©λλ€. λν, μ¨λΌμΈ ν μ€νΈ νμ κ°ν νμ΅ λ£¨νκ° μ€μ μ±λ₯μ ν¬κ² κΈ°μ¬νμμ μ μ¦νμ΅λλ€.
4. νκ³μ κ³Ό ν₯ν μ°κ΅¬ λ°©ν₯
μ μκ° μΈκΈν νκ³
λ Όλ¬Έμ κ²°λ‘ λΆλΆμμλ μ§μ μ μΈ νκ³μ μ ꡬ체μ μΌλ‘ λμ΄νμ§λ μμμ§λ§, μμ€ν μ 볡μ‘μ±μμ μ€λ λΆνκ° μμλμ΄ μμ΅λλ€. μ¬λ¬ μμ΄μ νΈ(μλ², κ°μ€, μμ½, ν μ€νΈ μμ±κΈ°)κ° λμμ λμκ°κ³ , μ½λλ₯Ό μ¬λ¬ λ² μ€νν΄μΌ νλ―λ‘ μ°μ° λΉμ©μ΄ λ§€μ° ν½λλ€.
κ°μ κ°λ₯μ± λ° ν₯ν μ°κ΅¬
- κ³μ° ν¨μ¨μ±: νμ¬λ μ¬λ¬ λͺ¨λΈκ³Ό λ€μμ μ½λ μ€νμ΄ νμνλ―λ‘, μ΄λ₯Ό κ²½λννμ¬ λ μ μ 리μμ€λ‘ λΉμ·ν μ±λ₯μ λ΄λ μ°κ΅¬κ° νμν©λλ€.
- λλ©μΈ νμ₯: κ²½μ νλ‘κ·Έλλ°λΏλ§ μλλΌ μ€μ μννΈμ¨μ΄ κ°λ°, 볡μ‘ν μν μ¦λͺ , κ³Όνμ λ°κ²¬ λ± λ κ΄λ²μν μμμΌλ‘ μ΄ λ©ν° μμ΄μ νΈ νλ μμν¬λ₯Ό νμ₯ν μ μμ κ²μ λλ€.
- Off-policy Drift ν΄κ²°: Agentic GRPOκ° μ΄ λ¬Έμ λ₯Ό μννμ§λ§, μ¬μ ν κΈ΄ λ‘€μμ(Long rollout) κ³Όμ μμμ μ μ± μμ μ±μ λμ± λμ΄λ μ°κ΅¬κ° κ³μλ κ²μ λλ€.
5. μ€λ¬΄ μ μ© κ°λ₯μ±
μ΄λμ λ°λ‘ μ μ© κ°λ₯?
- μλνλ μννΈμ¨μ΄ ν μ€νΈ λꡬ: 볡μ‘ν λΉμ¦λμ€ λ‘μ§μ κ°μ§ μ½λμμ κ°λ°μκ° λμΉλ μ£μ§ μΌμ΄μ€λ₯Ό μ°Ύμλ΄λ QA λ΄μΌλ‘ νμ© κ°λ₯ν©λλ€.
- κ³ κΈ μ½λ© νν°λ§ μμ€ν : λ¨μν μ λ΅ μ½λλ₯Ό 보μ¬μ£Όλ κ²μ΄ μλλΌ, λ¬Έμ μ κ°μ€μ μΈμ°κ³ λ¨κ³λ³λ‘ λλ²κΉ νλ κ³Όμ μ νμ΅μμκ² κ°λ₯΄μ³μ£Όλ AI νν°λ‘ λ§λ€ μ μμ΅λλ€.
- λ κ±°μ μ½λ 리ν©ν λ§ λ° λλ²κΉ : κΈ΄ λ§₯λ½μ μ΄ν΄νκ³ μμ½νλ λ₯λ ₯(Summarization model)μ νμ©ν΄ λ°©λν λ κ±°μ μ½λμ ꡬ쑰λ₯Ό νμ νκ³ λ²κ·Έλ₯Ό μμ νλ λ° μ¬μ©ν μ μμ΅λλ€.
νμν 리μμ€
- νλμ¨μ΄: μ¬λ¬ κ°μ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)κ³Ό μ½λ μ€ν νκ²½(Sandbox)μ λμμ μ΄μν΄μΌ νλ―λ‘, κ³ μ±λ₯ GPU ν΄λ¬μ€ν°(μ: H100 λλ A100 λ€μ)κ° νμμ μ λλ€.
- λ°μ΄ν°: κ²½μ νλ‘κ·Έλλ° λ¬Έμ λΏλ§ μλλΌ κ³ νμ§μ μΆλ‘ (Reasoning) νΈλ μ΄μ€ λ°μ΄ν°κ° νμν©λλ€.
6. μ΄ λ Όλ¬Έμ μ΄ν΄νκΈ° μν μ¬μ μ§μ
- κ°ν νμ΅(Reinforcement Learning): μμ΄μ νΈκ° νκ²½κ³Ό μνΈμμ©νλ©° 보μμ μ΅λννλ μ μ± μ νμ΅νλ λ¨Έμ λ¬λμ ν λΆμΌμ λλ€.
- LRL(Large Language Model): λ°©λν ν μ€νΈ λ°μ΄ν°λ‘ μ¬μ νλ ¨λ κ±°λ μΈμ΄ λͺ¨λΈλ‘, ν μ€νΈ μμ± λ° μ΄ν΄μ μ¬μ©λ©λλ€.
- μμ΄μ νΈ(Agent): μ¬μ©μμ λͺ©νλ₯Ό λ¬μ±νκΈ° μν΄ μμ¨μ μΌλ‘ νλνκ³ κ²°μ μ λ΄λ¦¬λ μμ€ν λλ μννΈμ¨μ΄μ λλ€.
- GRPO(Group Relative Policy Optimization): κΈ°μ‘΄μ PPO(Proximal Policy Optimization) λ±μ κ°μ ν μ μ± μ΅μ ν μκ³ λ¦¬μ¦μΌλ‘, κ·Έλ£Ή λ¨μλ‘ μλμ μΈ μ μ± μ μ λ°μ΄νΈνλ λ°©μμ λλ€.
- Off-policy Drift: νμ΅νλ €λ μ μ± (Policy)κ³Ό μ€μ λ°μ΄ν°λ₯Ό μμ±νλ μ μ± μ΄ λ€λ₯Ό λ λ°μνλ νμ΅ λΆμμ νμμ λλ€.
- μ²΄μΈ μ€λΈ μνΈ(Chain of Thought): λͺ¨λΈμ΄ λ΅μ λ°λ‘ λ΄λκΈ°λ³΄λ€ μ€κ° λ¨κ³μ μΆλ‘ κ³Όμ μ μκ°νλ―μ΄ μ μ΄μ 볡μ‘ν λ¬Έμ λ₯Ό ν΄κ²°νλ κΈ°λ²μ λλ€.
- μ½λν¬μ€(Codeforces): μ μΈκ³ κ°λ°μλ€μ΄ μκ³ λ¦¬μ¦ λ¬Έμ λ₯Ό νκ³ μ€λ ₯μ 겨루λ μ λͺ ν μ¨λΌμΈ μ μ§(Online Judge) νλ«νΌμ λλ€.
π μ΄λ² μ£Ό κ΄λ ¨ Deep Dive
| μμ | λ Όλ¬Έ | Deep Dive |
|---|---|---|
| π₯ | Adamβs Law: Textual Frequency Law oβ¦ | DD-062 |
| π₯ | GrandCode: Achieving Grandmaster Leβ¦ | π νμ¬ λ¬Έμ |
| π₯ | Rethinking Generalization in Reasonβ¦ | DD-066 |
| 4. | InCoder-32B-Thinking: Industrial Co⦠| DD-064 |
| 5. | Video-MME-v2: Towards the Next Stag⦠| DD-063 |
π μμ±μΌ: 2026-04-12 | π€ GLM-4.7 Deep Dive