โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-061 GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning
arXiv: 2604.02721 ๊ธฐ๊ด: DeepReinforce Upvotes: 347 | Comments: 2 ์์: ์ด๋ฒ ์ฃผ Top 1
GrandCode: Agentic Reinforcement Learning์ ํตํ ๊ฒฝ์ ํ๋ก๊ทธ๋๋ฐ ๊ทธ๋๋๋ง์คํฐ ๋ฌ์ฑ ๋ ผ๋ฌธ ๋ถ์
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
์ง๊ธ๊น์ง็ไบบๅทฅ์ง๋ฅ(AI) ๋ชจ๋ธ๋ค์ ๊ตฌ๊ธ์ ์ ๋ฏธ๋(Deep Think)๋ ์คํAI์ o3 ๊ฐ์ ์ต์ ๋ชจ๋ธ์กฐ์ฐจ๋ ์ค์ ๋ผ์ด๋ธ ๊ฒฝ์ ํ๋ก๊ทธ๋๋ฐ ๋ํ์์ ์ต๊ณ ์ ์ธ๊ฐ ๊ทธ๋๋๋ง์คํฐ๋ค์ ๊พธ์คํ ์ด๊ธฐ์ง ๋ชปํ์ต๋๋ค. ๋จ์ํ ์ฝ๋๋ฅผ ์์ฑํ๋ ๊ฒ์ ๋์ด, ๋ณต์กํ ๋ฌธ์ ํด๊ฒฐ ๊ณผ์ ์์ ์ฌ๋ฌ ์์ด์ ํธ๊ฐ ํ๋ ฅํ๊ณ ์ค์ค๋ก ํผ๋๋ฐฑ์ ํตํด ํ์ตํ๋ โ์์ด์ ํฑ(Agentic)โ ์ ๊ทผ ๋ฐฉ์์ด ํ์์ ์ด์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ GrandCode๋ผ๋ ๋ค์ค ์์ด์ ํธ ๊ฐํ ํ์ต ์์คํ ์ ํตํด, ์ค์๊ฐ ๋ํ ํ๊ฒฝ์์ ๋ชจ๋ ์ธ๊ฐ ์ฐธ๊ฐ์๋ฅผ ์ ์น๊ณ 1์๋ฅผ ์ฐจ์งํ ์ต์ด์ ์ฌ๋ก๋ฅผ ์ ์ํ๋ฉฐ AI ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ์ ์๋ก์ด ์งํ์ ์ด์์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
๋ณต์กํ ์์ ํ์ ๋น์ ํ๊ธฐ
์ด ๋ ผ๋ฌธ์ ํต์ฌ ์์คํ ์ธ GrandCode๋ ๋ง์น โ๊ณ ๋๋ ์์ ์ ํ๋ ์ ๋ฌธ ์๋ฃ ํโ๊ณผ ๊ฐ์ต๋๋ค. ํผ์์ ๋ชจ๋ ๊ฒ์ ์ฒ๋ฆฌํ๋ ๋จ์ผ ์์ฌ(๊ธฐ์กด LLM) ๋์ , ๊ฐ์์ ์ญํ ์ ๊ฐ์ง ์ ๋ฌธ๊ฐ๋ค์ด ํ๋ ฅํ์ฌ ํ์(๋์ ๋ฌธ์ )๋ฅผ ์น๋ฃํ๋ ๋ฐฉ์์ ๋๋ค.
- ์ฃผ๋์ ํด๊ฒฐ์ฌ(Main Solver): ์ค์ ์์ ๋ฉ์ค๋ฅผ ์ก๊ณ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์ฃผ ์ธ๊ณผ์์ฌ์ ๋๋ค. ๊ฐ์ฅ ์ค์ํ ์ถ๋ก ๊ณผ ์ฝ๋๋ฅผ ์์ฑํฉ๋๋ค.
- ๊ฐ์ค ์ ์ ๋ชจ๋ธ(Hypothesis Model): ์์ ์ ์ ํ์์ ์ํ๋ฅผ ๋ถ์ํ์ฌ โ์ด๋ฐ ์์ ๋ฒ์ด ํตํ ๊ฒ ๊ฐ๋คโ๋ผ๋ ๊ฐ์ค์ ์ ์ํ๋ ์ง๋จ ์์ฌ์ ๋๋ค. ์์ ์์ ๋ฅผ ํตํด ๊ฐ์ค์ ๊ฒ์ฆํ๊ณ , ๋ง๋ค๋ฉด ์ฃผ ์์ฌ์๊ฒ ์๋ ค์ค๋๋ค.
- ์์ฝ ๋ชจ๋ธ(Summarization Model): ์์ ์ด ๊ธธ์ด์ง๋ฉด ๊ธฐ๋ก์ด ๋๋ฌด ๊ธธ์ด์ง๋ฏ๋ก, ์ค์ํ ์ ๋ณด๋ง ๊ฐ์ถ๋ ค ์ฃผ ์์ฌ์ ๊ธฐ์ต ๋ถ๋ด์ ์ค์ฌ์ฃผ๋ ๊ฐํธ ๊ธฐ๋ก์ฌ์ ๋๋ค.
- ํ ์คํธ ์์ฑ๊ธฐ(Test Generator): ์์ ํ ํฉ๋ณ์ฆ์ด ์๋์ง ํ์ธํ๊ธฐ ์ํด, ์๋์ ์ผ๋ก ์ํํ ์ํฉ(์ฃ์ง ์ผ์ด์ค)์ ๋ง๋ค์ด ์ํํด๋ณด๋ ๊ฒ์ฌ ์์ฌ์ ๋๋ค.
๋จ๊ณ๋ณ ๋์ ๊ณผ์
GrandCode๋ ํฌ๊ฒ ๋ ๊ฐ์ง ๋จ๊ณ๋ก ์๋ํฉ๋๋ค. ์ฒซ์งธ, โ์ฌ์ ํ๋ จ(Post-training)โ ๋จ๊ณ์์๋ ์๋ฃ ํ์ด ๋ค์ํ ์ํ ์ง์์ ๊ณต๋ถํ๊ณ (CPT), ์ค์ ์๋๋ฆฌ์ค๋ฅผ ์ฐ์ตํ๋ฉฐ(SFT), ํ์ํฌ๋ฅผ ์ตํ๋ ํ๋ จ(Multi-component RL)์ ๊ฑฐ์นฉ๋๋ค. ๋์งธ, โ์ค์ (Test-time)โ ๋จ๊ณ์์๋ ์ฌ์ด ๋ฌธ์ ๋ ์ฃผ ์์ฌ๊ฐ ๋ฐ๋ก ํด๊ฒฐํ๊ณ , ์ด๋ ค์ด ๋ฌธ์ ๋ ํ ์ ์ฒด๊ฐ ๊ฐ๋๋ฉ๋๋ค. ๊ฐ์ค ๋ชจ๋ธ์ด ์์ด๋์ด๋ฅผ ๋ด๊ณ , ์์ฝ ๋ชจ๋ธ์ด ๊ธฐ๋ก์ ์ ๋ฆฌํ๋ฉฐ, ํ ์คํธ ์์ฑ๊ธฐ๊ฐ ์ฝ๋๋ฅผ ๊ณต๊ฒฉํ๋ฉด์ ํ์ ์ค์๊ฐ์ผ๋ก ํผ๋๋ฐฑ์ ์ฃผ๊ณ ๋ฐ์ผ๋ฉฐ ๋ต์ ์์ ํด ๋๊ฐ๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ: Agentic GRPO
์ฌ๊ธฐ์ ๊ฐ์ฅ ์ค์ํ ๊ธฐ์ ์ ๊ธฐ์ฌ๋ โAgentic GRPOโ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ๊ฒฝ์ ํ๋ก๊ทธ๋๋ฐ์ ์ฝ๋๋ฅผ ์ง๊ณ ์ปดํ์ผํ๊ณ ํ ์คํธํ๋ ๋ฐ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ ค(1๋ถ ์ด์), AI๊ฐ ๋ต์ ์ ์ถํ๊ณ ๊ฒฐ๊ณผ๋ฅผ ๋๋ ค๋ฐ๊ธฐ๊น์ง ์ฌ์ด์ ๋ชจ๋ธ์ด ์ด๋ฏธ ๋ณ๊ฒฝ๋์ด๋ฒ๋ฆฌ๋ โ์คํ-ํด๋ฆฌ์(Off-policy)โ ๋ฌธ์ ๊ฐ ์ฌ๊ฐํ์ต๋๋ค. ์ด๋ ํ์์ด ์ํ์ ์น๋ ๋์ค์ ๋จธ๋ฆฌ๊ฐ ๋ฐ๋์ด ๋ฒ๋ฆฌ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค.
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด GrandCode๋ โ์ฆ์ ๋ณด์(Immediate Reward)โ๊ณผ โ์ง์ฐ ๊ต์ (Delayed Correction)โ ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค. ๋ชจ๋ ๊ณผ์ ์ด ๋๋๊ณ ์ฑ์ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ค๋ฆฌ๋ ๋์ , ๊ฐ ๋จ๊ณ(์: ์ปดํ์ผ ์ฑ๊ณต, ์ฒซ ๋ฒ์งธ ํ ์คํธ ํต๊ณผ ๋ฑ)๊ฐ ์๋ฃ๋ ๋๋ง๋ค ์ฆ์ ์ ์๋ฅผ ์ฃผ์ด ํ์ต์ ์งํํฉ๋๋ค. ๋์ค์ ์ต์ข ๊ฒฐ๊ณผ๊ฐ ๋์ค๋ฉด, ์ฒ์์ ์ค ์ ์์ ์ต์ข ์ ์์ ์ฐจ์ด๋งํผ์ ๋ค์ ์กฐ์ ํ์ฌ ์ ํ๋๋ฅผ ๋์ ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๊ธด ๋๊ธฐ ์๊ฐ ๋์์๋ ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์์ต๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ด ๋ ผ๋ฌธ์ ์ฑ๊ณผ๋ ๊ฒฝ์ ํ๋ก๊ทธ๋๋ฐ์ ์ฑ์ง์ธ ์ฝ๋ํฌ์ค(Codeforces) ๋ผ์ด๋ธ ๋ํ ๊ฒฐ๊ณผ์์ ๊ฐ์ฅ ํ์คํ๊ฒ ๋๋ฌ๋ฉ๋๋ค.
- ํ ์คํธ ๋ฒค์น๋งํฌ: ์ค์ ์ฝ๋ํฌ์ค(Codeforces)์ ์ต๊ทผ ๋ผ์ด๋ธ ๋ผ์ด๋ 3๊ฐ์ ์ฐธ์ฌํ์ฌ ์ธ๊ฐ ์ฐธ๊ฐ์๋ค๊ณผ ์ค์๊ฐ์ผ๋ก ๊ฒฝ์ํ์ต๋๋ค.
- ๊ธฐ์กด ์ต๊ณ ์ฑ๊ณผ(SOTA) ๋๋น ์ฐ์:
- ๊ตฌ๊ธ์ AlphaCode๋ ์์ 54% ์์ค(๋ ์ดํ ์ฝ 1300)์ ๋จธ๋ฌผ๋ ์ต๋๋ค.
- AlphaCode2๋ ์์ 85%๊น์ง ์ฌ๋์ผ๋ ์ฌ์ ํ ๊ทธ๋๋๋ง์คํฐ ์์ค์ ์๋์์ต๋๋ค.
- ์คํAI์ o3๋ ์ธ๊ณ 175์๋ฅผ ๊ธฐ๋กํ๊ณ , ๊ตฌ๊ธ์ ์ ๋ฏธ๋ 3 ๋ฅ ์ฝํฌ(Gemini 3 Deep Think)๋ 8์๋ฅผ ๊ธฐ๋กํ์ผ๋ ๋ผ์ด๋ธ ๋ํ๊ฐ ์๋ ๊ณผ๊ฑฐ ๋ฌธ์ ํ์ด ํ๊ฒฝ์ด์์ต๋๋ค.
- ์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ: GrandCode๋ ์ฐธ์ฌํ 3๋ฒ์ ์ต๊ทผ ๋ผ์ด๋ธ ์ฝ๋ํฌ์ค ๋ผ์ด๋์์ ๋ชจ๋ 1์๋ฅผ ์ฐจ์งํ์ต๋๋ค. ์ด๋ ์ธ๊ฐ ๊ทธ๋๋๋ง์คํฐ๋ค์ ํฌํจํ ๋ชจ๋ ์ฐธ๊ฐ์๋ฅผ ์ค์๊ฐ์ผ๋ก ๊บพ์ ์ต์ด์ ๊ธฐ๋ก์ด๋ฉฐ, AI๊ฐ ๋จ์ํ ์ฝ๋ฉ ๋๊ตฌ๋ฅผ ๋์ด ์ต๊ณ ์ ๋ฌธ์ ํด๊ฒฐ์ฌ๋ก ์งํํ์์ ์ ์ฆํ์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
ํ๊ณ์
์ ์๋ค์ ๋ ผ๋ฌธ์์ ์ง์ ์ ์ผ๋ก ์ธ๊ธํ์ง๋ ์์์ง๋ง, GrandCode์ ๊ตฌ์กฐ์ ํน์ฑ์ ๋ช ๊ฐ์ง ํ๊ณ์ ์ด ์กด์ฌํฉ๋๋ค. ์ฒซ์งธ, ๋ค์ค ์์ด์ ํธ ์์คํ ์ด๋ฏ๋ก ๋จ์ผ ๋ชจ๋ธ์ ์ฌ์ฉํ ๋๋ณด๋ค ์ถ๋ก ์ ๋๋ ๋น์ฉ๊ณผ ์๊ฐ์ด ๋งค์ฐ ํฝ๋๋ค. ์ธ๊ฐ์ด 1์๊ฐ ์์ ํธ๋ ๋ฌธ์ ๋ฅผ ํ๊ธฐ ์ํด ์์ญ ๋ถ ํน์ ๊ทธ ์ด์์ ์ปดํจํ ์์์ด ์๋ชจ๋ ์ ์์ต๋๋ค. ๋์งธ, ๊ฐํ ํ์ต(RL) ๊ณผ์ ์์ ์ฝ๋๋ฅผ ์คํ์์ผ์ผ ํ๋ฏ๋ก ๋ณด์์์ ์ด์ ๋ก ์ ํ๋ ์๋๋ฐ์ค ํ๊ฒฝ์ด ํ์ํ๋ฉฐ, ์ด๋ ์์คํ ์ ํ์ฅ์ฑ์ ์ ์ฝํ ์ ์์ต๋๋ค.
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
ํฅํ ์ฐ๊ตฌ๋ ์ด๋ฌํ ๋น์ฉ ํจ์จ์ฑ์ ๊ฐ์ ํ๋ ๋ฐฉํฅ์ผ๋ก ์งํ๋ ๊ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ ์ ์ ํ์์ ์ถ๋ก ์ผ๋ก๋ ๋์ผํ ์ฑ๋ฅ์ ๋ผ ์ ์๋๋ก ๋ชจ๋ธ์ ๊ฒฝ๋ํํ๊ฑฐ๋, ํ ์คํธ ์์ฑ ๊ณผ์ ์ ์ต์ ํํ์ฌ ๋ถํ์ํ ๊ณ์ฐ์ ์ค์ด๋ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค. ๋ํ, ๊ฒฝ์ ํ๋ก๊ทธ๋๋ฐ๋ฟ๋ง ์๋๋ผ ์ค์ ์ฐ์ ํ์ฅ์ ๋ณต์กํ ์ํํธ์จ์ด ์์ง๋์ด๋ง ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ์ด ์์ด์ ํฑ ํ๋ ์์ํฌ๋ฅผ ์ด๋ป๊ฒ ์ ์ฉํ ์ง๊ฐ ์ฃผ์ ๊ณผ์ ๊ฐ ๋ ๊ฒ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ถ์ผ
- ์๋ ๋๋ฒ๊น ๋ฐ ์ต์ ํ ๋๊ตฌ: ์ํํธ์จ์ด ๊ฐ๋ฐ ๊ณผ์ ์์ ๋ฐ์ํ๋ ๋ฒ๊ทธ๋ฅผ ์๋์ผ๋ก ์ฐพ์๋ด๊ณ ์์ ํด ์ฃผ๋ ๊ณ ๊ธ ๋๊ตฌ ๊ฐ๋ฐ์ ์ฆ์ ํ์ฉํ ์ ์์ต๋๋ค.
- ์๊ณ ๋ฆฌ์ฆ ํธ๋ ์ด๋ ํ๋ซํผ: ์ฝ๋ฉ ํ ์คํธ๋ฅผ ์ค๋นํ๋ ์ํ์๋ค์๊ฒ, ๋จ์ํ ์ ๋ต ์ฝ๋๋ง ๋ณด์ฌ์ฃผ๋ ๊ฒ์ด ์๋๋ผ ๋ฌธ์ ํด๊ฒฐ ๊ณผ์ ์ ๋จ๊ณ๋ณ๋ก ์ฝ์นญํด ์ฃผ๋ AI ํํฐ๋ก ๊ฐ๋ฐํ ์ ์์ต๋๋ค.
- ๋ณต์กํ ์์คํ ๊ฒ์ฆ: ๊ธ์ต ๊ฑฐ๋ ์์คํ ์ด๋ ๋ณด์ ์๋ฃจ์ ์ฒ๋ผ ์ฃ์ง ์ผ์ด์ค(Edge Case) ์ฒ๋ฆฌ๊ฐ ์ค์ํ ๋ถ์ผ์์, ๋ค์ํ ๊ณต๊ฒฉ ์๋๋ฆฌ์ค๋ฅผ ์์ฑํ์ฌ ์์คํ ์ ๊ฒฌ๊ณ ํจ์ ํ ์คํธํ๋ ์ฉ๋๋ก ์ฌ์ฉํ ์ ์์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค
- ์ปดํจํ ํ์: ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ์ด๋ฏ๋ก ํ์ต ์์๋ ์๋ฐฑ ๊ฐ์ ๊ณ ์ฑ๋ฅ GPU(์: H100 ๋๋ A100 ํด๋ฌ์คํฐ)๊ฐ ํ์ํ๋ฉฐ, ์ถ๋ก ์์๋ ๋ค์ค ์์ด์ ํธ๋ฅผ ๋์์ ๋๋ ค์ผ ํ๋ฏ๋ก ์๋นํ ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ ์์์ด ์์๋ฉ๋๋ค.
- ๋ฐ์ดํฐ: ๊ณ ํ์ง์ ๊ฒฝ์ ํ๋ก๊ทธ๋๋ฐ ๋ฌธ์ ์ ์ ๋ต ๋ฐ์ดํฐ, ๊ทธ๋ฆฌ๊ณ ์ฝ๋๋ฅผ ์คํํ๊ณ ๊ฒ์ฆํ ์ ์๋ ์์ ํ ์คํ ํ๊ฒฝ(Sandbox) ๋ฐ์ดํฐ๊ฐ ํ์์ ์ ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ๊ฒฝ์ ํ๋ก๊ทธ๋๋ฐ(Competitive Programming): ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ์ฃผ์ด์ง ๋ฌธ์ ๋ฅผ ์ ํ ์๊ฐ ๋ด์ ํด๊ฒฐํ๋ ์ง์ ์คํฌ์ธ ๋ก, ์ฝ๋ํฌ์ค(Codeforces) ๊ฐ์ ํ๋ซํผ์์ ์งํ๋ฉ๋๋ค.
- ๊ฐํ ํ์ต(Reinforcement Learning): ์์ด์ ํธ๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ๋ณด์์ ์ต๋ํํ๋ ํ๋์ ํ์ตํ๋ ๊ธฐ๊ณ ํ์ต์ ํ ๋ถ์ผ์ ๋๋ค.
- ์คํ-ํด๋ฆฌ์(Off-policy): ํ์ตํ๋ ์ ์ฑ ๊ณผ ํ๋์ ์ ํํ๋ ์ ์ฑ ์ด ๋ค๋ฅธ ์ํฉ์ ์๋ฏธํ๋ฉฐ, ๋ฐ์ดํฐ ์ํ์ ์์งํ๋ ์์ ๊ณผ ํ์ตํ๋ ์์ ์ ๋ชจ๋ธ์ด ๋ฌ๋ผ์ ธ ๋ฐ์ํ๋ ๋ฌธ์ ์ ๋๋ค.
- ์์ด์ ํธ(Agent): ํ๊ฒฝ์ๆ็ฅ(Perceive)ํ๊ณ ํ๋์ ์ทจํ ์ ์๋ ์์จ์ ์ธ ์์คํ ์ด๋ ๋ชจ๋ธ์ ์๋ฏธํฉ๋๋ค.
- LLM(๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ): ๋ฐฉ๋ํ ํ ์คํธ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ๋ จ๋ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ๋ก, ํ ์คํธ ์์ฑ ๋ฐ ์ดํด์ ์ฌ์ฉ๋ฉ๋๋ค.
- ๊ทธ๋ฃน ์๋ ์ ์ฑ ์ต์ ํ(Group Relative Policy Optimization, GRPO): ์ฌ๋ฌ ํ๋ณด๊ตฐ์ ์์ฑํ์ฌ ๊ทธ ๊ทธ๋ฃน ๊ฐ์ ์๋์ ์ธ ์์๋ฅผ ํตํด ์ ์ฑ ์ ์ ๋ฐ์ดํธํ๋ ๊ฐํ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
- ํ ์คํธ ์๊ฐ ์ ์(Test-time Adaptation): ์ค์ ์ถ๋ก ๋จ๊ณ์์ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ง์ถฐ ๋ชจ๋ธ์ด๋ ์์คํ ์ ๋์ ์ผ๋ก ์กฐ์ ํ๊ฑฐ๋ ํ์ตํ๋ ๊ณผ์ ์ ๋งํฉ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | GrandCode: Achieving Grandmaster Leโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | Adamโs Law: Textual Frequency Law oโฆ | DD-062 |
| ๐ฅ | Video-MME-v2: Towards the Next Stagโฆ | DD-063 |
| 4. | InCoder-32B-Thinking: Industrial Coโฆ | DD-064 |
| 5. | SkillClaw: Let Skills Evolve Collecโฆ | DD-065 |
๐ ์์ฑ์ผ: 2026-04-12 | ๐ค GLM-4.7 Deep Dive