โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-091 Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling
arXiv: 2605.13301 Upvotes: 137 | Comments: 2 ์์: ์ด๋ฒ ์ฃผ Top 5
๋ ผ๋ฌธ ๋ถ์: Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๊ณ ์ฑ๋ฅ ๋ชจ๋ธ๋ค์ ์ํ์ด๋ ๊ณผํ ์ฌ๋ฆผํผ์๋์ ๊ฐ์ ๋ณต์กํ๊ณ ๊ธด ๋ ผ๋ฆฌ้พๆก์ ์๊ตฌํ๋ ๋ฌธ์ ์์ ๋จ์ํ ๋ต๋ง ๋งํ๋ ๋ฐ ๊ทธ์น๊ฑฐ๋, ๋ ผ๋ฆฌ์ ๋น์ฝ์ด ์๋ ์ฆ๋ช ์ ์์ฑํ๋ ํ๊ณ๊ฐ ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋จ์ํ๊ณ ํต์ผ๋ ํ์ต ๋ฐ ์ถ๋ก ๋ ์ํผ(SFT โ 2๋จ๊ณ RL โ Test-time Scaling)๋ฅผ ํตํด ๊ฑฐ๋ ๋ชจ๋ธ์ ์ํคํ ์ฒ๋ฅผ ๋ฏ์ด๊ณ ์น์ง ์๊ณ ๋, ์ค์ ๊ธ๋ฉ๋ฌ ์์ค์ ์๊ฒฉํ ์ํ์ ์ฆ๋ช ๋ฅ๋ ฅ์ ๊ตฌํํ๋ค๋ ์ ์์ ํ๊ธฐ์ ์ ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ์์ฒญ๋๊ฒ ๋๋ํ ํ์์ ๋ง๋ค๊ธฐ ์ํด ๋จ์ํ ์ง์๋ง ์ฃผ์ ํ๋ ๊ฒ์ด ์๋๋ผ, โ์ด๋ป๊ฒ ์๊ฐํ๊ณ ๊ฒ์ฆํ ์งโ๋ฅผ ํ๋ จ์ํค๋ ๊ณผ์ ์ ์ฒด๊ณํํ ๊ฒ์ ๋๋ค.
์ผ์์ํ ๋น์ : โํ์ ์์ต์์์ ๋ช ํ์ ์ผ๋ก ์ฑ์ฅํ๊ธฐโ
์ด ๊ณผ์ ์ ํ ๋ช ์ ํ์ ์์ต์์ ํ๋ จ์ํค๋ ๊ณผ์ ์ ๋น์ ํ ์ ์์ต๋๋ค.
-
SFT (Supervised Fine-Tuning): ๊ต๊ณผ์์ ๋ชจ๋ฒ ๋ต์ ๊ณต๋ถ ์ฒ์ ์์ต์์๊ฒ๋ ์ด๋ฏธ ํด๊ฒฐ๋ ๋ณต์กํ ์ฌ๊ฑด ํ์ผ(๋ฌธ์ ์ ์ ๋ต, ํ์ด ๊ณผ์ )์ ์ฃผ๋ฉฐ ๊ณต๋ถ๋ฅผ ์ํต๋๋ค. ์ฌ๊ธฐ์ ํน์ดํ ์ ์ โReverse-perplexity curriculumโ์ ์ฌ์ฉํ๋ค๋ ๊ฑด๋ฐ, ์ด๋ ์์ต์์ด ๊ฐ์ฅ ํท๊ฐ๋ คํ๊ฑฐ๋ ์ด๋ ค์ํ๋ ๋ถ๋ถ๋ถํฐ ์ง์ค์ ์ผ๋ก ๊ฐ๋ฅด์ณ์ ์ฌ๊ณ ์ ํ์ ์ก์์ฃผ๋ ๋จ๊ณ์ ๋๋ค.
-
Coarse RL (๊ฑฐ์น ๊ฐํ ํ์ต): ๋จ์ ์ ๋ต ๋งํ๊ธฐ ํ๋ จ ์ด์ ์์ต์์ ํ์ฅ์ ๋ด๋ณด๋ ๋๋ค. ์ฌ๊ฑด์ ํด๊ฒฐํ๋ฉด ๋ณด์(Reward)์ ์ค๋๋ค. ์ด ๋จ๊ณ์์๋ ๋ ผ๋ฆฌ๊ฐ ์กฐ๊ธ ์์ฑํ๋๋ผ๋ ์ผ๋จ ๋ฒ์ธ์ ์ก๋ ๊ฒ(์ ๋ต์ ๋ง์ถ๋ ๊ฒ)์ ์ง์คํ๊ฒ ํฉ๋๋ค. ํ์คํ ๋จ์๊ฐ ์๋ ๋ฌธ์ ๋ฅผ ํตํด ๋ต์ ์ฐพ๋ ๋ณธ๋ฅ์ ๊ธฐ๋ฆ ๋๋ค.
-
Refined RL (์ ์ ๋ ๊ฐํ ํ์ต): ์๋ฒฝํ ์์ฌ ๋ณด๊ณ ์ ์์ฑ ํ๋ จ ์ด์ ๋จ์ํ ๋ฒ์ธ์ ์ก๋ ๊ฒ์ผ๋ก๋ ๋ถ์กฑํฉ๋๋ค. ๋ฒ์ ์์ ์ด์๋จ์ ์ ์๋ ์๋ฒฝํ ๋ ผ๋ฆฌ์ ์ฆ๊ฑฐ(Proof)๋ฅผ ์ ์ํด์ผ ํฉ๋๋ค. ์์ต์์ด ์ ์ถํ ๋ณด๊ณ ์์ ๋ ผ๋ฆฌ์ ๋นํ์ ์ฐพ์๋ด๊ณ ์์ ํ๊ฒ ํจ์ผ๋ก์จ, ๋จ์ํ ์ถ์ธก์ด ์๋ ๊ฒ์ฆ ๊ฐ๋ฅํ ์๊ฒฉํ ์ฆ๋ช ์ ์์ฑํ๋๋ก ํ๋ จํฉ๋๋ค.
-
Test-time Scaling (์ถ๋ก ์๊ฐ ํ์ฅ): ์๊ฐ ๋ฌด์ ํ ๋์ ๋ง์ง๋ง์ผ๋ก ์ค์ ๋์ ๊ฐ ์ฃผ์ด์ก์ ๋, ๋ชจ๋ธ์๊ฒ ์๊ฐ ์ ํ ์์ด ์ค์ค๋ก ์๊ฐ์ ์์ ํ ๊ธฐํ๋ฅผ ์ค๋๋ค. โ์ผ๋จ ํด๊ฒฐํด โ ๊ฒ์ฆํด โ ํ๋ฆฐ ๋ถ๋ถ ๊ณ ์ณโ์ ๊ณผ์ ์ 10๋ง ํ ํฐ์ด ๋๋ ๊ธด ์๊ฐ์ ํ๋ฆ์ผ๋ก ๋ฐ๋ณตํ๊ฒ ํ์ฌ, ์ธ๊ฐ์ด ๋ฉฐ์น ์ ๊ณ ๋ฏผํด์ผ ํ ๋ฌธ์ ๋ฅผ ์ง์ํ๊ฒ ํ๊ณ ๋ค์ด ํด๊ฒฐํ๊ฒ ๋ง๋ญ๋๋ค.
๋จ๊ณ๋ณ ๋์ ๋ฐฉ์
๋ ผ๋ฌธ์์ ์ ์ํ๋ SU-01 ๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ์ ํ์ดํ๋ผ์ธ์ ๋ฐ๋ฆ ๋๋ค.
- 1๋จ๊ณ: SFT (๊ฑฐ์์ ์ฌ๊ณ ํ๋ฆฝ) ์ฝ 34๋ง ๊ฐ์ ์งง์ ํ ํฐ ๊ถค์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ด ์ฆ๋ช ๊ฒ์(Proof-search)๊ณผ ์๊ธฐ ๊ฒ์ฌ(Self-checking)์ ๊ธฐ๋ณธ ํจํด์ ์ตํ๊ฒ ํฉ๋๋ค.
- 2๋จ๊ณ: Coarse RL (ํด๋ต ํ์ ๋ฅ๋ ฅ ํ์ฅ) ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์(Verifiable rewards)์ ํตํด ๋ชจ๋ธ์ด ์ ๋ต์ ์ฐพ์๊ฐ๋ ํ์ ๋ฅ๋ ฅ์ ๊ทน๋ํํฉ๋๋ค.
- 3๋จ๊ณ: Refined RL (์ฆ๋ช ํ์ง ์ ์ ) ๋จ์ ์ ๋ต ์ฌ๋ถ๋ฅผ ๋์ด, ์ฆ๋ช ๊ณผ์ ์ด ์ผ๋ง๋ ์๋ฐํ์ง(Rigor)๋ฅผ ํ๊ฐํ๋ ์ธ๋ฐํ ํผ๋๋ฐฑ์ ํตํด ๋ ผ๋ฆฌ์ ์๊ฒฐ์ฑ์ ๋์ ๋๋ค.
- 4๋จ๊ณ: TTS (์ถ๋ก ์๊ฐ ์ค์ผ์ผ๋ง) ์ค์ ๋ฌธ์ ํ์ด ์์ ์ ๋ชจ๋ธ์ด ์์ ์ ๋ต์์ ์ค์ค๋ก ๋นํํ๊ณ ์์ ํ๋ ๋ฐ๋ณต ๋ฃจํ(Self-verification and refinement loop)๋ฅผ ๋๋ ค ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฝ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ด๋ค ๋ฒค์น๋งํฌ์์ ํ ์คํธํ๋?
์ด ๋ ผ๋ฌธ์ ์ธ๊ณต์ง๋ฅ ์ํ ๋ฅ๋ ฅ์ ๊ฐ์ฅ ์ด๋ ค์ด ์ํ์ฅ์ผ๋ก ๋ถ๋ฆฌ๋ ๊ตญ์ ์ํ ์ฌ๋ฆผํผ์๋(International Mathematical Olympiad, IMO)์ ๊ตญ์ ๋ฌผ๋ฆฌ ์ฌ๋ฆผํผ์๋(International Physics Olympiad, IPhO) ๋ฌธ์ ๋ฅผ ์ฃผ ๋ฒค์น๋งํฌ๋ก ์ฌ์ฉํ์ต๋๋ค. ํนํ ์ต๊ทผ ๋ฌธ์ ์ธ IMO 2025์ IPhO 2025 ๋ฐ์ดํฐ๋ฅผ ํฌํจํ์ฌ ํ๊ฐํ์ต๋๋ค.
๊ธฐ์กด ์ต์ฒจ๋จ(SOTA) ๋๋น ์ผ๋ง๋ ์ข์์ก๋?
๋ ผ๋ฌธ์ ์ ๋ชฉ์ฒ๋ผ ๊ฒฐ๊ณผ๋ โ๊ธ๋ฉ๋ฌ ์์คโ์ ๋๋ค. ์ผ๋ฐ์ ์ธ ์ต์ ๋ชจ๋ธ๋ค์ด ๋จ์ผ ๋ต์ ์์ฑ(Single-pass)์ผ๋ก๋ ์ด๋ฌํ ๋์ ๋ฅผ ํด๊ฒฐํ์ง ๋ชปํ๊ฑฐ๋ ๋ ผ๋ฆฌ์ ์ค๋ฅ๊ฐ ๋ง์ ๋ฐ๋ฉด, SU-01์ ์ ์๋ ํ์ดํ๋ผ์ธ์ ํตํด ์๋์ ์ธ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ ๋ ผ๋ฌธ์ ๋จ์ํ ๋ต์ ๋งํ๋ ๊ฒ์ ๋์ด, ์ฑ์ ๊ด์ ์๊ฒฉํ ๊ฒ์ฆ๋ ๊ฒฌ๋๋ด๋ ์๋ฒฝํ ์ฆ๋ช (Proof)์ ์์ฑํ๋ค๋ ์ ์ ๊ฐ์กฐํฉ๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
๊ฐ์ฅ ์ธ์์ ์ธ ๋ถ๋ถ์ ์ฅ๊ธฐ๊ฐ์ ์์ ์ ์ธ ์ถ๋ก ๋ฅ๋ ฅ์ ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ ๊ธด ํ ์คํธ๋ฅผ ์์ฑํ ์๋ก ๋ ผ๋ฆฌ๊ฐ ํ๋ ค์ง๋ โํ๊ฐ ํ์โ์ด ๋ฐ์ํ๊ธฐ ์ฝ์ต๋๋ค. ํ์ง๋ง SU-01์ ํ ์คํธ ์๊ฐ ์ค์ผ์ผ๋ง(Test-time Scaling)์ ํตํด 10๋ง ํ ํฐ ์ด์์ ๊ธด ์ถ๋ก ๊ถค์ (Trajectory)์์๋ ๋ ผ๋ฆฌ์ ์ผ๊ด์ฑ์ ์ ์งํ๋ฉฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ต๋๋ค. ์ด๋ ์ธ๊ฐ์ด ๋ฉฐ์น ๊ฐ ๊ณ ๋ฏผํ์ฌ ๋ฐฉ์ ์์ ์ฌ๋ฌ ๊ฐ ๋์ดํ๊ณ ๊ฒ์ฆํ๋ ๊ณผ์ ๊ณผ ์ ์ฌํฉ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ
์ด ์ ๊ทผ๋ฒ์ ๋์ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, โTest-time Scalingโ ๊ณผ์ ์์ ์์ฒญ๋ ์์ ์ถ๋ก ์ฐ์ฐ ๋น์ฉ(Compute)์ด ์๋ชจ๋ฉ๋๋ค. 10๋ง ํ ํฐ ์ด์์ ์๊ฐํ๋ ๊ณผ์ ์ ์ค์๊ฐ ์๋ต์ด ํ์ํ ์๋น์ค์๋ ๋นํจ์จ์ ์ผ ์ ์์ต๋๋ค. ๋ํ, RL(๊ฐํ ํ์ต) ๊ณผ์ ์ด โ๊ฒ์ฆ ๊ฐ๋ฅํ(Verifiable)โ ์ํ ๋ฌธ์ ์ ํฌ๊ฒ ์์กดํ๊ธฐ ๋๋ฌธ์, ์ ๋ต์ด ๋ช ํํ์ง ์์ ๊ฐ๋ฐฉํ ๊ณผํ ๋ฌธ์ ๋ก์ ์ผ๋ฐํ์๋ ์ถ๊ฐ์ ์ธ ๊ณ ๋ฏผ์ด ํ์ํฉ๋๋ค.
๊ฐ์ ๊ฐ๋ฅํ ์
ํฅํ ์ฐ๊ตฌ์์๋ ์ถ๋ก ์๊ฐ์ ๋๋ ๋ง๋ํ ๋น์ฉ์ ์ค์ด๋ฉด์๋ ์ฑ๋ฅ์ ์ ์งํ๋ ํจ์จ์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ด ๊ฐ๋ฐ๋ ๊ฒ์ ๋๋ค. ๋ํ, ์ํ๋ฟ๋ง ์๋๋ผ ์ ๋ต์ด ์ ๋งคํ ์ฒ ํ์ด๋ ๋ณต์กํ ์ฌํ ๊ณผํ ๋ฌธ์ ๊น์ง๋ ์ด โ๊ฒ์ฆ-์์ โ ๋ฃจํ๋ฅผ ์ด๋ป๊ฒ ์ ์ฉํ ์ง์ ๋ํ ์ฐ๊ตฌ๊ฐ ์ด์ด์ง ๊ฒ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด๋์ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๊น?
๊ฐ์ฅ ๋จผ์ ์ ์ฉ๋ ๊ณณ์ ์ํ ๊ต์ก์ฉ ํํฐ๋ง ์์คํ ๊ณผ **์๋ํ๋ ์ ๋ฆฌ ์ฆ๋ช ๊ธฐ(Automated Theorem Prover)**์ ๋๋ค. ๋จ์ํ ๋ต๋ง ์๋ ค์ฃผ๋ ๊ฒ์ด ์๋๋ผ, ํ์์ด ํ๋ฆฐ ๋ ผ๋ฆฌ๋ฅผ ์ ํํ ์ง์ด์ฃผ๊ณ ๋จ๊ณ์ ์ผ๋ก ์ฆ๋ช ๊ณผ์ ์ ์ด๋์ด์ฃผ๋ ๊ณ ๊ธ ๊ต์ก ์์คํ ์ ๋ง๋ค ์ ์์ต๋๋ค. ๋ํ, ์ํํธ์จ์ด ๊ฒ์ฆ ๋ถ์ผ์์ ๋ณต์กํ ์ฝ๋์ ๋ ผ๋ฆฌ์ ๊ฒฐํจ์ ์ฐพ์๋ด๋ ๋ฒ๊ทธ ํํ ํด๋ก๋ ํ์ฉ ๊ฐ๋ฅํด ๋ณด์ ๋๋ค.
ํ์ํ ๋ฆฌ์์ค (GPU, ๋ฐ์ดํฐ ๋ฑ)
์ด ๋ชจ๋ธ์ ์ค์ ๋ก ๊ตฌ๋ํ๋ ค๋ฉด ์๋นํ ํ๋์จ์ด ์์์ด ํ์ํฉ๋๋ค. 30B(300์ต) ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋ชจ๋ธ์ ํ์ต์ํค๊ณ , ํนํ 10๋ง ํ ํฐ ์ด์์ ๊ธด ๋ฌธ๋งฅ(Context Window)์ ์ค์๊ฐ์ผ๋ก ์ฒ๋ฆฌํด์ผ ํ๋ฏ๋ก, ๊ณ ์ฌ์์ GPU(A100์ด๋ H100 ํด๋ฌ์คํฐ)์ ๋ฐฉ๋ํ ๊ณ ๊ธ ์ํ ๋ฐ์ดํฐ์ (AoPS, ์ฌ๋ฆผํผ์๋ ๊ธฐ์ถ๋ฌธ์ ๋ฑ)์ด ํ์์ ์ ๋๋ค. ์คํํธ์ ์ด๋ ๊ฐ์ธ ๊ฐ๋ฐ์๊ฐ ๊ฐ๋ณ๊ฒ ์ ๊ทผํ๊ธฐ์๋ ํ์ฌ๋ก์๋ ์ง์ ์ฅ๋ฒฝ์ด ๋์ต๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- SFT (Supervised Fine-Tuning): ๋ชจ๋ธ์๊ฒ ์ ๋ต์ด ํฌํจ๋ ๋ฐ์ดํฐ๋ฅผ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ฌ๋์ด ์ํ๋ ๋ฐฉ์์ผ๋ก ์ถ๋ ฅํ๋๋ก ๋ฏธ์ธ ์กฐ์ ํ๋ ๋ฐฉ์์ ๋๋ค.
- RL (Reinforcement Learning): ๋ชจ๋ธ์ด ์ํ์ฐฉ์ค๋ฅผ ํตํด ํ๋์ ํ์ตํ๋ ๋จธ์ ๋ฌ๋์ ํ ์ข ๋ฅ๋ก, ์ฌ๋ฐ๋ฅธ ํ๋์๋ ๋ณด์์, ํ๋ฆฐ ํ๋์๋ ๋ฒ์น์ ์ฃผ์ด ํ์ตํฉ๋๋ค.
- Test-time Scaling: ๋ชจ๋ธ์ ํ์ต๋ ์ง๋ฅ์ ๊ทธ๋๋ก ๋๊ณ , ์ค์ ๋ก ๋ต์ ์์ฑํ ๋ ๋ ๋ง์ ์๊ฐ๊ณผ ๊ณ์ฐ ์์์ ํฌ์ํ์ฌ ์ฑ๋ฅ์ ๋์ด๋ ๊ธฐ๋ฒ์ ๋๋ค.
- Chain-of-Thought (CoT): ๋ชจ๋ธ์ด ๋ต์ ๋ฐ๋ก ๋งํ๋ ๋์ , ๋จ๊ณ๋ณ๋ก ์๊ฐ์ ๊ณผ์ ์ ์์ ํ์ฌ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ํ๋กฌํํ ๊ธฐ๋ฒ์ ๋๋ค.
- Verifiable Rewards: ๋ชจ๋ธ์ ๋ต์ด ๋ง์๋์ง ํ๋ ธ๋์ง๋ฅผ ์๋์ผ๋ก ํ์ธํ ์ ์๋ ํ์คํ ๊ธฐ์ค(์: ์ํ ๋ฌธ์ ์ ์ต์ข ๋ต)์ ํตํด ์ฃผ๋ ๋ณด์์ ๋๋ค.
- Perplexity (PPL): ์ธ์ด ๋ชจ๋ธ์ด ํ ์คํธ๋ฅผ ์ผ๋ง๋ ์ ์์ธกํ๋์ง ๋ํ๋ด๋ ์ฒ๋๋ก, ๋ฎ์์๋ก ๋ชจ๋ธ์ด ํด๋น ํ ์คํธ๋ฅผ ์์ฐ์ค๋ฝ๊ฒ ์ดํดํ๊ณ ์๋ค๋ ๋ป์ ๋๋ค.
- Reasoning Backbone: ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ถ ๊ธฐ๋ณธ์ ์ธ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์๋ฏธํฉ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | MinT: Managed Infrastructure for Trโฆ | DD-087 |
| ๐ฅ | Mean Mode Screaming: MeanโVarianceโฆ | DD-088 |
| ๐ฅ | SenseNova-U1: Unifying Multimodal Uโฆ | DD-089 |
| 4. | MemPrivacy: Privacy-Preserving Persโฆ | DD-090 |
| 5. | Achieving Gold-Medal-Level Olympiadโฆ | ๐ ํ์ฌ ๋ฌธ์ |
๐ ์์ฑ์ผ: 2026-05-17 | ๐ค GLM-4.7 Deep Dive