โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-091 Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

arXiv: 2605.13301 Upvotes: 137 | Comments: 2 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 5


๋…ผ๋ฌธ ๋ถ„์„: Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ๊ณ ์„ฑ๋Šฅ ๋ชจ๋ธ๋“ค์€ ์ˆ˜ํ•™์ด๋‚˜ ๊ณผํ•™ ์˜ฌ๋ฆผํ”ผ์•„๋“œ์™€ ๊ฐ™์€ ๋ณต์žกํ•˜๊ณ  ๊ธด ๋…ผ๋ฆฌ้“พๆก์„ ์š”๊ตฌํ•˜๋Š” ๋ฌธ์ œ์—์„œ ๋‹จ์ˆœํžˆ ๋‹ต๋งŒ ๋งžํžˆ๋Š” ๋ฐ ๊ทธ์น˜๊ฑฐ๋‚˜, ๋…ผ๋ฆฌ์  ๋น„์•ฝ์ด ์žˆ๋Š” ์ฆ๋ช…์„ ์ž‘์„ฑํ•˜๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋‹จ์ˆœํ•˜๊ณ  ํ†ต์ผ๋œ ํ•™์Šต ๋ฐ ์ถ”๋ก  ๋ ˆ์‹œํ”ผ(SFT โ†’ 2๋‹จ๊ณ„ RL โ†’ Test-time Scaling)๋ฅผ ํ†ตํ•ด ๊ฑฐ๋Œ€ ๋ชจ๋ธ์˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋œฏ์–ด๊ณ ์น˜์ง€ ์•Š๊ณ ๋„, ์‹ค์ œ ๊ธˆ๋ฉ”๋‹ฌ ์ˆ˜์ค€์˜ ์—„๊ฒฉํ•œ ์ˆ˜ํ•™์  ์ฆ๋ช… ๋Šฅ๋ ฅ์„ ๊ตฌํ˜„ํ–ˆ๋‹ค๋Š” ์ ์—์„œ ํš๊ธฐ์ ์ž…๋‹ˆ๋‹ค.


2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์€ ์—„์ฒญ๋‚˜๊ฒŒ ๋˜‘๋˜‘ํ•œ ํ•™์ƒ์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ๋‹จ์ˆœํžˆ ์ง€์‹๋งŒ ์ฃผ์ž…ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, โ€˜์–ด๋–ป๊ฒŒ ์ƒ๊ฐํ•˜๊ณ  ๊ฒ€์ฆํ• ์ง€โ€™๋ฅผ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๊ณผ์ •์„ ์ฒด๊ณ„ํ™”ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€˜ํƒ์ • ์ˆ˜์Šต์ƒ์—์„œ ๋ช…ํƒ์ •์œผ๋กœ ์„ฑ์žฅํ•˜๊ธฐโ€™

์ด ๊ณผ์ •์„ ํ•œ ๋ช…์˜ ํƒ์ • ์ˆ˜์Šต์ƒ์„ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๊ณผ์ •์— ๋น„์œ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  1. SFT (Supervised Fine-Tuning): ๊ต๊ณผ์„œ์™€ ๋ชจ๋ฒ” ๋‹ต์•ˆ ๊ณต๋ถ€ ์ฒ˜์Œ ์ˆ˜์Šต์ƒ์—๊ฒŒ๋Š” ์ด๋ฏธ ํ•ด๊ฒฐ๋œ ๋ณต์žกํ•œ ์‚ฌ๊ฑด ํŒŒ์ผ(๋ฌธ์ œ์™€ ์ •๋‹ต, ํ’€์ด ๊ณผ์ •)์„ ์ฃผ๋ฉฐ ๊ณต๋ถ€๋ฅผ ์‹œํ‚ต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ํŠน์ดํ•œ ์ ์€ โ€˜Reverse-perplexity curriculumโ€™์„ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ๊ฑด๋ฐ, ์ด๋Š” ์ˆ˜์Šต์ƒ์ด ๊ฐ€์žฅ ํ—ท๊ฐˆ๋ คํ•˜๊ฑฐ๋‚˜ ์–ด๋ ค์›Œํ•˜๋Š” ๋ถ€๋ถ„๋ถ€ํ„ฐ ์ง‘์ค‘์ ์œผ๋กœ ๊ฐ€๋ฅด์ณ์„œ ์‚ฌ๊ณ ์˜ ํ‹€์„ ์žก์•„์ฃผ๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค.

  2. Coarse RL (๊ฑฐ์นœ ๊ฐ•ํ™” ํ•™์Šต): ๋‹จ์ˆœ ์ •๋‹ต ๋งžํžˆ๊ธฐ ํ›ˆ๋ จ ์ด์ œ ์ˆ˜์Šต์ƒ์„ ํ˜„์žฅ์— ๋‚ด๋ณด๋ƒ…๋‹ˆ๋‹ค. ์‚ฌ๊ฑด์„ ํ•ด๊ฒฐํ•˜๋ฉด ๋ณด์ƒ(Reward)์„ ์ค๋‹ˆ๋‹ค. ์ด ๋‹จ๊ณ„์—์„œ๋Š” ๋…ผ๋ฆฌ๊ฐ€ ์กฐ๊ธˆ ์—‰์„ฑํ•˜๋”๋ผ๋„ ์ผ๋‹จ ๋ฒ”์ธ์„ ์žก๋Š” ๊ฒƒ(์ •๋‹ต์„ ๋งž์ถ”๋Š” ๊ฒƒ)์— ์ง‘์ค‘ํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ํ™•์‹คํ•œ ๋‹จ์„œ๊ฐ€ ์žˆ๋Š” ๋ฌธ์ œ๋ฅผ ํ†ตํ•ด ๋‹ต์„ ์ฐพ๋Š” ๋ณธ๋Šฅ์„ ๊ธฐ๋ฆ…๋‹ˆ๋‹ค.

  3. Refined RL (์ •์ œ๋œ ๊ฐ•ํ™” ํ•™์Šต): ์™„๋ฒฝํ•œ ์ˆ˜์‚ฌ ๋ณด๊ณ ์„œ ์ž‘์„ฑ ํ›ˆ๋ จ ์ด์ œ ๋‹จ์ˆœํžˆ ๋ฒ”์ธ์„ ์žก๋Š” ๊ฒƒ์œผ๋กœ๋Š” ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค. ๋ฒ•์ •์—์„œ ์‚ด์•„๋‚จ์„ ์ˆ˜ ์žˆ๋Š” ์™„๋ฒฝํ•œ ๋…ผ๋ฆฌ์  ์ฆ๊ฑฐ(Proof)๋ฅผ ์ œ์‹œํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ˆ˜์Šต์ƒ์ด ์ œ์ถœํ•œ ๋ณด๊ณ ์„œ์˜ ๋…ผ๋ฆฌ์  ๋นˆํ‹ˆ์„ ์ฐพ์•„๋‚ด๊ณ  ์ˆ˜์ •ํ•˜๊ฒŒ ํ•จ์œผ๋กœ์จ, ๋‹จ์ˆœํ•œ ์ถ”์ธก์ด ์•„๋‹Œ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ์—„๊ฒฉํ•œ ์ฆ๋ช…์„ ์ž‘์„ฑํ•˜๋„๋ก ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค.

  4. Test-time Scaling (์ถ”๋ก  ์‹œ๊ฐ„ ํ™•์žฅ): ์‹œ๊ฐ„ ๋ฌด์ œํ•œ ๋„์ „ ๋งˆ์ง€๋ง‰์œผ๋กœ ์‹ค์ œ ๋‚œ์ œ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ๋ชจ๋ธ์—๊ฒŒ ์‹œ๊ฐ„ ์ œํ•œ ์—†์ด ์Šค์Šค๋กœ ์ƒ๊ฐ์„ ์ˆ˜์ •ํ•  ๊ธฐํšŒ๋ฅผ ์ค๋‹ˆ๋‹ค. โ€œ์ผ๋‹จ ํ•ด๊ฒฐํ•ด โ†’ ๊ฒ€์ฆํ•ด โ†’ ํ‹€๋ฆฐ ๋ถ€๋ถ„ ๊ณ ์ณโ€์˜ ๊ณผ์ •์„ 10๋งŒ ํ† ํฐ์ด ๋„˜๋Š” ๊ธด ์ƒ๊ฐ์˜ ํ๋ฆ„์œผ๋กœ ๋ฐ˜๋ณตํ•˜๊ฒŒ ํ•˜์—ฌ, ์ธ๊ฐ„์ด ๋ฉฐ์น ์„ ๊ณ ๋ฏผํ•ด์•ผ ํ•  ๋ฌธ์ œ๋ฅผ ์ง‘์š”ํ•˜๊ฒŒ ํŒŒ๊ณ ๋“ค์–ด ํ•ด๊ฒฐํ•˜๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ๋ฐฉ์‹

๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” SU-01 ๋ชจ๋ธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํŒŒ์ดํ”„๋ผ์ธ์„ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค.

  • 1๋‹จ๊ณ„: SFT (๊ฑฐ์‹œ์  ์‚ฌ๊ณ  ํ™•๋ฆฝ) ์•ฝ 34๋งŒ ๊ฐœ์˜ ์งง์€ ํ† ํฐ ๊ถค์  ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์ด ์ฆ๋ช… ๊ฒ€์ƒ‰(Proof-search)๊ณผ ์ž๊ธฐ ๊ฒ€์‚ฌ(Self-checking)์˜ ๊ธฐ๋ณธ ํŒจํ„ด์„ ์ตํžˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
  • 2๋‹จ๊ณ„: Coarse RL (ํ•ด๋‹ต ํƒ์ƒ‰ ๋Šฅ๋ ฅ ํ™•์žฅ) ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ(Verifiable rewards)์„ ํ†ตํ•ด ๋ชจ๋ธ์ด ์ •๋‹ต์„ ์ฐพ์•„๊ฐ€๋Š” ํƒ์ƒ‰ ๋Šฅ๋ ฅ์„ ๊ทน๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹ค.
  • 3๋‹จ๊ณ„: Refined RL (์ฆ๋ช… ํ’ˆ์งˆ ์ •์ œ) ๋‹จ์ˆœ ์ •๋‹ต ์—ฌ๋ถ€๋ฅผ ๋„˜์–ด, ์ฆ๋ช… ๊ณผ์ •์ด ์–ผ๋งˆ๋‚˜ ์—„๋ฐ€ํ•œ์ง€(Rigor)๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์„ธ๋ฐ€ํ•œ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•ด ๋…ผ๋ฆฌ์  ์™„๊ฒฐ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.
  • 4๋‹จ๊ณ„: TTS (์ถ”๋ก  ์‹œ๊ฐ„ ์Šค์ผ€์ผ๋ง) ์‹ค์ œ ๋ฌธ์ œ ํ’€์ด ์‹œ์ ์— ๋ชจ๋ธ์ด ์ž์‹ ์˜ ๋‹ต์•ˆ์„ ์Šค์Šค๋กœ ๋น„ํŒํ•˜๊ณ  ์ˆ˜์ •ํ•˜๋Š” ๋ฐ˜๋ณต ๋ฃจํ”„(Self-verification and refinement loop)๋ฅผ ๋Œ๋ ค ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ฆฝ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์–ด๋–ค ๋ฒค์น˜๋งˆํฌ์—์„œ ํ…Œ์ŠคํŠธํ–ˆ๋‚˜?

์ด ๋…ผ๋ฌธ์€ ์ธ๊ณต์ง€๋Šฅ ์ˆ˜ํ•™ ๋Šฅ๋ ฅ์˜ ๊ฐ€์žฅ ์–ด๋ ค์šด ์‹œํ—˜์žฅ์œผ๋กœ ๋ถˆ๋ฆฌ๋Š” ๊ตญ์ œ ์ˆ˜ํ•™ ์˜ฌ๋ฆผํ”ผ์•„๋“œ(International Mathematical Olympiad, IMO)์™€ ๊ตญ์ œ ๋ฌผ๋ฆฌ ์˜ฌ๋ฆผํ”ผ์•„๋“œ(International Physics Olympiad, IPhO) ๋ฌธ์ œ๋ฅผ ์ฃผ ๋ฒค์น˜๋งˆํฌ๋กœ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ตœ๊ทผ ๋ฌธ์ œ์ธ IMO 2025์™€ IPhO 2025 ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•˜์—ฌ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด ์ตœ์ฒจ๋‹จ(SOTA) ๋Œ€๋น„ ์–ผ๋งˆ๋‚˜ ์ข‹์•„์กŒ๋‚˜?

๋…ผ๋ฌธ์˜ ์ œ๋ชฉ์ฒ˜๋Ÿผ ๊ฒฐ๊ณผ๋Š” โ€˜๊ธˆ๋ฉ”๋‹ฌ ์ˆ˜์ค€โ€™์ž…๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์ธ ์ตœ์‹  ๋ชจ๋ธ๋“ค์ด ๋‹จ์ผ ๋‹ต์•ˆ ์ƒ์„ฑ(Single-pass)์œผ๋กœ๋Š” ์ด๋Ÿฌํ•œ ๋‚œ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜์ง€ ๋ชปํ•˜๊ฑฐ๋‚˜ ๋…ผ๋ฆฌ์  ์˜ค๋ฅ˜๊ฐ€ ๋งŽ์€ ๋ฐ˜๋ฉด, SU-01์€ ์ œ์•ˆ๋œ ํŒŒ์ดํ”„๋ผ์ธ์„ ํ†ตํ•ด ์••๋„์ ์ธ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋…ผ๋ฌธ์€ ๋‹จ์ˆœํžˆ ๋‹ต์„ ๋งžํžˆ๋Š” ๊ฒƒ์„ ๋„˜์–ด, ์ฑ„์ ๊ด€์˜ ์—„๊ฒฉํ•œ ๊ฒ€์ฆ๋„ ๊ฒฌ๋ŽŒ๋‚ด๋Š” ์™„๋ฒฝํ•œ ์ฆ๋ช…(Proof)์„ ์ž‘์„ฑํ–ˆ๋‹ค๋Š” ์ ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

๊ฐ€์žฅ ์ธ์ƒ์ ์ธ ๋ถ€๋ถ„์€ ์žฅ๊ธฐ๊ฐ„์˜ ์•ˆ์ •์ ์ธ ์ถ”๋ก  ๋Šฅ๋ ฅ์ž…๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ์€ ๊ธด ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ• ์ˆ˜๋ก ๋…ผ๋ฆฌ๊ฐ€ ํ๋ ค์ง€๋Š” โ€˜ํ™˜๊ฐ ํ˜„์ƒโ€™์ด ๋ฐœ์ƒํ•˜๊ธฐ ์‰ฝ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ SU-01์€ ํ…Œ์ŠคํŠธ ์‹œ๊ฐ„ ์Šค์ผ€์ผ๋ง(Test-time Scaling)์„ ํ†ตํ•ด 10๋งŒ ํ† ํฐ ์ด์ƒ์˜ ๊ธด ์ถ”๋ก  ๊ถค์ (Trajectory)์—์„œ๋„ ๋…ผ๋ฆฌ์˜ ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๋ฉฐ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ธ๊ฐ„์ด ๋ฉฐ์น ๊ฐ„ ๊ณ ๋ฏผํ•˜์—ฌ ๋ฐฉ์ •์‹์„ ์—ฌ๋Ÿฌ ๊ฐœ ๋‚˜์—ดํ•˜๊ณ  ๊ฒ€์ฆํ•˜๋Š” ๊ณผ์ •๊ณผ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค.


4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„

์ด ์ ‘๊ทผ๋ฒ•์€ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ, โ€˜Test-time Scalingโ€™ ๊ณผ์ •์—์„œ ์—„์ฒญ๋‚œ ์–‘์˜ ์ถ”๋ก  ์—ฐ์‚ฐ ๋น„์šฉ(Compute)์ด ์†Œ๋ชจ๋ฉ๋‹ˆ๋‹ค. 10๋งŒ ํ† ํฐ ์ด์ƒ์„ ์ƒ๊ฐํ•˜๋Š” ๊ณผ์ •์€ ์‹ค์‹œ๊ฐ„ ์‘๋‹ต์ด ํ•„์š”ํ•œ ์„œ๋น„์Šค์—๋Š” ๋น„ํšจ์œจ์ ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, RL(๊ฐ•ํ™” ํ•™์Šต) ๊ณผ์ •์ด โ€˜๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ(Verifiable)โ€™ ์ˆ˜ํ•™ ๋ฌธ์ œ์— ํฌ๊ฒŒ ์˜์กดํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์ •๋‹ต์ด ๋ช…ํ™•ํ•˜์ง€ ์•Š์€ ๊ฐœ๋ฐฉํ˜• ๊ณผํ•™ ๋ฌธ์ œ๋กœ์˜ ์ผ๋ฐ˜ํ™”์—๋Š” ์ถ”๊ฐ€์ ์ธ ๊ณ ๋ฏผ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅํ•œ ์ 

ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ์ถ”๋ก  ์‹œ๊ฐ„์— ๋“œ๋Š” ๋ง‰๋Œ€ํ•œ ๋น„์šฉ์„ ์ค„์ด๋ฉด์„œ๋„ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋Š” ํšจ์œจ์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๊ฐœ๋ฐœ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ˆ˜ํ•™๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ •๋‹ต์ด ์• ๋งคํ•œ ์ฒ ํ•™์ด๋‚˜ ๋ณต์žกํ•œ ์‚ฌํšŒ ๊ณผํ•™ ๋ฌธ์ œ๊นŒ์ง€๋„ ์ด โ€˜๊ฒ€์ฆ-์ˆ˜์ •โ€™ ๋ฃจํ”„๋ฅผ ์–ด๋–ป๊ฒŒ ์ ์šฉํ• ์ง€์— ๋Œ€ํ•œ ์—ฐ๊ตฌ๊ฐ€ ์ด์–ด์งˆ ๊ฒƒ์ž…๋‹ˆ๋‹ค.


5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์–ด๋””์— ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ• ๊นŒ?

๊ฐ€์žฅ ๋จผ์ € ์ ์šฉ๋  ๊ณณ์€ ์ˆ˜ํ•™ ๊ต์œก์šฉ ํŠœํ„ฐ๋ง ์‹œ์Šคํ…œ๊ณผ **์ž๋™ํ™”๋œ ์ •๋ฆฌ ์ฆ๋ช…๊ธฐ(Automated Theorem Prover)**์ž…๋‹ˆ๋‹ค. ๋‹จ์ˆœํžˆ ๋‹ต๋งŒ ์•Œ๋ ค์ฃผ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ํ•™์ƒ์ด ํ‹€๋ฆฐ ๋…ผ๋ฆฌ๋ฅผ ์ •ํ™•ํžˆ ์งš์–ด์ฃผ๊ณ  ๋‹จ๊ณ„์ ์œผ๋กœ ์ฆ๋ช… ๊ณผ์ •์„ ์ด๋Œ์–ด์ฃผ๋Š” ๊ณ ๊ธ‰ ๊ต์œก ์‹œ์Šคํ…œ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์†Œํ”„ํŠธ์›จ์–ด ๊ฒ€์ฆ ๋ถ„์•ผ์—์„œ ๋ณต์žกํ•œ ์ฝ”๋“œ์˜ ๋…ผ๋ฆฌ์  ๊ฒฐํ•จ์„ ์ฐพ์•„๋‚ด๋Š” ๋ฒ„๊ทธ ํ—ŒํŒ… ํˆด๋กœ๋„ ํ™œ์šฉ ๊ฐ€๋Šฅํ•ด ๋ณด์ž…๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค (GPU, ๋ฐ์ดํ„ฐ ๋“ฑ)

์ด ๋ชจ๋ธ์„ ์‹ค์ œ๋กœ ๊ตฌ๋™ํ•˜๋ ค๋ฉด ์ƒ๋‹นํ•œ ํ•˜๋“œ์›จ์–ด ์ž์›์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. 30B(300์–ต) ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๊ณ , ํŠนํžˆ 10๋งŒ ํ† ํฐ ์ด์ƒ์˜ ๊ธด ๋ฌธ๋งฅ(Context Window)์„ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ฒ˜๋ฆฌํ•ด์•ผ ํ•˜๋ฏ€๋กœ, ๊ณ ์‚ฌ์–‘์˜ GPU(A100์ด๋‚˜ H100 ํด๋Ÿฌ์Šคํ„ฐ)์™€ ๋ฐฉ๋Œ€ํ•œ ๊ณ ๊ธ‰ ์ˆ˜ํ•™ ๋ฐ์ดํ„ฐ์…‹(AoPS, ์˜ฌ๋ฆผํ”ผ์•„๋“œ ๊ธฐ์ถœ๋ฌธ์ œ ๋“ฑ)์ด ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค. ์Šคํƒ€ํŠธ์—…์ด๋‚˜ ๊ฐœ์ธ ๊ฐœ๋ฐœ์ž๊ฐ€ ๊ฐ€๋ณ๊ฒŒ ์ ‘๊ทผํ•˜๊ธฐ์—๋Š” ํ˜„์žฌ๋กœ์„œ๋Š” ์ง„์ž… ์žฅ๋ฒฝ์ด ๋†’์Šต๋‹ˆ๋‹ค.


6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • SFT (Supervised Fine-Tuning): ๋ชจ๋ธ์—๊ฒŒ ์ •๋‹ต์ด ํฌํ•จ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์‚ฌ๋žŒ์ด ์›ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ถœ๋ ฅํ•˜๋„๋ก ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
  • RL (Reinforcement Learning): ๋ชจ๋ธ์ด ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ํ†ตํ•ด ํ–‰๋™์„ ํ•™์Šตํ•˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹์˜ ํ•œ ์ข…๋ฅ˜๋กœ, ์˜ฌ๋ฐ”๋ฅธ ํ–‰๋™์—๋Š” ๋ณด์ƒ์„, ํ‹€๋ฆฐ ํ–‰๋™์—๋Š” ๋ฒŒ์น™์„ ์ฃผ์–ด ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
  • Test-time Scaling: ๋ชจ๋ธ์˜ ํ•™์Šต๋œ ์ง€๋Šฅ์€ ๊ทธ๋Œ€๋กœ ๋‘๊ณ , ์‹ค์ œ๋กœ ๋‹ต์„ ์ƒ์„ฑํ•  ๋•Œ ๋” ๋งŽ์€ ์‹œ๊ฐ„๊ณผ ๊ณ„์‚ฐ ์ž์›์„ ํˆฌ์žํ•˜์—ฌ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
  • Chain-of-Thought (CoT): ๋ชจ๋ธ์ด ๋‹ต์„ ๋ฐ”๋กœ ๋งํ•˜๋Š” ๋Œ€์‹ , ๋‹จ๊ณ„๋ณ„๋กœ ์ƒ๊ฐ์˜ ๊ณผ์ •์„ ์„œ์ˆ ํ•˜์—ฌ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ํ”„๋กฌํ”„ํŒ… ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
  • Verifiable Rewards: ๋ชจ๋ธ์˜ ๋‹ต์ด ๋งž์•˜๋Š”์ง€ ํ‹€๋ ธ๋Š”์ง€๋ฅผ ์ž๋™์œผ๋กœ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋Š” ํ™•์‹คํ•œ ๊ธฐ์ค€(์˜ˆ: ์ˆ˜ํ•™ ๋ฌธ์ œ์˜ ์ตœ์ข… ๋‹ต)์„ ํ†ตํ•ด ์ฃผ๋Š” ๋ณด์ƒ์ž…๋‹ˆ๋‹ค.
  • Perplexity (PPL): ์–ธ์–ด ๋ชจ๋ธ์ด ํ…์ŠคํŠธ๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ์˜ˆ์ธกํ•˜๋Š”์ง€ ๋‚˜ํƒ€๋‚ด๋Š” ์ฒ™๋„๋กœ, ๋‚ฎ์„์ˆ˜๋ก ๋ชจ๋ธ์ด ํ•ด๋‹น ํ…์ŠคํŠธ๋ฅผ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ดํ•ดํ•˜๊ณ  ์žˆ๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค.
  • Reasoning Backbone: ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ˜ ๊ธฐ๋ณธ์ ์ธ ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡MinT: Managed Infrastructure for Trโ€ฆDD-087
๐ŸฅˆMean Mode Screaming: Meanโ€”Varianceโ€ฆDD-088
๐Ÿฅ‰SenseNova-U1: Unifying Multimodal Uโ€ฆDD-089
4.MemPrivacy: Privacy-Preserving Persโ€ฆDD-090
5.Achieving Gold-Medal-Level Olympiadโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-05-17 | ๐Ÿค– GLM-4.7 Deep Dive