โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-094 Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

arXiv: 2605.11609 ๊ธฐ๊ด€: rednote-hilab Upvotes: 189 | Comments: 4 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 3



๋…ผ๋ฌธ ๋ฆฌ๋ทฐ: Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ์˜จํด๋ฆฌ์‹œ ์ž๊ธฐ ์ฆ๋ฅ˜(On-policy Self-Distillation) ๋ฐฉ์‹์€ ๋ชจ๋ธ์ด ์ •๋‹ต(ํŠน๊ถŒ์  ๋งฅ๋ฝ)์„ ๋ณด๊ณ  ํ•™์Šตํ•  ๋•Œ, ์ •๋‹ต์—์„œ ์•”์‹œ๋˜๋Š” ์‰ฌ์šด ๋‹จ์–ด๋งŒ ๊ณจ๋ผ ๋‚ด๋Š” โ€˜์š”๋ น ํ”ผ์šฐ๊ธฐโ€™ ํ˜„์ƒ์„ ๋ง‰์ง€ ๋ชปํ•ด ์ˆ˜ํ•™ ์ถ”๋ก  ์„ฑ๋Šฅ์ด ์ €์กฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์ด ๋ฌธ์ œ๋ฅผ ์ˆ˜ํ•™์ ์œผ๋กœ ๋ถ„์„ํ•˜์—ฌ, ํ•™์ƒ ๋ชจ๋ธ์ด ๊ต์‚ฌ ๋ชจ๋ธ(์ž๊ธฐ ์ž์‹ )์˜ ํ™•์‹ ์„ ๋ฏฟ์ง€ ์•Š๊ณ  ์˜คํžˆ๋ ค ๋ฐ˜๋Œ€ ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šตํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” โ€˜๋ฐ˜๋Œ€ ์ž๊ธฐ ์ฆ๋ฅ˜(Anti-Self-Distillation)โ€™ ๊ธฐ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์™ธ๋ถ€์˜ ๊ฐ•๋ ฅํ•œ ๊ต์‚ฌ ๋ชจ๋ธ ์—†์ด๋„ ๋ชจ๋ธ ์ž์‹ ์˜ ๋ฐ์ดํ„ฐ๋กœ ํšจ์œจ์ ์œผ๋กœ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ทน๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ๊ธธ์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€˜์ •๋‹ต์ง€๋ฅผ ๋ณด๊ณ  ๊ณต๋ถ€ํ•˜๋Š” ํ•™์ƒโ€™์˜ ๋”œ๋ ˆ๋งˆ

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ์ƒํ™ฉ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ํ•œ ํ•™์ƒ(๋ชจ๋ธ)์ด ์–ด๋ ค์šด ์ˆ˜ํ•™ ๋ฌธ์ œ๋ฅผ ํ’€๊ณ  ์žˆ๋Š”๋ฐ, ์˜†์— ์ •๋‹ต์ง€(ํŠน๊ถŒ์  ๋งฅ๋ฝ, Privileged Context)๊ฐ€ ํŽผ์ณ์ ธ ์žˆ๋‹ค๊ณ  ์ƒ์ƒํ•ด ๋ณด์„ธ์š”.

  • ๊ธฐ์กด ์ž๊ธฐ ์ฆ๋ฅ˜(Self-Distillation)์˜ ์‹คํŒจ: ํ•™์ƒ์€ ์ •๋‹ต์ง€๋ฅผ ๋ณด๊ณ  ํ’€ ๋•Œ, ์ •๋‹ต์ง€์— ๋‚˜์˜จ ๋‹จ์–ด๋“ค(์˜ˆ: โ€œ๋”ฐ๋ผ์„œโ€, โ€œ์ •๋‹ต์€ 5โ€)์„ ๊ทธ๋Œ€๋กœ ๋”ฐ๋ผ ์“ฐ๋ ค๊ณ ๋งŒ ํ•ฉ๋‹ˆ๋‹ค. ๋ณต์žกํ•œ ๊ณ ๋ฏผ(์˜ˆ: โ€œ์ž ๊น, ์ด ๋ถ€๋ถ„์€ ๊ณต์‹์„ ๋ฐ”๊ฟ”์•ผ ํ• ๊นŒ?โ€œ)์€ ์ƒ๋žตํ•ด๋ฒ„๋ฆฌ๊ณ  ์ •๋‹ต์ง€์˜ ํ๋ฆ„์— ๋งž์ถฐ ๋‹ต๋งŒ ๋งž์ถ”๋ ค ๋…ธ๋ ฅํ•˜์ฃ . ๊ฒฐ๊ณผ์ ์œผ๋กœ ์‹œํ—˜ ์น˜๋Š” ๋‚ (์ •๋‹ต์ง€๊ฐ€ ์—†๋Š” ๋‚ ) ๊ณ ๋ฏผํ•˜๋Š” ํž˜์ด ๊ธฐ๋ฅด์ง€ ์•Š์•„ ๋งํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์ด๋ฅผ โ€˜๊ตฌ์กฐ์  ์ง€๋ฆ„๊ธธ ํŽธํ–ฅ(Structural Shortcut Bias)โ€˜์ด๋ผ๊ณ  ๋ถ€๋ฆ…๋‹ˆ๋‹ค.

  • ๋ฐ˜๋Œ€ ์ž๊ธฐ ์ฆ๋ฅ˜(Anti-Self-Distillation)์˜ ํ•ด๊ฒฐ์ฑ…: ์ด ๋…ผ๋ฌธ์˜ ๋ฐฉ์‹์€ ์„ ์ƒ๋‹˜์ด ํ•™์ƒ์—๊ฒŒ ์ด๋ ‡๊ฒŒ ๋งํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. โ€œ์ •๋‹ต์ง€๋ฅผ ๋ณด๋˜, ์ •๋‹ต์ง€์— ๋„ˆ๋ฌด ํ™•์‹ ํ•˜๋Š” ๋ถ€๋ถ„์ด ๋‚˜์˜ค๋ฉด ์ผ๋ถ€๋Ÿฌ ๊ทธ ํ™•์‹ ์„ ์˜์‹ฌํ•˜๊ณ  ๋‹ค๋ฅธ ๋‹จ์–ด๋ฅผ ์จ๋ด. ์ •๋‹ต์ง€์—์„œ ๋‹ค์Œ ๋‹จ์–ด๊ฐ€ ๋„ˆ๋ฌด ๋ป”ํ•˜๊ฒŒ ๋ณด์ธ๋‹ค๋ฉด ๊ทธ๊ฑด ๋„ค๊ฐ€ ์ถ”๋ก ํ•œ ๊ฒŒ ์•„๋‹ˆ๋ผ ๋ˆˆ์น˜๊ป ์“ด ๊ฑฐ๋‹ˆ๊นŒ ๋” ๊นŠ์ด ๊ณ ๋ฏผํ•ด์•ผ ํ•ด.โ€

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

  1. ๋ฌธ์ œ ์ธ์‹ (PMI ๋ถ„์„): ์ €์ž๋“ค์€ โ€˜์ ๋ณ„ ์ƒํ˜ธ ์ •๋ณด๋Ÿ‰(Pointwise Mutual Information)โ€˜์ด๋ผ๋Š” ๋„๊ตฌ๋กœ ๊ธฐ์กด ๋ฐฉ์‹์ด ์™œ ์‹คํŒจํ•˜๋Š”์ง€ ์ฆ๋ช…ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ถ„์„ ๊ฒฐ๊ณผ, ์ •๋‹ต์ง€๊ฐ€ ์ฃผ์–ด์ง€๋ฉด ๋ชจ๋ธ์€ ๋ฌธ์žฅ์„ ์ž‡๋Š” ์ ‘์†์‚ฌ(therefore, because)๋‚˜ ์ด๋ฏธ ๊ฒ€์ฆ๋œ ์ฃผ์žฅ์—๋Š” ์ง€๋‚˜์น˜๊ฒŒ ํ™•์‹ ์„ ๊ฐ–๊ณ , ์ง„์งœ ์ถ”๋ก ์ด ํ•„์š”ํ•œ ๋‹จ์–ด(Wait, Maybe ๋“ฑ)์—๋Š” ํ™•์‹ ์„ ๋‚ฎ์ถ”๋Š” ๋ฒ„๋ฆ‡์ด ์ƒ๊น๋‹ˆ๋‹ค.
  2. ์—ญ๋ฐœ์ƒ (Gradient Ascent): ์ผ๋ฐ˜์ ์œผ๋กœ ๋”ฅ๋Ÿฌ๋‹์€ ์˜ค์ฐจ๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด(Gradient Descent) ํ•™์Šตํ•˜์ง€๋งŒ, ์ด ๋ฐฉ์‹์€ ํ•™์ƒ๊ณผ ๊ต์‚ฌ ๊ฐ„์˜ ์ฐจ์ด(Divergence)๋ฅผ ์ผ๋ถ€๋Ÿฌ ํ‚ค์šฐ๋Š” ๋ฐฉํ–ฅ(Gradient Ascent)์œผ๋กœ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ๊ต์‚ฌ๊ฐ€ โ€œ์ด ๋‹จ์–ด๊ฐ€ 90% ํ™•๋ฅ ๋กœ ์ •๋‹ต์ด์•ผ!โ€๋ผ๊ณ  ํ•  ๋•Œ, ํ•™์ƒ์€ โ€œ๊ทธ ํ™•์‹ ์— ํœ˜๋‘˜๋ฆฌ์ง€ ๋ง๊ณ  ๋‚˜๋งŒ์˜ ํ™•๋ฅ ์„ ๋‹ค์‹œ ๊ณ„์‚ฐํ•ด๋ณด์žโ€๋Š” ์‹์ด์ฃ .
  3. ์•ˆ์ „์žฅ์น˜ (Entropy Gate): ํ•˜์ง€๋งŒ ๋ฌด์ž‘์ • ๋ฐ˜๋Œ€๋กœ ํ•˜๋ฉด ๋ง์ƒ์„ ์ผ์œผํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ ๊ต์‚ฌ ๋ชจ๋ธ์˜ ์—”ํŠธ๋กœํ”ผ(๋ถˆํ™•์‹ค์„ฑ)๊ฐ€ ๋ฐ”๋‹ฅ์œผ๋กœ ๋–จ์–ด์ ธ(์ฆ‰, ๋„ˆ๋ฌด ๋ป”ํ•œ ๋‹จ์–ด๋ผ๋ฉด) AntiSD ๊ธฐ๋Šฅ์„ ๊บผ๋ฒ„๋ฆฌ๋Š” ์Šค์œ„์น˜(Entropy Gate)๋ฅผ ๋‹ฌ์•„๋‘ก๋‹ˆ๋‹ค. ์ง„์งœ ๊ณ ๋ฏผ์ด ํ•„์š”ํ•œ ์ˆœ๊ฐ„์—๋งŒ โ€˜๋ฐ˜๋Œ€ ํ–‰๋™โ€™์„ ์ทจํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์ˆ˜์‹ ๋ฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜

๊ธฐ์กด ๋ฐฉ์‹์€ ํ•™์ƒ(S)์ด ๊ต์‚ฌ(T)๋ฅผ ๋”ฐ๋ผ๊ฐ€๊ฒŒ ํ•˜๊ธฐ ์œ„ํ•ด KL ๋ฐœ์‚ฐ(Divergence)์„ ์ค„์ด์ง€๋งŒ($\min D_{KL}$), AntiSD๋Š” Jensen-Shannon ๋ฐœ์‚ฐ์„ ๋Š˜๋ฆฝ๋‹ˆ๋‹ค($\max JS$). ์—ฌ๊ธฐ์— ํ•ต์‹ฌ ์ œ์–ด ์žฅ์น˜์ธ ์—”ํŠธ๋กœํ”ผ ๊ฒŒ์ดํŠธ(Gate)๊ฐ€ ์ถ”๊ฐ€๋ฉ๋‹ˆ๋‹ค.

  • ๋งŒ์•ฝ ๊ต์‚ฌ์˜ ์—”ํŠธ๋กœํ”ผ($H$)๊ฐ€ ์ž„๊ณ„๊ฐ’($\tau$)๋ณด๋‹ค ๋‚ฎ๋‹ค๋ฉด(ํ™•์‹ ์ด ๋†’๋‹ค๋ฉด): ๊ฒŒ์ดํŠธ ๋‹ซํž˜ (AntiSD ์ •์ง€, ๋‹จ์ˆœ ๋ชจ๋ฐฉ ํ—ˆ์šฉ)
  • ๋งŒ์•ฝ ๊ต์‚ฌ์˜ ์—”ํŠธ๋กœํ”ผ($H$)๊ฐ€ ์ž„๊ณ„๊ฐ’($\tau$)๋ณด๋‹ค ๋†’๋‹ค๋ฉด(๊ณ ๋ฏผ์ด ํ•„์š”ํ•˜๋‹ค๋ฉด): ๊ฒŒ์ดํŠธ ์—ด๋ฆผ (AntiSD ์ž‘๋™, ์ฐจ์ด ๋ฒŒ๋ฆฌ๊ธฐ)

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

ํ…Œ์ŠคํŠธ ๋ฒค์น˜๋งˆํฌ

์—ฐ๊ตฌ์ง„์€ ์ˆ˜ํ•™ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ€์žฅ ๋‚œ์ด๋„๊ฐ€ ๋†’์€ ๋ฒค์น˜๋งˆํฌ๋“ค์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.

  • AIME (American Invitational Mathematics Examination): 2024, 2025, 2026๋…„๋„ ๋ฌธ์ œ (๋ฏธ๊ตญ ๊ณ ๊ต์ƒ ๋Œ€์ƒ ์ตœ์ƒ์œ„ ๋‚œ์ด๋„ ์ˆ˜ํ•™ ๊ฒฝ์‹œ๋Œ€ํšŒ)
  • HMMT (Harvard MIT Math Tournament): 2025๋…„๋„ ๋ฌธ์ œ
  • MinervaMath: ๋Œ€๊ทœ๋ชจ ์ˆ˜ํ•™ ๋ฐ์ดํ„ฐ์…‹

๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ์„ฑ๋Šฅ (์ˆ˜์น˜)

Qwen3-8B ๋ชจ๋ธ์„ ๊ธฐ์ค€์œผ๋กœ ๋ณธ ๊ฒฐ๊ณผ๋Š” ์ถฉ๊ฒฉ์ ์ž…๋‹ˆ๋‹ค.

  • ๊ธฐ๋ณธ ๋ชจ๋ธ (Base): ์ •๋‹ต๋ฅ  22.7%
  • ๊ธฐ์กด RL ๋ฐฉ์‹ (+GRPO): ์ •๋‹ต๋ฅ  57.4% (ํฐ ํ–ฅ์ƒ)
  • ๊ธฐ์กด ์ž๊ธฐ ์ฆ๋ฅ˜ (+SD): ์ •๋‹ต๋ฅ  30.6% (์˜คํžˆ๋ ค GRPO๋ณด๋‹ค ๋ชปํ•จ, ์š”๋ น ํ”ผ์šฐ๊ธฐ ์‹คํŒจ)
  • Anti-Self-Distillation (+AntiSD): ์ •๋‹ต๋ฅ  65.7% (๊ธฐ์กด ์ตœ๊ณ ๋ฐฉ๋ฒ•์ธ GRPO๋ณด๋‹ค๋„ ์•ฝ 8% ์ด์ƒ ์ƒ์Šน)

ํŠนํžˆ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์ ์€ ํ•™์Šต ์†๋„์ž…๋‹ˆ๋‹ค. AntiSD๋Š” GRPO ๋ฐฉ์‹์ด ์ตœ๊ณ  ์„ฑ๋Šฅ์— ๋„๋‹ฌํ•˜๋Š” ๋ฐ 200๋‹จ๊ณ„๊ฐ€ ๊ฑธ๋ฆฐ๋‹ค๋ฉด, ๋ถˆ๊ณผ 20~40๋‹จ๊ณ„ ๋งŒ์— ๊ฐ™์€ ์„ฑ๋Šฅ์„ ๋ƒˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ•™์Šต ํšจ์œจ์ด ์ตœ๋Œ€ 10๋ฐฐ ์ด์ƒ ๋†’๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. 30B ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ์—์„œ๋„ ์ตœ๋Œ€ 11.5ํฌ์ธํŠธ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

ํ•œ๊ณ„์ 

  • ๊ฒŒ์ดํŠธ ์„ค์ •์˜ ๋ฏผ๊ฐ์„ฑ: ๋…ผ๋ฌธ์—์„œ๋Š” ์—”ํŠธ๋กœํ”ผ ๊ฒŒ์ดํŠธ์˜ ์ž„๊ณ„๊ฐ’์„ ์ž๋™์œผ๋กœ ๋ณด์ •(Auto-calibrated)ํ•œ๋‹ค๊ณ  ํ•˜์ง€๋งŒ, ์™„๋ฒฝํ•˜๊ฒŒ ์ž๋™ํ™”๋˜์—ˆ๋‹ค๊ธฐ๋ณด๋‹ค๋Š” ์ดˆ๊ธฐ ์›Œ๋ฐ์—… ๋‹จ๊ณ„(Warm-up)๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์™„์ „ํžˆ ์ƒˆ๋กœ์šด ๋„๋ฉ”์ธ์— ์ ์šฉํ•  ๋•Œ ์ด ์„ค์ •์ด ์–ด๋–ป๊ฒŒ ๋™์ž‘ํ• ์ง€ ์ถ”๊ฐ€ ๊ฒ€์ฆ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  • ๋น„์ˆ˜ํ•™์  ๊ณผ์ œ์—์„œ์˜ ๊ฒ€์ฆ: ์ด ๋…ผ๋ฌธ์€ ์ฃผ๋กœ ์ˆ˜ํ•™ ์ถ”๋ก (Math Reasoning)์— ์ง‘์ค‘ํ–ˆ์Šต๋‹ˆ๋‹ค. ์งˆ์˜์‘๋‹ต์ด๋‚˜ ๋„๊ตฌ ์‚ฌ์šฉ ๋“ฑ ๋‹ค๋ฅธ ์˜์—ญ์—์„œ โ€˜๋ฐ˜๋Œ€ ํ•™์Šตโ€™์ด ๊ธ์ •์ ์ธ ํšจ๊ณผ๋ฅผ ์ค„์ง€, ์•„๋‹ˆ๋ฉด ๋ฐฉํ•ด๊ฐ€ ๋ ์ง€๋Š” ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  • ์ด๋ก ์ ์ธ ๋ฐœ๊ฒฌ์ธ PMI ๋ถ„์„์„ ๋ฐ”ํƒ•์œผ๋กœ, ๋‹จ์ˆœํžˆ โ€˜๋ฐ˜๋Œ€โ€™๋กœ ๊ฐ€๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ํŠน์ • ํ† ํฐ(์˜ˆ: ์ถ”๋ก ์„ ์œ ๋„ํ•˜๋Š” ํ† ํฐ)์— ๋” ์ •๊ตํ•œ ๊ฐ€์ค‘์น˜๋ฅผ ์ฃผ๋Š” ๋ฐฉ์‹์œผ๋กœ ๋ฐœ์ „ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋‹ค๋ฅธ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ(์˜ˆ: ์ฝ”๋“œ ์ƒ์„ฑ, ๋…ผ๋ฆฌ์  ์‚ฌ๊ณ ๊ฐ€ ํ•„์š”ํ•œ ๋ฒ•๋ฅ  ๋ถ„์„ ๋“ฑ)์œผ๋กœ ํ™•์žฅํ•˜์—ฌ ์ ์šฉํ•ด ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๊ณณ

  • ์ˆ˜ํ•™ ๋ฌธ์ œ ํ’€์ด AI ์„œ๋น„์Šค: ๋ณต์žกํ•œ ์ถ”๋ก ์ด ํ•„์š”ํ•œ ์ˆ˜ํ•™ ํŠœํ„ฐ๋ง ๋ด‡์ด๋‚˜ ๊ต์œก์šฉ LLM์„ ํ•™์Šต์‹œํ‚ฌ ๋•Œ ์ฆ‰์‹œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ฝ”๋“œ ์ƒ์„ฑ ๋ฐ ๋””๋ฒ„๊น…: ๋ณต์žกํ•œ ๋…ผ๋ฆฌ ํ๋ฆ„์ด ํ•„์š”ํ•œ ์ฝ”๋”ฉ ๊ณผ์ œ์—์„œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋†’์ด๋Š” ๋ฐ ์‘์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

  • GPU: Qwen3๋‚˜ Olmo ๊ฐ™์€ 7B30B ํฌ๊ธฐ์˜ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋ ค๋ฉด ์ตœ์†Œ A100 80GB 48์žฅ ์ด์ƒ์˜ ํด๋Ÿฌ์Šคํ„ฐ ํ™˜๊ฒฝ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ: ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ์ •๋‹ต(Verifiable Solution)์ด ์žˆ๋Š” ๊ณ ํ’ˆ์งˆ ์ˆ˜ํ•™ ํ˜น์€ ์ฝ”๋”ฉ ๋ฐ์ดํ„ฐ์…‹(์˜ˆ: GSM8K, MATH, LeetCode ๋“ฑ)์ด ํ•„์ˆ˜์ž…๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์ •๋‹ต์ง€(Privileged Context)๋ฅผ ํ•™์Šต ์‹œ์ ์— ํ™œ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • ๊ฐ•ํ™” ํ•™์Šต(Reinforcement Learning): ์—์ด์ „ํŠธ๊ฐ€ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ํ•™์Šตํ•˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹์˜ ํ•œ ๋ถ„์•ผ์ž…๋‹ˆ๋‹ค.
  • ์ •์ฑ… ๊ทธ๋ผ๋””์–ธํŠธ(Policy Gradient): ์‹ ๊ฒฝ๋ง(์ •์ฑ…)์ด ํ–‰๋™์„ ์„ ํƒํ•  ํ™•๋ฅ ์„ ์ง์ ‘ ์ตœ์ ํ™”ํ•˜์—ฌ ๋ณด์ƒ์„ ๋†’์ด๋Š” ๊ฐ•ํ™” ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
  • ์ž๊ธฐ ์ฆ๋ฅ˜(Self-Distillation): ํฐ ๋ชจ๋ธ์ด๋‚˜ ๋” ๋‚˜์€ ์กฐ๊ฑด์˜ ๋ชจ๋ธ(๊ต์‚ฌ)์˜ ์ถœ๋ ฅ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋™์ผํ•œ ๊ตฌ์กฐ์˜ ๋ชจ๋ธ(ํ•™์ƒ)์„ ํ•™์Šต์‹œํ‚ค๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
  • KL ๋ฐœ์‚ฐ(KL Divergence): ๋‘ ํ™•๋ฅ  ๋ถ„ํฌ๊ฐ€ ์„œ๋กœ ์–ผ๋งˆ๋‚˜ ๋‹ค๋ฅธ์ง€๋ฅผ ์ธก์ •ํ•˜๋Š” ์ง€ํ‘œ๋กœ, ๋”ฅ๋Ÿฌ๋‹์—์„œ ๋‘ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์„ ์œ ์‚ฌํ•˜๊ฒŒ ๋งŒ๋“ค ๋•Œ ์ฃผ๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  • ์˜จํด๋ฆฌ์‹œ(On-policy): ํ˜„์žฌ ํ•™์Šตํ•˜๋ ค๋Š” ์ •์ฑ…(๋ชจ๋ธ)์ด ์ง์ ‘ ์ƒ์„ฑํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ”๋กœ ํ•™์Šต์„ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ฐฉ์‹์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  • ์—”ํŠธ๋กœํ”ผ(Entropy): ์ •๋ณด ์ด๋ก ์—์„œ ๋ถˆํ™•์‹ค์„ฑ์˜ ์ •๋„๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ฒ™๋„๋กœ, ํ™•๋ฅ  ๋ถ„ํฌ๊ฐ€ ํผ์ ธ ์žˆ์„์ˆ˜๋ก ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๋†’๊ณ  ํŠน์ • ๊ฐ’์— ์น˜์šฐ์ณ ์žˆ์„์ˆ˜๋ก ๋‚ฎ์Šต๋‹ˆ๋‹ค.
  • ์ ๋ณ„ ์ƒํ˜ธ ์ •๋ณด๋Ÿ‰(Pointwise Mutual Information): ๋‘ ์‚ฌ๊ฑด์ด ๋™์‹œ์— ๋ฐœ์ƒํ–ˆ์„ ๋•Œ, ํ•œ ์‚ฌ๊ฑด์ด ๋‹ค๋ฅธ ์‚ฌ๊ฑด์— ๋Œ€ํ•ด ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜๋Š”์ง€๋ฅผ ์ธก์ •ํ•˜๋Š” ๊ฐ’์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡CiteVQA: Benchmarking Evidence Attrโ€ฆDD-092
๐ŸฅˆCode as Agent HarnessDD-093
๐Ÿฅ‰Anti-Self-Distillation for Reasoninโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
4.DelTA: Discriminative Token Credit โ€ฆDD-095
5.TransitLM: A Large-Scale Dataset anโ€ฆDD-096

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-05-24 | ๐Ÿค– GLM-4.7 Deep Dive