โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-094 Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information
arXiv: 2605.11609 ๊ธฐ๊ด: rednote-hilab Upvotes: 189 | Comments: 4 ์์: ์ด๋ฒ ์ฃผ Top 3
๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ์จํด๋ฆฌ์ ์๊ธฐ ์ฆ๋ฅ(On-policy Self-Distillation) ๋ฐฉ์์ ๋ชจ๋ธ์ด ์ ๋ต(ํน๊ถ์ ๋งฅ๋ฝ)์ ๋ณด๊ณ ํ์ตํ ๋, ์ ๋ต์์ ์์๋๋ ์ฌ์ด ๋จ์ด๋ง ๊ณจ๋ผ ๋ด๋ โ์๋ น ํผ์ฐ๊ธฐโ ํ์์ ๋ง์ง ๋ชปํด ์ํ ์ถ๋ก ์ฑ๋ฅ์ด ์ ์กฐํ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ด ๋ฌธ์ ๋ฅผ ์ํ์ ์ผ๋ก ๋ถ์ํ์ฌ, ํ์ ๋ชจ๋ธ์ด ๊ต์ฌ ๋ชจ๋ธ(์๊ธฐ ์์ )์ ํ์ ์ ๋ฏฟ์ง ์๊ณ ์คํ๋ ค ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ํ์ตํ๊ฒ ๋ง๋๋ โ๋ฐ๋ ์๊ธฐ ์ฆ๋ฅ(Anti-Self-Distillation)โ ๊ธฐ๋ฒ์ ์ ์ํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ธ๋ถ์ ๊ฐ๋ ฅํ ๊ต์ฌ ๋ชจ๋ธ ์์ด๋ ๋ชจ๋ธ ์์ ์ ๋ฐ์ดํฐ๋ก ํจ์จ์ ์ผ๋ก ์ถ๋ก ๋ฅ๋ ฅ์ ๊ทน๋ํํ ์ ์๋ ๊ธธ์ ์ด์์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : โ์ ๋ต์ง๋ฅผ ๋ณด๊ณ ๊ณต๋ถํ๋ ํ์โ์ ๋๋ ๋ง
์ด ๋ ผ๋ฌธ์ ํต์ฌ ์ํฉ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. ํ ํ์(๋ชจ๋ธ)์ด ์ด๋ ค์ด ์ํ ๋ฌธ์ ๋ฅผ ํ๊ณ ์๋๋ฐ, ์์ ์ ๋ต์ง(ํน๊ถ์ ๋งฅ๋ฝ, Privileged Context)๊ฐ ํผ์ณ์ ธ ์๋ค๊ณ ์์ํด ๋ณด์ธ์.
-
๊ธฐ์กด ์๊ธฐ ์ฆ๋ฅ(Self-Distillation)์ ์คํจ: ํ์์ ์ ๋ต์ง๋ฅผ ๋ณด๊ณ ํ ๋, ์ ๋ต์ง์ ๋์จ ๋จ์ด๋ค(์: โ๋ฐ๋ผ์โ, โ์ ๋ต์ 5โ)์ ๊ทธ๋๋ก ๋ฐ๋ผ ์ฐ๋ ค๊ณ ๋ง ํฉ๋๋ค. ๋ณต์กํ ๊ณ ๋ฏผ(์: โ์ ๊น, ์ด ๋ถ๋ถ์ ๊ณต์์ ๋ฐ๊ฟ์ผ ํ ๊น?โ)์ ์๋ตํด๋ฒ๋ฆฌ๊ณ ์ ๋ต์ง์ ํ๋ฆ์ ๋ง์ถฐ ๋ต๋ง ๋ง์ถ๋ ค ๋ ธ๋ ฅํ์ฃ . ๊ฒฐ๊ณผ์ ์ผ๋ก ์ํ ์น๋ ๋ (์ ๋ต์ง๊ฐ ์๋ ๋ ) ๊ณ ๋ฏผํ๋ ํ์ด ๊ธฐ๋ฅด์ง ์์ ๋งํ๊ฒ ๋ฉ๋๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ โ๊ตฌ์กฐ์ ์ง๋ฆ๊ธธ ํธํฅ(Structural Shortcut Bias)โ์ด๋ผ๊ณ ๋ถ๋ฆ ๋๋ค.
-
๋ฐ๋ ์๊ธฐ ์ฆ๋ฅ(Anti-Self-Distillation)์ ํด๊ฒฐ์ฑ : ์ด ๋ ผ๋ฌธ์ ๋ฐฉ์์ ์ ์๋์ด ํ์์๊ฒ ์ด๋ ๊ฒ ๋งํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. โ์ ๋ต์ง๋ฅผ ๋ณด๋, ์ ๋ต์ง์ ๋๋ฌด ํ์ ํ๋ ๋ถ๋ถ์ด ๋์ค๋ฉด ์ผ๋ถ๋ฌ ๊ทธ ํ์ ์ ์์ฌํ๊ณ ๋ค๋ฅธ ๋จ์ด๋ฅผ ์จ๋ด. ์ ๋ต์ง์์ ๋ค์ ๋จ์ด๊ฐ ๋๋ฌด ๋ปํ๊ฒ ๋ณด์ธ๋ค๋ฉด ๊ทธ๊ฑด ๋ค๊ฐ ์ถ๋ก ํ ๊ฒ ์๋๋ผ ๋์น๊ป ์ด ๊ฑฐ๋๊น ๋ ๊น์ด ๊ณ ๋ฏผํด์ผ ํด.โ
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
- ๋ฌธ์ ์ธ์ (PMI ๋ถ์): ์ ์๋ค์ โ์ ๋ณ ์ํธ ์ ๋ณด๋(Pointwise Mutual Information)โ์ด๋ผ๋ ๋๊ตฌ๋ก ๊ธฐ์กด ๋ฐฉ์์ด ์ ์คํจํ๋์ง ์ฆ๋ช ํ์ต๋๋ค. ๋ถ์ ๊ฒฐ๊ณผ, ์ ๋ต์ง๊ฐ ์ฃผ์ด์ง๋ฉด ๋ชจ๋ธ์ ๋ฌธ์ฅ์ ์๋ ์ ์์ฌ(therefore, because)๋ ์ด๋ฏธ ๊ฒ์ฆ๋ ์ฃผ์ฅ์๋ ์ง๋์น๊ฒ ํ์ ์ ๊ฐ๊ณ , ์ง์ง ์ถ๋ก ์ด ํ์ํ ๋จ์ด(Wait, Maybe ๋ฑ)์๋ ํ์ ์ ๋ฎ์ถ๋ ๋ฒ๋ฆ์ด ์๊น๋๋ค.
- ์ญ๋ฐ์ (Gradient Ascent): ์ผ๋ฐ์ ์ผ๋ก ๋ฅ๋ฌ๋์ ์ค์ฐจ๋ฅผ ์ค์ด๊ธฐ ์ํด(Gradient Descent) ํ์ตํ์ง๋ง, ์ด ๋ฐฉ์์ ํ์๊ณผ ๊ต์ฌ ๊ฐ์ ์ฐจ์ด(Divergence)๋ฅผ ์ผ๋ถ๋ฌ ํค์ฐ๋ ๋ฐฉํฅ(Gradient Ascent)์ผ๋ก ํ์ตํฉ๋๋ค. ๊ต์ฌ๊ฐ โ์ด ๋จ์ด๊ฐ 90% ํ๋ฅ ๋ก ์ ๋ต์ด์ผ!โ๋ผ๊ณ ํ ๋, ํ์์ โ๊ทธ ํ์ ์ ํ๋๋ฆฌ์ง ๋ง๊ณ ๋๋ง์ ํ๋ฅ ์ ๋ค์ ๊ณ์ฐํด๋ณด์โ๋ ์์ด์ฃ .
- ์์ ์ฅ์น (Entropy Gate): ํ์ง๋ง ๋ฌด์์ ๋ฐ๋๋ก ํ๋ฉด ๋ง์์ ์ผ์ผํฌ ์ ์์ต๋๋ค. ๊ทธ๋์ ๊ต์ฌ ๋ชจ๋ธ์ ์ํธ๋กํผ(๋ถํ์ค์ฑ)๊ฐ ๋ฐ๋ฅ์ผ๋ก ๋จ์ด์ ธ(์ฆ, ๋๋ฌด ๋ปํ ๋จ์ด๋ผ๋ฉด) AntiSD ๊ธฐ๋ฅ์ ๊บผ๋ฒ๋ฆฌ๋ ์ค์์น(Entropy Gate)๋ฅผ ๋ฌ์๋ก๋๋ค. ์ง์ง ๊ณ ๋ฏผ์ด ํ์ํ ์๊ฐ์๋ง โ๋ฐ๋ ํ๋โ์ ์ทจํ๋ ๊ฒ์ ๋๋ค.
ํต์ฌ ์์ ๋ฐ ์๊ณ ๋ฆฌ์ฆ
๊ธฐ์กด ๋ฐฉ์์ ํ์(S)์ด ๊ต์ฌ(T)๋ฅผ ๋ฐ๋ผ๊ฐ๊ฒ ํ๊ธฐ ์ํด KL ๋ฐ์ฐ(Divergence)์ ์ค์ด์ง๋ง($\min D_{KL}$), AntiSD๋ Jensen-Shannon ๋ฐ์ฐ์ ๋๋ฆฝ๋๋ค($\max JS$). ์ฌ๊ธฐ์ ํต์ฌ ์ ์ด ์ฅ์น์ธ ์ํธ๋กํผ ๊ฒ์ดํธ(Gate)๊ฐ ์ถ๊ฐ๋ฉ๋๋ค.
- ๋ง์ฝ ๊ต์ฌ์ ์ํธ๋กํผ($H$)๊ฐ ์๊ณ๊ฐ($\tau$)๋ณด๋ค ๋ฎ๋ค๋ฉด(ํ์ ์ด ๋๋ค๋ฉด): ๊ฒ์ดํธ ๋ซํ (AntiSD ์ ์ง, ๋จ์ ๋ชจ๋ฐฉ ํ์ฉ)
- ๋ง์ฝ ๊ต์ฌ์ ์ํธ๋กํผ($H$)๊ฐ ์๊ณ๊ฐ($\tau$)๋ณด๋ค ๋๋ค๋ฉด(๊ณ ๋ฏผ์ด ํ์ํ๋ค๋ฉด): ๊ฒ์ดํธ ์ด๋ฆผ (AntiSD ์๋, ์ฐจ์ด ๋ฒ๋ฆฌ๊ธฐ)
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
ํ ์คํธ ๋ฒค์น๋งํฌ
์ฐ๊ตฌ์ง์ ์ํ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฒ์ฆํ๊ธฐ ์ํด ๊ฐ์ฅ ๋์ด๋๊ฐ ๋์ ๋ฒค์น๋งํฌ๋ค์ ์ฌ์ฉํ์ต๋๋ค.
- AIME (American Invitational Mathematics Examination): 2024, 2025, 2026๋ ๋ ๋ฌธ์ (๋ฏธ๊ตญ ๊ณ ๊ต์ ๋์ ์ต์์ ๋์ด๋ ์ํ ๊ฒฝ์๋ํ)
- HMMT (Harvard MIT Math Tournament): 2025๋ ๋ ๋ฌธ์
- MinervaMath: ๋๊ท๋ชจ ์ํ ๋ฐ์ดํฐ์
๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ์ฑ๋ฅ (์์น)
Qwen3-8B ๋ชจ๋ธ์ ๊ธฐ์ค์ผ๋ก ๋ณธ ๊ฒฐ๊ณผ๋ ์ถฉ๊ฒฉ์ ์ ๋๋ค.
- ๊ธฐ๋ณธ ๋ชจ๋ธ (Base): ์ ๋ต๋ฅ 22.7%
- ๊ธฐ์กด RL ๋ฐฉ์ (+GRPO): ์ ๋ต๋ฅ 57.4% (ํฐ ํฅ์)
- ๊ธฐ์กด ์๊ธฐ ์ฆ๋ฅ (+SD): ์ ๋ต๋ฅ 30.6% (์คํ๋ ค GRPO๋ณด๋ค ๋ชปํจ, ์๋ น ํผ์ฐ๊ธฐ ์คํจ)
- Anti-Self-Distillation (+AntiSD): ์ ๋ต๋ฅ 65.7% (๊ธฐ์กด ์ต๊ณ ๋ฐฉ๋ฒ์ธ GRPO๋ณด๋ค๋ ์ฝ 8% ์ด์ ์์น)
ํนํ ์ฃผ๋ชฉํ ๋งํ ์ ์ ํ์ต ์๋์ ๋๋ค. AntiSD๋ GRPO ๋ฐฉ์์ด ์ต๊ณ ์ฑ๋ฅ์ ๋๋ฌํ๋ ๋ฐ 200๋จ๊ณ๊ฐ ๊ฑธ๋ฆฐ๋ค๋ฉด, ๋ถ๊ณผ 20~40๋จ๊ณ ๋ง์ ๊ฐ์ ์ฑ๋ฅ์ ๋์ต๋๋ค. ์ด๋ ํ์ต ํจ์จ์ด ์ต๋ 10๋ฐฐ ์ด์ ๋๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. 30B ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์์๋ ์ต๋ 11.5ํฌ์ธํธ์ ์ฑ๋ฅ ํฅ์์ ๋ณด์์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
ํ๊ณ์
- ๊ฒ์ดํธ ์ค์ ์ ๋ฏผ๊ฐ์ฑ: ๋ ผ๋ฌธ์์๋ ์ํธ๋กํผ ๊ฒ์ดํธ์ ์๊ณ๊ฐ์ ์๋์ผ๋ก ๋ณด์ (Auto-calibrated)ํ๋ค๊ณ ํ์ง๋ง, ์๋ฒฝํ๊ฒ ์๋ํ๋์๋ค๊ธฐ๋ณด๋ค๋ ์ด๊ธฐ ์๋ฐ์ ๋จ๊ณ(Warm-up)๊ฐ ํ์ํฉ๋๋ค. ์์ ํ ์๋ก์ด ๋๋ฉ์ธ์ ์ ์ฉํ ๋ ์ด ์ค์ ์ด ์ด๋ป๊ฒ ๋์ํ ์ง ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค.
- ๋น์ํ์ ๊ณผ์ ์์์ ๊ฒ์ฆ: ์ด ๋ ผ๋ฌธ์ ์ฃผ๋ก ์ํ ์ถ๋ก (Math Reasoning)์ ์ง์คํ์ต๋๋ค. ์ง์์๋ต์ด๋ ๋๊ตฌ ์ฌ์ฉ ๋ฑ ๋ค๋ฅธ ์์ญ์์ โ๋ฐ๋ ํ์ตโ์ด ๊ธ์ ์ ์ธ ํจ๊ณผ๋ฅผ ์ค์ง, ์๋๋ฉด ๋ฐฉํด๊ฐ ๋ ์ง๋ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ์ด๋ก ์ ์ธ ๋ฐ๊ฒฌ์ธ PMI ๋ถ์์ ๋ฐํ์ผ๋ก, ๋จ์ํ โ๋ฐ๋โ๋ก ๊ฐ๋ ๊ฒ์ด ์๋๋ผ ํน์ ํ ํฐ(์: ์ถ๋ก ์ ์ ๋ํ๋ ํ ํฐ)์ ๋ ์ ๊ตํ ๊ฐ์ค์น๋ฅผ ์ฃผ๋ ๋ฐฉ์์ผ๋ก ๋ฐ์ ํ ์ ์์ต๋๋ค.
- ๋ค๋ฅธ ๋ชจ๋ฌ๋ฆฌํฐ(์: ์ฝ๋ ์์ฑ, ๋ ผ๋ฆฌ์ ์ฌ๊ณ ๊ฐ ํ์ํ ๋ฒ๋ฅ ๋ถ์ ๋ฑ)์ผ๋ก ํ์ฅํ์ฌ ์ ์ฉํด ๋ณผ ์ ์์ต๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๊ณณ
- ์ํ ๋ฌธ์ ํ์ด AI ์๋น์ค: ๋ณต์กํ ์ถ๋ก ์ด ํ์ํ ์ํ ํํฐ๋ง ๋ด์ด๋ ๊ต์ก์ฉ LLM์ ํ์ต์ํฌ ๋ ์ฆ์ ์ฌ์ฉํ ์ ์์ต๋๋ค.
- ์ฝ๋ ์์ฑ ๋ฐ ๋๋ฒ๊น : ๋ณต์กํ ๋ ผ๋ฆฌ ํ๋ฆ์ด ํ์ํ ์ฝ๋ฉ ๊ณผ์ ์์ ์ถ๋ก ๋ฅ๋ ฅ์ ๋์ด๋ ๋ฐ ์์ฉ ๊ฐ๋ฅํฉ๋๋ค.
ํ์ํ ๋ฆฌ์์ค
- GPU: Qwen3๋ Olmo ๊ฐ์ 7B
30B ํฌ๊ธฐ์ ๋ชจ๋ธ์ ํ์ต์ํค๋ ค๋ฉด ์ต์ A100 80GB 48์ฅ ์ด์์ ํด๋ฌ์คํฐ ํ๊ฒฝ์ด ํ์ํฉ๋๋ค. - ๋ฐ์ดํฐ: ๊ฒ์ฆ ๊ฐ๋ฅํ ์ ๋ต(Verifiable Solution)์ด ์๋ ๊ณ ํ์ง ์ํ ํน์ ์ฝ๋ฉ ๋ฐ์ดํฐ์ (์: GSM8K, MATH, LeetCode ๋ฑ)์ด ํ์์ ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ ๋ต์ง(Privileged Context)๋ฅผ ํ์ต ์์ ์ ํ์ฉํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ๊ฐํ ํ์ต(Reinforcement Learning): ์์ด์ ํธ๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ๋ณด์์ ์ต๋ํํ๋ ๋ฐฉ๋ฒ์ผ๋ก ํ์ตํ๋ ๋จธ์ ๋ฌ๋์ ํ ๋ถ์ผ์ ๋๋ค.
- ์ ์ฑ ๊ทธ๋ผ๋์ธํธ(Policy Gradient): ์ ๊ฒฝ๋ง(์ ์ฑ )์ด ํ๋์ ์ ํํ ํ๋ฅ ์ ์ง์ ์ต์ ํํ์ฌ ๋ณด์์ ๋์ด๋ ๊ฐํ ํ์ต ์๊ณ ๋ฆฌ์ฆ ๊ธฐ๋ฒ์ ๋๋ค.
- ์๊ธฐ ์ฆ๋ฅ(Self-Distillation): ํฐ ๋ชจ๋ธ์ด๋ ๋ ๋์ ์กฐ๊ฑด์ ๋ชจ๋ธ(๊ต์ฌ)์ ์ถ๋ ฅ์ ์ฌ์ฉํ์ฌ ๋์ผํ ๊ตฌ์กฐ์ ๋ชจ๋ธ(ํ์)์ ํ์ต์ํค๋ ๊ธฐ๋ฒ์ ๋๋ค.
- KL ๋ฐ์ฐ(KL Divergence): ๋ ํ๋ฅ ๋ถํฌ๊ฐ ์๋ก ์ผ๋ง๋ ๋ค๋ฅธ์ง๋ฅผ ์ธก์ ํ๋ ์งํ๋ก, ๋ฅ๋ฌ๋์์ ๋ ๋ชจ๋ธ์ ์ถ๋ ฅ์ ์ ์ฌํ๊ฒ ๋ง๋ค ๋ ์ฃผ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
- ์จํด๋ฆฌ์(On-policy): ํ์ฌ ํ์ตํ๋ ค๋ ์ ์ฑ (๋ชจ๋ธ)์ด ์ง์ ์์ฑํ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ฐ๋ก ํ์ต์ ์ ๋ฐ์ดํธํ๋ ๋ฐฉ์์ ์๋ฏธํฉ๋๋ค.
- ์ํธ๋กํผ(Entropy): ์ ๋ณด ์ด๋ก ์์ ๋ถํ์ค์ฑ์ ์ ๋๋ฅผ ๋ํ๋ด๋ ์ฒ๋๋ก, ํ๋ฅ ๋ถํฌ๊ฐ ํผ์ ธ ์์์๋ก ์ํธ๋กํผ๊ฐ ๋๊ณ ํน์ ๊ฐ์ ์น์ฐ์ณ ์์์๋ก ๋ฎ์ต๋๋ค.
- ์ ๋ณ ์ํธ ์ ๋ณด๋(Pointwise Mutual Information): ๋ ์ฌ๊ฑด์ด ๋์์ ๋ฐ์ํ์ ๋, ํ ์ฌ๊ฑด์ด ๋ค๋ฅธ ์ฌ๊ฑด์ ๋ํด ์ผ๋ง๋ ๋ง์ ์ ๋ณด๋ฅผ ์ ๊ณตํ๋์ง๋ฅผ ์ธก์ ํ๋ ๊ฐ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | CiteVQA: Benchmarking Evidence Attrโฆ | DD-092 |
| ๐ฅ | Code as Agent Harness | DD-093 |
| ๐ฅ | Anti-Self-Distillation for Reasoninโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 4. | DelTA: Discriminative Token Credit โฆ | DD-095 |
| 5. | TransitLM: A Large-Scale Dataset anโฆ | DD-096 |
๐ ์์ฑ์ผ: 2026-05-24 | ๐ค GLM-4.7 Deep Dive