โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-095 DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards
arXiv: 2605.21467 Upvotes: 189 | Comments: 1 ์์: ์ด๋ฒ ์ฃผ Top 4
DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์์ ํ์ฉํ ๊ฐํ ํ์ต(RLVR) ๋ฐฉ์์ ๋ต๋ณ ์ ์ฒด์ ํ๋์ ์ ์๋ง ๋ถ์ฌํ๊ธฐ ๋๋ฌธ์, ์ ๋ต์ ์ด๋์ด๋ธ ๊ตฌ์ฒด์ ์ธ ๋จ์ด(Token)๊ฐ ๋ฌด์์ธ์ง ์๋ณํ์ง ๋ชปํ๋ โ์ ๋ ์ฐจ์ด(Granularity Mismatch)โ ๋ฌธ์ ๋ฅผ ์๊ณ ์์ต๋๋ค. ์ด๋ก ์ธํด ๋ชจ๋ธ์ ์ค์ํ ์ถ๋ก ํ ํฐ๋ณด๋ค๋ ๋จ์ํ ์์ฃผ ๋ฑ์ฅํ๋ ํ์์ด๋ ๋ฌธ๋ฒ์ ํจํด์ ๊ณผ๋ํ๊ฒ ์์กดํ๋ ค๋ ๊ฒฝํฅ์ด ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ ๋ต๊ณผ ์ค๋ต์ ๊ทธ๋๋์ธํธ(Gradient) ๋ถํฌ๋ฅผ ๋น๊ตํ๋ โ๋ถ๋ฅ๊ธฐ(Discriminator) ๊ด์ โ์ ๋์ ํ์ฌ, ์ง์ง ์ฑ๊ณต์ ์ด๋ ํ ํฐ์๋ง ์ง์คํ์ฌ ํ์ต ํจ์จ์ ํ๊ธฐ์ ์ผ๋ก ๋์ธ DelTA๋ฅผ ์ ์ํ์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์๋ฆฌ์ฌ ๋ ์ํผ ๊ต์ ๋น์
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ์๋ฆฌ์ฌ๊ฐ ์๋ฆฌ๋ฅผ ๋ฐฐ์ฐ๋ ์ํฉ์ ๋น์ ํด ๋ณด๊ฒ ์ต๋๋ค. ๊ธฐ์กด์ RLVR ๋ฐฉ์์ ์์ฑ๋ ์๋ฆฌ๋ฅผ ๋ง๋ณด๊ณ โ๋ง์๋คโ ๋๋ โ๋ง์๋คโ๊ณ ํผ๋๋ฐฑ๋ง ์ค๋๋ค. ์๋ฆฌ์ฌ๋ ์ด ํผ๋๋ฐฑ์ ๋ฃ๊ณ ์์ ์ด ํ ๋ชจ๋ ํ๋(์ฌ๋ฃ ์๋ฅด๊ธฐ, ๋ถ ์กฐ์ , ์์ค ๋ฟ๋ฆฌ๊ธฐ)์ ๊ณจ๊ณ ๋ฃจ ์กฐ๊ธ์ฉ ์์ ํ๋ ค ํฉ๋๋ค. ํ์ง๋ง ์ฌ์ค ๋ง์ ๊ฒฐ์ ์ง๋ ๊ฒฐ์ ์ ์ธ ์ฐจ์ด๋ โ์์ค๋ฅผ ๋ฃ๋ ํ์ด๋ฐโ ํ ๊ฐ์ง์ผ ์ ์์ต๋๋ค. ๊ธฐ์กด ๋ฐฉ์์ ์ด ์ค์ํ ํฌ์ธํธ๋ฅผ ์๋ง์ ์ฌ์ํ ํ๋๋ค(์: ํฐ apron์ ์ ์๋ค, ์ ์๋ฅผ ๋ฅ๊ทผ ๊ฒ์ ์ผ๋ค ๋ฑ)์ ๋ฌปํ๋ฒ๋ฆฌ๊ฒ ๋ง๋ญ๋๋ค.
DelTA๋ ๋ง์์ฝ๊ธฐ ๋ฅ๋ ฅ์ด ์๋ ๋ฉํ ์ฒ๋ผ ์๋ํฉ๋๋ค. ๋ฉํ ๋ โ๋ง์๋ ์๋ฆฌโ์ โ๋ง์๋ ์๋ฆฌโ๋ฅผ ๋ง๋ ์๋ฆฌ์ฌ๋ค์ ํ๋ ํจํด์ ๋ถ์ํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ณตํต์ ์ผ๋ก ํ๋ ํ๋(ํฐ apron ์ ๊ธฐ)์ ์ ์ธํ๊ณ , ๋ง์๋ ์๋ฆฌ์์๋ง ํน๋ณํ๊ฒ ์ผ์ด๋ ํ๋(๋ง์ง๋ง 1์ด ์ ์ ์์ค ๋ฃ๊ธฐ)์ ์ ํํ ์ฐพ์๋ ๋๋ค. ๊ทธ ํ ์๋ฆฌ์ฌ์๊ฒ โ๊ทธ ์ธ์ ๊ฒ์ ๊ทธ๋๋ก ํ๊ณ , ์ด ํ์ด๋ฐ๋ง ๊ผญ ๊ธฐ์ตํดโ๋ผ๊ณ ๊ฐ์กฐํ์ฌ ์๋ ค์ค๋๋ค. ์ด๊ฒ์ด ๋ฐ๋ก ํ ํฐ ๋จ์๋ก ์ค์๋๋ฅผ ๊ฐ๋ ค๋ด์ด ํ์ตํ๋ DelTA์ ๋ฐฉ์์ ๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
- ๊ทธ๋๋์ธํธ ์์งํ๊ธฐ: ๋ชจ๋ธ์ด ์ฌ๋ฌ ๊ฐ์ ๋ต๋ณ์ ์์ฑํ๋ฉด, ์ ๋ต(๋์ ๋ณด์)์ธ ๊ทธ๋ฃน๊ณผ ์ค๋ต(๋ฎ์ ๋ณด์)์ธ ๊ทธ๋ฃน์ผ๋ก ๋๋๋๋ค. ๊ฐ ํ ํฐ์ด ํ๋ฅ ์ ์ด๋ป๊ฒ ๋ณํ์์ผฐ๋์ง์ ๋ํ ๊ทธ๋๋์ธํธ ๋ฒกํฐ๋ฅผ ๋ชจ๋ ๋ชจ์๋๋ค.
- ๋ถ๋ฅ๊ธฐ ๊ด์ ์ ์ฉํ๊ธฐ: ์ ๋ต ๊ทธ๋ฃน์ ํ ํฐ ๊ทธ๋๋์ธํธ ํ๊ท (์ค์ฌ์ )๊ณผ ์ค๋ต ๊ทธ๋ฃน์ ํ ํฐ ๊ทธ๋๋์ธํธ ํ๊ท (์ค์ฌ์ )์ ๊ณ์ฐํฉ๋๋ค. ๊ธฐ์กด ๋ฐฉ์์ ์ด ๋ ์ค์ฌ์ ์ ์ฐจ์ด๋ฅผ ์ด์ฉํด ์ ๋ฐ์ดํธํ์ง๋ง, ์ก์(ํ์ ํ ํฐ ๋ฑ)์ด ์์ฌ ์์ต๋๋ค.
- ๋ณ๋ณ์ ํ ํฐ ์๋ณํ๊ธฐ: DelTA๋ ๊ฐ ํ ํฐ์ ๊ทธ๋๋์ธํธ๊ฐ โ์ ๋ต ์ค์ฌ์ โ์ ์ผ๋ง๋ ๊ฐ๊น๊ณ โ์ค๋ต ์ค์ฌ์ โ์ ์ผ๋ง๋ ๋จผ์ง๋ฅผ ๊ณ์ฐํ์ฌ ํ ํฐ๋ณ ๊ฐ์ค์น(Coefficient)๋ฅผ ๋ถ์ฌํฉ๋๋ค. ์ฆ, ์ง์ง ์ ๋ต์ ์์ธ์ด ๋๋ ํ ํฐ์ ๊ฐ์ค์น๋ฅผ ๋์ด๊ณ , ๋จ์ํ ์์ฃผ ์ฐ์ด๋ ํ ํฐ์ ๊ฐ์ค์น๋ฅผ ๋ฎ์ถฅ๋๋ค.
- ์ฌ๊ฐ์ค๋ ์ ๋ฐ์ดํธ ์ํํ๊ธฐ: ๊ณ์ฐ๋ ๊ฐ์ค์น๋ฅผ ๊ธฐ์กด ๊ฐํ ํ์ต ๋ชฉ์ ํจ์์ ๋ฐ์ํ์ฌ, ๋ชจ๋ธ์ด ์ง์ง ์ค์ํ ํ ํฐ์ ํ๋ฅ ์ ๋์ด๋ ๋ฐฉํฅ์ผ๋ก ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ ์์ฝ
๋ ผ๋ฌธ์ ํต์ฌ ์์์ ์ ๋ต ๊ทธ๋ฃน(P)๊ณผ ์ค๋ต ๊ทธ๋ฃน(N)์ ํ ํฐ ๊ทธ๋๋์ธํธ ์งํฉ์ ์ด์ฉํด ํ ํฐ๋ณ ๊ณ์๋ฅผ ์ถ์ ํ๋ ๊ฒ์ ๋๋ค. ๊ธฐ์กด ๋ฐฉ์์ด ๋จ์ ํ๊ท ์ ์ฌ์ฉํ๋ค๋ฉด, DelTA๋ ๋ ์งํฉ์ ๋๋น(Contrast)๋ฅผ ํตํด ํน์ ํ ํฐ์ด ์ผ๋ง๋ โ๋ณ๋ณ๋ ฅ(Discriminative)โ์ด ์๋์ง๋ฅผ ์ํ์ ์ผ๋ก ๊ณ์ฐํ์ฌ ์ด๋ฅผ ํ์ต์ ๋ฐ์ํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
ํ ์คํธ ๋ฒค์น๋งํฌ
์ด ๋ ผ๋ฌธ์ ์ํ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด ๊ฐ์ฅ ๋์ด๋๊ฐ ๋์ ๋ฒค์น๋งํฌ๋ค์ ์ฌ์ฉํ์ต๋๋ค.
- AIME (American Invitational Mathematics Examination): 2024, 2025, 2026๋ ๋ฒ์
- HMMT (HarvardโMIT Mathematics Tournament): 2025๋ 2์, 11์ ๋ฐ 2026๋ 2์ ๋ฒ์
- Brumo 25
์ฑ๋ฅ ํฅ์ ์์น
Qwen3-8B-Base ๋ชจ๋ธ์ ๊ธฐ์ค์ผ๋ก ๊ธฐ์กด ์ต์ฒจ๋จ(SOTA) ๋ฐฉ๋ฒ๋ค๊ณผ ๋น๊ตํ์ ๋, DelTA๋ ๋ชจ๋ ๋ฒค์น๋งํฌ์์ ์๋์ ์ธ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
- AIME24: ๊ธฐ์กด ๋ฐฉ๋ฒ(DAPO)์ 34.79์์ผ๋, DelTA๋ 43.13์ผ๋ก ์ฝ 8.34์ ์์นํ์ต๋๋ค. ์ด๋ ๋งค์ฐ ๋๋ฌธ ์์น์ ํฅ์์ ๋๋ค.
- ํ๊ท ์ฑ๋ฅ(Avg.): DAPO๋ 22.95, DAPO w/ FT๋ 24.80, SAPO๋ 25.14์ธ ๋ฐ๋ฉด, DelTA๋ ์ด๋ค์ ๋ชจ๋ ๋ฐ์ด๋๋ ์ฑ๊ณผ๋ฅผ ๊ธฐ๋กํ์ต๋๋ค(ํ์ ์์น ์๋ต๋จ์ผ๋ ์์น์ธ ๋ช ํ).
- ์ผ๊ด์ฑ: ๋จ์ผ ๋ฒค์น๋งํฌ์์ ์ด ์ข๊ฒ ์ ์๊ฐ ์ค๋ฅธ ๊ฒฝ์ฐ๊ฐ ์๋๋ผ, 7๊ฐ์ ํ ์คํธ ์ ์ ์ฒด์์ ์ผ๊ด๋๊ฒ ์ฑ๋ฅ์ด ํฅ์๋์์ต๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
ํนํ ๊ธด ์ถ๋ก (Long-reasoning)์ด ํ์ํ ๋ฌธ์ ์์ ํ๊ฐ ๊ธธ์ด๋ฅผ ์ต๋ 30,000 ํ ํฐ๊น์ง ์ค์ ํ์ฌ ํ ์คํธํ์์๋ ๋ถ๊ตฌํ๊ณ ์ฑ๋ฅ์ด ์ ์ง๋์๋ค๋ ์ ์ ์ค์ํฉ๋๋ค. ์ด๋ DelTA๊ฐ ๋ถํ์ํ ํ ํฐ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๊ณ ํต์ฌ ์ถ๋ก ํ๋ฆ์ ์ ํ์ตํ์์ ์์ฌํฉ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
ํ๊ณ์
์ ์๋ค์ ๋ช ์์ ์ผ๋ก ์ธ๊ธํ์ง๋ ์์์ผ๋, ์ผ๋ฐ์ ์ธ RLVR ๋ฐฉ์์ ๊ณตํต๋ ํ๊ณ์ DelTA์ ํน์ฑ์ ๊ณ ๋ คํ ๋ ๋ค์๊ณผ ๊ฐ์ ์ ๋ค์ ์ถ์ธกํ ์ ์์ต๋๋ค.
- ๊ณ์ฐ ๋น์ฉ: ํ ํฐ๋ณ๋ก ๊ทธ๋๋์ธํธ๋ฅผ ๊ณ์ฐํ๊ณ ๋น๊ตํ๋ ๊ณผ์ ์ด ์ถ๊ฐ๋๋ฏ๋ก, ๋จ์ํ RLVR ๋ฐฉ์๋ณด๋ค ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด๋ ์ฐ์ฐ๋์ด ๋ค์ ๋์ ์ ์์ต๋๋ค.
- ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์ ์์กด์ฑ: ๋ ผ๋ฌธ์ ์ ๋ชฉ์ฒ๋ผ โ๊ฒ์ฆ ๊ฐ๋ฅํ(Verifiable)โ ๋ณด์, ์ฆ ์ํ ๋ฌธ์ ์ฒ๋ผ ์ ๋ต ์ฌ๋ถ๋ฅผ ๊ธฐ๊ณ์ ์ผ๋ก ํ์ ์ง์ ์ ์๋ ํ๊ฒฝ์ ์ต์ ํ๋์ด ์์ต๋๋ค. ์ฃผ๊ด์ ์ธ ๊ธ์ฐ๊ธฐ๋ ๋ํ์๋ ์ ์ฉํ๊ธฐ ์ด๋ ค์ธ ์ ์์ต๋๋ค.
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ๊ฒ์ฆ ๋ถ๊ฐ๋ฅํ ๋ณด์(์: ์ธ๊ฐ ํผ๋๋ฐฑ) ํ๊ฒฝ์ผ๋ก์ ํ์ฅ
- ํ ํฐ ๋ถ์ ๊ณผ์ ์์ ๋ฐ์ํ๋ ์ถ๊ฐ์ ์ธ ๊ณ์ฐ ์ค๋ฒํค๋๋ฅผ ์ค์ด๋ ํจ์จํ ๊ธฐ๋ฒ ์ฐ๊ตฌ
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๊ณณ
- ์ํ ๋ฌธ์ ํ์ด AI: ์ฝ๋ฉ ํ ์คํธ๋ ์ํ ๊ฒฝ์ ๋ํ๋ฅผ ์ํ AI ๋ชจ๋ธ ํ์ต์ ์ฆ์ ํ์ฉํ ์ ์์ต๋๋ค.
- ์ฝ๋ ์์ฑ ๋ชจ๋ธ: ์ฝ๋๊ฐ ์คํ๋์ด ํต๊ณผ๋๋์ง ์ฌ๋ถ๊ฐ ๋ช ํํ ๋ณด์์ด ๋๋ ์ํฉ์์, ์ฝ๋์ ํต์ฌ ๋ก์ง์ ํด๋นํ๋ ํ ํฐ์ ์ ํํ ํ์ตํ๋ ๋ฐ ์ ์ฉํฉ๋๋ค.
ํ์ํ ๋ฆฌ์์ค
- ๋ชจ๋ธ: Large Language Model (์: Qwen, Llama ๋ฑ ์คํ ์์ค ๋ชจ๋ธ)
- ํ๋์จ์ด: ํ ํฐ ๋จ์์ ๋ฏธ๋ถ๊ฐ์ ์ ์ฅํ๊ณ ์ฐ์ฐํด์ผ ํ๋ฏ๋ก, ๊ธฐ์กด RLHF(Reinforcement Learning from Human Feedback) ํ์ต ํ๊ฒฝ๋ณด๋ค ๋๋ํ GPU ๋ฉ๋ชจ๋ฆฌ(VRAM)๊ฐ ํ์ํ ์ ์์ต๋๋ค. (์: A100 80GB ์ด์ ๊ถ์ฅ)
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- Reinforcement Learning (๊ฐํ ํ์ต): ์์ด์ ํธ๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ๋ณด์์ ์ต๋ํํ๋ ์ ์ฑ (Policy)์ ํ์ตํ๋ ๋จธ์ ๋ฌ๋์ ํ ๋ถ์ผ์ ๋๋ค.
- Policy Gradient (์ ์ฑ ๊ฒฝ์ฌ): ์ ๊ฒฝ๋ง์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ณด์์ ๋ํ ๋ฏธ๋ถ๊ฐ(๊ทธ๋๋์ธํธ)์ ๋ฐ๋ผ ์ ๋ฐ์ดํธํ๋ ๊ฐํ ํ์ต์ ํต์ฌ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
- Verifiable Rewards (๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์): ์ ๋ต์ด ํ๋ฆฐ์ง๋ฅผ ํ๋ก๊ทธ๋จ์ด๋ ์ํ์ ์ฆ๋ช ์ ํตํด ๊ฐ๊ด์ ์ผ๋ก ํ์ธํ ์ ์๋ ๋ณด์ ์ ํธ์ ๋๋ค.
- Large Language Models (๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ): GPT๋ Llama์ฒ๋ผ ๋ฐฉ๋ํ ํ ์คํธ ๋ฐ์ดํฐ๋ก ํ์ต๋ ๊ฑฐ๋ํ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ ๋๋ค.
- Token (ํ ํฐ): ํ ์คํธ๋ฅผ ๋ชจ๋ธ๊ฐ ์ฒ๋ฆฌํ๋ ์ต์ ๋จ์์ ๋๋ค. (์: ๋จ์ด ๋๋ ๋จ์ด์ ์ผ๋ถ)
- Gradient (๊ทธ๋๋์ธํธ): ์์ค ํจ์๋ ๋ณด์์ ์ต์ ํํ๊ธฐ ์ํด ๊ฐ ํ๋ผ๋ฏธํฐ๋ฅผ ์ด๋ ๋ฐฉํฅ์ผ๋ก ์ผ๋ง๋ ์กฐ์ ํด์ผ ํ ์ง๋ฅผ ๋ํ๋ด๋ ๋ฒกํฐ์ ๋๋ค.
- Discriminator (๋ถ๋ฅ๊ธฐ): ๋ ๊ฐ์ง ์ด์์ ๋ฒ์ฃผ(์ฌ๊ธฐ์๋ ์ข์ ๋ต๋ณ๊ณผ ๋์ ๋ต๋ณ)๋ฅผ ๊ตฌ๋ณํ๋ ์ญํ ์ ํ๋ ๋ชจ๋ธ์ด๋ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | CiteVQA: Benchmarking Evidence Attrโฆ | DD-092 |
| ๐ฅ | Code as Agent Harness | DD-093 |
| ๐ฅ | Anti-Self-Distillation for Reasoninโฆ | DD-094 |
| 4. | DelTA: Discriminative Token Credit โฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 5. | TransitLM: A Large-Scale Dataset anโฆ | DD-096 |
๐ ์์ฑ์ผ: 2026-05-24 | ๐ค GLM-4.7 Deep Dive