โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-095 DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards

arXiv: 2605.21467 Upvotes: 189 | Comments: 1 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 4


DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ์„ ํ™œ์šฉํ•œ ๊ฐ•ํ™” ํ•™์Šต(RLVR) ๋ฐฉ์‹์€ ๋‹ต๋ณ€ ์ „์ฒด์— ํ•˜๋‚˜์˜ ์ ์ˆ˜๋งŒ ๋ถ€์—ฌํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์ •๋‹ต์„ ์ด๋Œ์–ด๋‚ธ ๊ตฌ์ฒด์ ์ธ ๋‹จ์–ด(Token)๊ฐ€ ๋ฌด์—‡์ธ์ง€ ์‹๋ณ„ํ•˜์ง€ ๋ชปํ•˜๋Š” โ€˜์ž…๋„ ์ฐจ์ด(Granularity Mismatch)โ€™ ๋ฌธ์ œ๋ฅผ ์•ˆ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด ๋ชจ๋ธ์€ ์ค‘์š”ํ•œ ์ถ”๋ก  ํ† ํฐ๋ณด๋‹ค๋Š” ๋‹จ์ˆœํžˆ ์ž์ฃผ ๋“ฑ์žฅํ•˜๋Š” ํ˜•์‹์ด๋‚˜ ๋ฌธ๋ฒ•์  ํŒจํ„ด์— ๊ณผ๋„ํ•˜๊ฒŒ ์˜์กดํ•˜๋ ค๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์ •๋‹ต๊ณผ ์˜ค๋‹ต์˜ ๊ทธ๋ž˜๋””์–ธํŠธ(Gradient) ๋ถ„ํฌ๋ฅผ ๋น„๊ตํ•˜๋Š” โ€˜๋ถ„๋ฅ˜๊ธฐ(Discriminator) ๊ด€์ โ€™์„ ๋„์ž…ํ•˜์—ฌ, ์ง„์งœ ์„ฑ๊ณต์„ ์ด๋ˆ ํ† ํฐ์—๋งŒ ์ง‘์ค‘ํ•˜์—ฌ ํ•™์Šต ํšจ์œจ์„ ํš๊ธฐ์ ์œผ๋กœ ๋†’์ธ DelTA๋ฅผ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์š”๋ฆฌ์‚ฌ ๋ ˆ์‹œํ”ผ ๊ต์ • ๋น„์œ 

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์„ ์š”๋ฆฌ์‚ฌ๊ฐ€ ์š”๋ฆฌ๋ฅผ ๋ฐฐ์šฐ๋Š” ์ƒํ™ฉ์— ๋น„์œ ํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ RLVR ๋ฐฉ์‹์€ ์™„์„ฑ๋œ ์š”๋ฆฌ๋ฅผ ๋ง›๋ณด๊ณ  โ€œ๋ง›์žˆ๋‹คโ€ ๋˜๋Š” โ€œ๋ง›์—†๋‹คโ€๊ณ  ํ”ผ๋“œ๋ฐฑ๋งŒ ์ค๋‹ˆ๋‹ค. ์š”๋ฆฌ์‚ฌ๋Š” ์ด ํ”ผ๋“œ๋ฐฑ์„ ๋“ฃ๊ณ  ์ž์‹ ์ด ํ•œ ๋ชจ๋“  ํ–‰๋™(์žฌ๋ฃŒ ์ž๋ฅด๊ธฐ, ๋ถˆ ์กฐ์ ˆ, ์†Œ์Šค ๋ฟŒ๋ฆฌ๊ธฐ)์„ ๊ณจ๊ณ ๋ฃจ ์กฐ๊ธˆ์”ฉ ์ˆ˜์ •ํ•˜๋ ค ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์‚ฌ์‹ค ๋ง›์„ ๊ฒฐ์ •์ง“๋Š” ๊ฒฐ์ •์ ์ธ ์ฐจ์ด๋Š” โ€˜์†Œ์Šค๋ฅผ ๋„ฃ๋Š” ํƒ€์ด๋ฐโ€™ ํ•œ ๊ฐ€์ง€์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹์€ ์ด ์ค‘์š”ํ•œ ํฌ์ธํŠธ๋ฅผ ์ˆ˜๋งŽ์€ ์‚ฌ์†Œํ•œ ํ–‰๋™๋“ค(์˜ˆ: ํฐ apron์„ ์ž…์—ˆ๋‹ค, ์ ‘์‹œ๋ฅผ ๋‘ฅ๊ทผ ๊ฒƒ์„ ์ผ๋‹ค ๋“ฑ)์— ๋ฌปํ˜€๋ฒ„๋ฆฌ๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

DelTA๋Š” ๋งˆ์Œ์ฝ๊ธฐ ๋Šฅ๋ ฅ์ด ์žˆ๋Š” ๋ฉ˜ํ† ์ฒ˜๋Ÿผ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค. ๋ฉ˜ํ† ๋Š” โ€œ๋ง›์žˆ๋Š” ์š”๋ฆฌโ€์™€ โ€œ๋ง›์—†๋Š” ์š”๋ฆฌโ€๋ฅผ ๋งŒ๋“  ์š”๋ฆฌ์‚ฌ๋“ค์˜ ํ–‰๋™ ํŒจํ„ด์„ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๊ณตํ†ต์ ์œผ๋กœ ํ•˜๋Š” ํ–‰๋™(ํฐ apron ์ž…๊ธฐ)์€ ์ œ์™ธํ•˜๊ณ , ๋ง›์žˆ๋Š” ์š”๋ฆฌ์—์„œ๋งŒ ํŠน๋ณ„ํ•˜๊ฒŒ ์ผ์–ด๋‚œ ํ–‰๋™(๋งˆ์ง€๋ง‰ 1์ดˆ ์ „์— ์†Œ์Šค ๋„ฃ๊ธฐ)์„ ์ •ํ™•ํžˆ ์ฐพ์•„๋ƒ…๋‹ˆ๋‹ค. ๊ทธ ํ›„ ์š”๋ฆฌ์‚ฌ์—๊ฒŒ โ€œ๊ทธ ์™ธ์˜ ๊ฒƒ์€ ๊ทธ๋Œ€๋กœ ํ•˜๊ณ , ์ด ํƒ€์ด๋ฐ๋งŒ ๊ผญ ๊ธฐ์–ตํ•ดโ€๋ผ๊ณ  ๊ฐ•์กฐํ•˜์—ฌ ์•Œ๋ ค์ค๋‹ˆ๋‹ค. ์ด๊ฒƒ์ด ๋ฐ”๋กœ ํ† ํฐ ๋‹จ์œ„๋กœ ์ค‘์š”๋„๋ฅผ ๊ฐ€๋ ค๋‚ด์–ด ํ•™์Šตํ•˜๋Š” DelTA์˜ ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

  1. ๊ทธ๋ž˜๋””์–ธํŠธ ์ˆ˜์ง‘ํ•˜๊ธฐ: ๋ชจ๋ธ์ด ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•˜๋ฉด, ์ •๋‹ต(๋†’์€ ๋ณด์ƒ)์ธ ๊ทธ๋ฃน๊ณผ ์˜ค๋‹ต(๋‚ฎ์€ ๋ณด์ƒ)์ธ ๊ทธ๋ฃน์œผ๋กœ ๋‚˜๋ˆ•๋‹ˆ๋‹ค. ๊ฐ ํ† ํฐ์ด ํ™•๋ฅ ์„ ์–ด๋–ป๊ฒŒ ๋ณ€ํ™”์‹œ์ผฐ๋Š”์ง€์— ๋Œ€ํ•œ ๊ทธ๋ž˜๋””์–ธํŠธ ๋ฒกํ„ฐ๋ฅผ ๋ชจ๋‘ ๋ชจ์๋‹ˆ๋‹ค.
  2. ๋ถ„๋ฅ˜๊ธฐ ๊ด€์  ์ ์šฉํ•˜๊ธฐ: ์ •๋‹ต ๊ทธ๋ฃน์˜ ํ† ํฐ ๊ทธ๋ž˜๋””์–ธํŠธ ํ‰๊ท (์ค‘์‹ฌ์ )๊ณผ ์˜ค๋‹ต ๊ทธ๋ฃน์˜ ํ† ํฐ ๊ทธ๋ž˜๋””์–ธํŠธ ํ‰๊ท (์ค‘์‹ฌ์ )์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹์€ ์ด ๋‘ ์ค‘์‹ฌ์ ์˜ ์ฐจ์ด๋ฅผ ์ด์šฉํ•ด ์—…๋ฐ์ดํŠธํ•˜์ง€๋งŒ, ์žก์Œ(ํ˜•์‹ ํ† ํฐ ๋“ฑ)์ด ์„ž์—ฌ ์žˆ์Šต๋‹ˆ๋‹ค.
  3. ๋ณ€๋ณ„์  ํ† ํฐ ์‹๋ณ„ํ•˜๊ธฐ: DelTA๋Š” ๊ฐ ํ† ํฐ์˜ ๊ทธ๋ž˜๋””์–ธํŠธ๊ฐ€ โ€˜์ •๋‹ต ์ค‘์‹ฌ์ โ€™์— ์–ผ๋งˆ๋‚˜ ๊ฐ€๊น๊ณ  โ€˜์˜ค๋‹ต ์ค‘์‹ฌ์ โ€™์— ์–ผ๋งˆ๋‚˜ ๋จผ์ง€๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ํ† ํฐ๋ณ„ ๊ฐ€์ค‘์น˜(Coefficient)๋ฅผ ๋ถ€์—ฌํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์ง„์งœ ์ •๋‹ต์˜ ์›์ธ์ด ๋˜๋Š” ํ† ํฐ์€ ๊ฐ€์ค‘์น˜๋ฅผ ๋†’์ด๊ณ , ๋‹จ์ˆœํžˆ ์ž์ฃผ ์“ฐ์ด๋Š” ํ† ํฐ์€ ๊ฐ€์ค‘์น˜๋ฅผ ๋‚ฎ์ถฅ๋‹ˆ๋‹ค.
  4. ์žฌ๊ฐ€์ค‘๋œ ์—…๋ฐ์ดํŠธ ์ˆ˜ํ–‰ํ•˜๊ธฐ: ๊ณ„์‚ฐ๋œ ๊ฐ€์ค‘์น˜๋ฅผ ๊ธฐ์กด ๊ฐ•ํ™” ํ•™์Šต ๋ชฉ์ ํ•จ์ˆ˜์— ๋ฐ˜์˜ํ•˜์—ฌ, ๋ชจ๋ธ์ด ์ง„์งœ ์ค‘์š”ํ•œ ํ† ํฐ์˜ ํ™•๋ฅ ์„ ๋†’์ด๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์š”์•ฝ

๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ์ˆ˜์‹์€ ์ •๋‹ต ๊ทธ๋ฃน(P)๊ณผ ์˜ค๋‹ต ๊ทธ๋ฃน(N)์˜ ํ† ํฐ ๊ทธ๋ž˜๋””์–ธํŠธ ์ง‘ํ•ฉ์„ ์ด์šฉํ•ด ํ† ํฐ๋ณ„ ๊ณ„์ˆ˜๋ฅผ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹์ด ๋‹จ์ˆœ ํ‰๊ท ์„ ์‚ฌ์šฉํ–ˆ๋‹ค๋ฉด, DelTA๋Š” ๋‘ ์ง‘ํ•ฉ์˜ ๋Œ€๋น„(Contrast)๋ฅผ ํ†ตํ•ด ํŠน์ • ํ† ํฐ์ด ์–ผ๋งˆ๋‚˜ โ€˜๋ณ€๋ณ„๋ ฅ(Discriminative)โ€˜์ด ์žˆ๋Š”์ง€๋ฅผ ์ˆ˜ํ•™์ ์œผ๋กœ ๊ณ„์‚ฐํ•˜์—ฌ ์ด๋ฅผ ํ•™์Šต์— ๋ฐ˜์˜ํ•ฉ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

ํ…Œ์ŠคํŠธ ๋ฒค์น˜๋งˆํฌ

์ด ๋…ผ๋ฌธ์€ ์ˆ˜ํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ€์žฅ ๋‚œ์ด๋„๊ฐ€ ๋†’์€ ๋ฒค์น˜๋งˆํฌ๋“ค์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.

  • AIME (American Invitational Mathematics Examination): 2024, 2025, 2026๋…„ ๋ฒ„์ „
  • HMMT (Harvardโ€“MIT Mathematics Tournament): 2025๋…„ 2์›”, 11์›” ๋ฐ 2026๋…„ 2์›” ๋ฒ„์ „
  • Brumo 25

์„ฑ๋Šฅ ํ–ฅ์ƒ ์ˆ˜์น˜

Qwen3-8B-Base ๋ชจ๋ธ์„ ๊ธฐ์ค€์œผ๋กœ ๊ธฐ์กด ์ตœ์ฒจ๋‹จ(SOTA) ๋ฐฉ๋ฒ•๋“ค๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ, DelTA๋Š” ๋ชจ๋“  ๋ฒค์น˜๋งˆํฌ์—์„œ ์••๋„์ ์ธ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

  • AIME24: ๊ธฐ์กด ๋ฐฉ๋ฒ•(DAPO)์€ 34.79์˜€์œผ๋‚˜, DelTA๋Š” 43.13์œผ๋กœ ์•ฝ 8.34์  ์ƒ์Šนํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋งค์šฐ ๋“œ๋ฌธ ์ˆ˜์น˜์˜ ํ–ฅ์ƒ์ž…๋‹ˆ๋‹ค.
  • ํ‰๊ท  ์„ฑ๋Šฅ(Avg.): DAPO๋Š” 22.95, DAPO w/ FT๋Š” 24.80, SAPO๋Š” 25.14์ธ ๋ฐ˜๋ฉด, DelTA๋Š” ์ด๋“ค์„ ๋ชจ๋‘ ๋›ฐ์–ด๋„˜๋Š” ์„ฑ๊ณผ๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค(ํ‘œ์ƒ ์ˆ˜์น˜ ์ƒ๋žต๋จ์œผ๋‚˜ ์ƒ์Šน์„ธ ๋ช…ํ™•).
  • ์ผ๊ด€์„ฑ: ๋‹จ์ผ ๋ฒค์น˜๋งˆํฌ์—์„œ ์šด ์ข‹๊ฒŒ ์ ์ˆ˜๊ฐ€ ์˜ค๋ฅธ ๊ฒฝ์šฐ๊ฐ€ ์•„๋‹ˆ๋ผ, 7๊ฐœ์˜ ํ…Œ์ŠคํŠธ ์…‹ ์ „์ฒด์—์„œ ์ผ๊ด€๋˜๊ฒŒ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

ํŠนํžˆ ๊ธด ์ถ”๋ก (Long-reasoning)์ด ํ•„์š”ํ•œ ๋ฌธ์ œ์—์„œ ํ‰๊ฐ€ ๊ธธ์ด๋ฅผ ์ตœ๋Œ€ 30,000 ํ† ํฐ๊นŒ์ง€ ์„ค์ •ํ•˜์—ฌ ํ…Œ์ŠคํŠธํ–ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์„ฑ๋Šฅ์ด ์œ ์ง€๋˜์—ˆ๋‹ค๋Š” ์ ์€ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” DelTA๊ฐ€ ๋ถˆํ•„์š”ํ•œ ํ† ํฐ ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•˜๊ณ  ํ•ต์‹ฌ ์ถ”๋ก  ํ๋ฆ„์„ ์ž˜ ํ•™์Šตํ–ˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

ํ•œ๊ณ„์ 

์ €์ž๋“ค์€ ๋ช…์‹œ์ ์œผ๋กœ ์–ธ๊ธ‰ํ•˜์ง€๋Š” ์•Š์•˜์œผ๋‚˜, ์ผ๋ฐ˜์ ์ธ RLVR ๋ฐฉ์‹์˜ ๊ณตํ†ต๋œ ํ•œ๊ณ„์™€ DelTA์˜ ํŠน์„ฑ์„ ๊ณ ๋ คํ•  ๋•Œ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ ๋“ค์„ ์ถ”์ธกํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๊ณ„์‚ฐ ๋น„์šฉ: ํ† ํฐ๋ณ„๋กœ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ  ๋น„๊ตํ•˜๋Š” ๊ณผ์ •์ด ์ถ”๊ฐ€๋˜๋ฏ€๋กœ, ๋‹จ์ˆœํ•œ RLVR ๋ฐฉ์‹๋ณด๋‹ค ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด๋‚˜ ์—ฐ์‚ฐ๋Ÿ‰์ด ๋‹ค์†Œ ๋†’์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ ์˜์กด์„ฑ: ๋…ผ๋ฌธ์˜ ์ œ๋ชฉ์ฒ˜๋Ÿผ โ€˜๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ(Verifiable)โ€™ ๋ณด์ƒ, ์ฆ‰ ์ˆ˜ํ•™ ๋ฌธ์ œ์ฒ˜๋Ÿผ ์ •๋‹ต ์—ฌ๋ถ€๋ฅผ ๊ธฐ๊ณ„์ ์œผ๋กœ ํ™•์ • ์ง€์„ ์ˆ˜ ์žˆ๋Š” ํ™˜๊ฒฝ์— ์ตœ์ ํ™”๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ฃผ๊ด€์ ์ธ ๊ธ€์“ฐ๊ธฐ๋‚˜ ๋Œ€ํ™”์—๋Š” ์ ์šฉํ•˜๊ธฐ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  • ๊ฒ€์ฆ ๋ถˆ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ(์˜ˆ: ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ) ํ™˜๊ฒฝ์œผ๋กœ์˜ ํ™•์žฅ
  • ํ† ํฐ ๋ถ„์„ ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์ถ”๊ฐ€์ ์ธ ๊ณ„์‚ฐ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ค„์ด๋Š” ํšจ์œจํ™” ๊ธฐ๋ฒ• ์—ฐ๊ตฌ

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๊ณณ

  • ์ˆ˜ํ•™ ๋ฌธ์ œ ํ’€์ด AI: ์ฝ”๋”ฉ ํ…Œ์ŠคํŠธ๋‚˜ ์ˆ˜ํ•™ ๊ฒฝ์‹œ ๋Œ€ํšŒ๋ฅผ ์œ„ํ•œ AI ๋ชจ๋ธ ํ•™์Šต์— ์ฆ‰์‹œ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ฝ”๋“œ ์ƒ์„ฑ ๋ชจ๋ธ: ์ฝ”๋“œ๊ฐ€ ์‹คํ–‰๋˜์–ด ํ†ต๊ณผ๋˜๋Š”์ง€ ์—ฌ๋ถ€๊ฐ€ ๋ช…ํ™•ํ•œ ๋ณด์ƒ์ด ๋˜๋Š” ์ƒํ™ฉ์—์„œ, ์ฝ”๋“œ์˜ ํ•ต์‹ฌ ๋กœ์ง์— ํ•ด๋‹นํ•˜๋Š” ํ† ํฐ์„ ์ •ํ™•ํžˆ ํ•™์Šตํ•˜๋Š” ๋ฐ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

  • ๋ชจ๋ธ: Large Language Model (์˜ˆ: Qwen, Llama ๋“ฑ ์˜คํ”ˆ ์†Œ์Šค ๋ชจ๋ธ)
  • ํ•˜๋“œ์›จ์–ด: ํ† ํฐ ๋‹จ์œ„์˜ ๋ฏธ๋ถ„๊ฐ’์„ ์ €์žฅํ•˜๊ณ  ์—ฐ์‚ฐํ•ด์•ผ ํ•˜๋ฏ€๋กœ, ๊ธฐ์กด RLHF(Reinforcement Learning from Human Feedback) ํ•™์Šต ํ™˜๊ฒฝ๋ณด๋‹ค ๋„‰๋„‰ํ•œ GPU ๋ฉ”๋ชจ๋ฆฌ(VRAM)๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. (์˜ˆ: A100 80GB ์ด์ƒ ๊ถŒ์žฅ)

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • Reinforcement Learning (๊ฐ•ํ™” ํ•™์Šต): ์—์ด์ „ํŠธ๊ฐ€ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ์ •์ฑ…(Policy)์„ ํ•™์Šตํ•˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹์˜ ํ•œ ๋ถ„์•ผ์ž…๋‹ˆ๋‹ค.
  • Policy Gradient (์ •์ฑ… ๊ฒฝ์‚ฌ): ์‹ ๊ฒฝ๋ง์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋ณด์ƒ์— ๋Œ€ํ•œ ๋ฏธ๋ถ„๊ฐ’(๊ทธ๋ž˜๋””์–ธํŠธ)์„ ๋”ฐ๋ผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๊ฐ•ํ™” ํ•™์Šต์˜ ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.
  • Verifiable Rewards (๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ): ์ •๋‹ต์ด ํ‹€๋ฆฐ์ง€๋ฅผ ํ”„๋กœ๊ทธ๋žจ์ด๋‚˜ ์ˆ˜ํ•™์  ์ฆ๋ช…์„ ํ†ตํ•ด ๊ฐ๊ด€์ ์œผ๋กœ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋Š” ๋ณด์ƒ ์‹ ํ˜ธ์ž…๋‹ˆ๋‹ค.
  • Large Language Models (๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ): GPT๋‚˜ Llama์ฒ˜๋Ÿผ ๋ฐฉ๋Œ€ํ•œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋œ ๊ฑฐ๋Œ€ํ•œ ์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  • Token (ํ† ํฐ): ํ…์ŠคํŠธ๋ฅผ ๋ชจ๋ธ๊ฐ€ ์ฒ˜๋ฆฌํ•˜๋Š” ์ตœ์†Œ ๋‹จ์œ„์ž…๋‹ˆ๋‹ค. (์˜ˆ: ๋‹จ์–ด ๋˜๋Š” ๋‹จ์–ด์˜ ์ผ๋ถ€)
  • Gradient (๊ทธ๋ž˜๋””์–ธํŠธ): ์†์‹ค ํ•จ์ˆ˜๋‚˜ ๋ณด์ƒ์„ ์ตœ์ ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์–ด๋А ๋ฐฉํ–ฅ์œผ๋กœ ์–ผ๋งˆ๋‚˜ ์กฐ์ ˆํ•ด์•ผ ํ• ์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๋ฒกํ„ฐ์ž…๋‹ˆ๋‹ค.
  • Discriminator (๋ถ„๋ฅ˜๊ธฐ): ๋‘ ๊ฐ€์ง€ ์ด์ƒ์˜ ๋ฒ”์ฃผ(์—ฌ๊ธฐ์„œ๋Š” ์ข‹์€ ๋‹ต๋ณ€๊ณผ ๋‚˜์œ ๋‹ต๋ณ€)๋ฅผ ๊ตฌ๋ณ„ํ•˜๋Š” ์—ญํ• ์„ ํ•˜๋Š” ๋ชจ๋ธ์ด๋‚˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡CiteVQA: Benchmarking Evidence Attrโ€ฆDD-092
๐ŸฅˆCode as Agent HarnessDD-093
๐Ÿฅ‰Anti-Self-Distillation for Reasoninโ€ฆDD-094
4.DelTA: Discriminative Token Credit โ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
5.TransitLM: A Large-Scale Dataset anโ€ฆDD-096

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-05-24 | ๐Ÿค– GLM-4.7 Deep Dive