โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-099 DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

arXiv: 2605.25604 Upvotes: 132 | Comments: 3 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 3


๋…ผ๋ฌธ ๋ฆฌ๋ทฐ: DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

ํ˜„์‹ค ์„ธ๊ณ„์—์„œ ์–ธ์–ด ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ฌ ๋•Œ๋Š” ์ •๋‹ต๋ฅ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋‹ต๋ณ€์˜ ๊ธธ์ด, ์ฝ”๋“œ์˜ ์•ˆ์ •์„ฑ, ํ˜•์‹ ์ค€์ˆ˜ ๋“ฑ ์—ฌ๋Ÿฌ ๋ชฉํ‘œ๋ฅผ ๋™์‹œ์— ๋งŒ์กฑ์‹œ์ผœ์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๋ฐฉ๋ฒ•์ธ Reward Combination(๋ณด์ƒ ๊ฒฐํ•ฉ)์€ ๋ณด์ƒ ๊ฐ’์ด ๋„ˆ๋ฌด ์ปค์ ธ ํ›ˆ๋ จ์ด ๋ถˆ์•ˆ์ •ํ•ด์ง€๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ๊ณ , Advantage Combination(์ด์  ๊ฒฐํ•ฉ)์€ ๋ชฉํ‘œ ๊ฐ„์˜ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๋ฌด์‹œํ•˜์—ฌ ์ •์ ์ธ ๊ฐ€์ค‘์น˜๋งŒ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๊ทธ๋ฃน ๋‚ด์—์„œ ๊ฐ ๋ชฉํ‘œ์˜ ๋ณด์ƒ ๋ถ„์‚ฐ(Variance)์„ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ธก์ •ํ•˜์—ฌ ๊ฐ€์ค‘์น˜๋ฅผ ๋™์ ์œผ๋กœ ์กฐ์ ˆํ•˜๋Š” DVAO ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•จ์œผ๋กœ์จ, ํ•™์Šต ์‹ ํ˜ธ๊ฐ€ ๊ฐ•ํ•œ ๋ชฉํ‘œ๋Š” ๊ฐ•ํ™”ํ•˜๊ณ  ๋…ธ์ด์ฆˆ๊ฐ€ ์„ž์ธ ๋ชฉํ‘œ๋Š” ์–ต์ œํ•˜์—ฌ ์•ˆ์ •์ ์ด๊ณ  ํšจ์œจ์ ์ธ ๋‹ค์ค‘ ๋ชฉํ‘œ ๊ฐ•ํ™” ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค.


2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ : ์—ฌ๋Ÿฌ ๊ณผ๋ชฉ์„ ํ‰๊ฐ€ํ•˜๋Š” ์„ ์ƒ๋‹˜

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์„ ํ•™์ƒ์„ ํ‰๊ฐ€ํ•˜๋Š” ์„ ์ƒ๋‹˜๋‹˜์˜ ์ƒํ™ฉ์— ๋น„์œ ํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ์—ฌ๋Ÿฌ๋ถ„์€ ํ•™์ƒ์ธ ์–ธ์–ด ๋ชจ๋ธ์ด๊ณ , ์„ ์ƒ๋‹˜์€ ๊ฐ•ํ™” ํ•™์Šต ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค.

  • ๊ธฐ์กด ๋ฐฉ๋ฒ• 1 (Reward Combination): ์ˆ˜ํ•™ ์ ์ˆ˜(100์  ๋งŒ์ )์™€ ๋„๋• ์ ์ˆ˜(10์  ๋งŒ์ )์„ ๊ทธ๋ƒฅ ๋”ํ•ด์„œ ์ด์ ์„ ๋ƒ…๋‹ˆ๋‹ค. ๋ฌธ์ œ๋Š” ์ˆ˜ํ•™ ์ ์ˆ˜๊ฐ€ ๋„ˆ๋ฌด ์ปค์„œ ๋„๋• ์ ์ˆ˜๋Š” ์˜ํ–ฅ๋ ฅ์ด ๊ฑฐ์˜ ์—†๊ณ , ์ด์ ์ด ๋“ค์‘ฅ๋‚ ์‘ฅํ•˜์—ฌ ํ•™์ƒ์ด ์ž์‹ ์ด ๋ฌด์—‡์„ ์ž˜๋ชปํ–ˆ๋Š”์ง€ ํ˜ผ๋ž€์Šค๋Ÿฌ์›Œ์ง‘๋‹ˆ๋‹ค(๋ถ„์‚ฐ ํญ๋ฐœ).
  • ๊ธฐ์กด ๋ฐฉ๋ฒ• 2 (Advantage Combination): ๋‘ ๊ณผ๋ชฉ ์ ์ˆ˜๋ฅผ ํ‘œ์ค€ํ™”ํ•ด์„œ ๋”ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ํ•ญ์ƒ ์ˆ˜ํ•™๊ณผ ๋„๋•์„ ๋˜‘๊ฐ™์€ ๋น„์œจ(50:50)๋กœ ๋ฐ˜์˜ํ•ฉ๋‹ˆ๋‹ค. ๋งŒ์•ฝ ์ด๋ฒˆ ์‹œํ—˜์—์„œ ์ˆ˜ํ•™ ๋ฌธ์ œ๊ฐ€ ๋„ˆ๋ฌด ์–ด๋ ค์›Œ ๋ชจ๋“  ํ•™์ƒ์ด ๋น„์Šทํ•œ ์ ์ˆ˜๋ฅผ ๋ฐ›์•˜๋‹ค๋ฉด, ์ˆ˜ํ•™ ๊ณต๋ถ€๋ฅผ ๋” ํ•˜๋ผ๊ณ  ๋งํ•ด์ฃผ๋Š” ๊ฒƒ์€ ๋ณ„ ๋„์›€์ด ์•ˆ ๋ฉ๋‹ˆ๋‹ค.
  • DVAO ๋ฐฉ๋ฒ•: ์„ ์ƒ๋‹˜์€ ์ด๋ฒˆ ์‹œํ—˜์˜ ๋ถ„์‚ฐ(Variance)์„ ๋ด…๋‹ˆ๋‹ค. ์ˆ˜ํ•™ ์ ์ˆ˜๋Š” ํ•™์ƒ๋งˆ๋‹ค ํŽธ์ฐจ๊ฐ€ ํฌ๋‹ค(์ž˜ํ•˜๋Š” ์นœ๊ตฌ์™€ ๋ชปํ•˜๋Š” ์นœ๊ตฌ๊ฐ€ ํ™•์‹คํžˆ ๋‚˜๋‰œ๋‹ค)๋ฉด, ์ด ๊ณผ๋ชฉ์ด โ€˜ํ•™์Šต์— ์ค‘์š”ํ•œ ์‹ ํ˜ธโ€™๋ฅผ ์ค€๋‹ค๊ณ  ํŒ๋‹จํ•ด ๊ฐ€์ค‘์น˜๋ฅผ ๋†’์ž…๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ๋„๋• ์ ์ˆ˜๋Š” ๋ชจ๋‘๊ฐ€ ๋˜‘๊ฐ™์ด 9์ ์„ ๋ฐ›์•˜๋‹ค๋ฉด(๋ถ„์‚ฐ์ด ๊ฑฐ์˜ ์—†๋‹ค), ์ด๊ฑด ํ•™์Šต์— ๋„์›€์ด ๋˜๋Š” ์‹ ํ˜ธ๊ฐ€ ์•„๋‹ˆ๋ผ๊ณ  ํŒ๋‹จํ•ด ๊ฐ€์ค‘์น˜๋ฅผ ๋‚ฎ์ถฅ๋‹ˆ๋‹ค. ์ฆ‰, ์ƒํ™ฉ์— ๋”ฐ๋ผ ์ค‘์š”ํ•œ ๊ณผ๋ชฉ์˜ ๋น„์ค‘์„ ๋™์ ์œผ๋กœ ๋ฐ”๊พธ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

  1. ๊ทธ๋ฃน ์ƒ์„ฑ (Group Rollout): ์–ธ์–ด ๋ชจ๋ธ์ด ํ•˜๋‚˜์˜ ์งˆ๋ฌธ์— ๋Œ€ํ•ด ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•œ ๊ทธ๋ฃน์œผ๋กœ ๋ฌถ์Šต๋‹ˆ๋‹ค.
  2. ๋‹ค์ค‘ ๋ณด์ƒ ๊ณ„์‚ฐ: ๊ทธ๋ฃน ๋‚ด์˜ ๊ฐ ๋‹ต๋ณ€์— ๋Œ€ํ•ด ์—ฌ๋Ÿฌ ๋ณด์ƒ ๋ชจ๋ธ์ด ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด โ€˜์ •ํ™•๋„ ์ ์ˆ˜โ€™, โ€˜๊ธธ์ด ์ ์ˆ˜โ€™ ๋“ฑ์„ ๋งค๊น๋‹ˆ๋‹ค.
  3. ๋ถ„์‚ฐ ๊ธฐ๋ฐ˜ ๊ฐ€์ค‘์น˜ ๊ณ„์‚ฐ: ๊ฐ ๋ชฉํ‘œ(์ •ํ™•๋„, ๊ธธ์ด ๋“ฑ)๋ณ„๋กœ ๊ทธ๋ฃน ๋‚ด ์ ์ˆ˜๊ฐ€ ์–ผ๋งˆ๋‚˜ ํผ์ ธ ์žˆ๋Š”์ง€(๋ถ„์‚ฐ)๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์ ์ˆ˜๊ฐ€ ๋‹ค์–‘ํ•˜๊ฒŒ ํผ์ ธ ์žˆ์„์ˆ˜๋ก(๋ถ„์‚ฐ์ด ํด์ˆ˜๋ก) ํ•™์Šต์— ์ข‹์€ ์‹ ํ˜ธ์ด๋ฏ€๋กœ ๊ฐ€์ค‘์น˜๋ฅผ ๋†’๊ฒŒ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค.
  4. ๋™์  ์ด์ (Advantage) ๊ฒฐํ•ฉ: ๊ณ„์‚ฐ๋œ ๊ฐ€์ค‘์น˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์—ฌ๋Ÿฌ ๋ชฉํ‘œ์˜ ์ด์ (Advantage, ํ‰๊ท  ๋Œ€๋น„ ์–ผ๋งˆ๋‚˜ ์ž˜ํ–ˆ๋Š”์ง€)์„ ํ•ฉ์นฉ๋‹ˆ๋‹ค.
  5. ์ •์ฑ… ์—…๋ฐ์ดํŠธ: ์ด ์ตœ์ข… ์ด์ ์„ ์‚ฌ์šฉํ•ด ์–ธ์–ด ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์ˆ˜์‹๊ณผ ์•Œ๊ณ ๋ฆฌ์ฆ˜

๋…ผ๋ฌธ์˜ Proposition 1์€ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์ด ๊ฐ€์ง„ ํฌ๊ธฐ(Magnitude) ๋ฌธ์ œ๋ฅผ ์ˆ˜ํ•™์ ์œผ๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

$$ \frac{1}{G}\sum_{j=1}^{G}\left(A_{\text{sum}}^{(i,j)}\right)^{2} \geq \frac{1}{G}\sum_{j=1}^{G}\left(A^{(i,j)}\right)^{2} $$

์ด ์‹์€ Reward Combination(์™ผ์ชฝ ํ•ญ)์ด Advantage Combination(์˜ค๋ฅธ์ชฝ ํ•ญ)๋ณด๋‹ค ์ด์ ์˜ ์ œ๊ณฑ ํฌ๊ธฐ๊ฐ€ ๋” ํฌ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ด์ ์ด ๋„ˆ๋ฌด ํฌ๋ฉด ๋ชจ๋ธ ์—…๋ฐ์ดํŠธ๊ฐ€ ๋„ˆ๋ฌด ์ปค์ ธ์„œ ํ•™์Šต์ด ํŠ€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. DVAO๋Š” ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋ถ„์‚ฐ์˜ ์—ญ์ˆ˜๋ฅผ ๊ฐ€์ค‘์น˜๋กœ ํ™œ์šฉํ•˜์—ฌ, ๋…ธ์ด์ฆˆ๊ฐ€ ์ ๊ณ  ๋ช…ํ™•ํ•œ ํ•™์Šต ์‹ ํ˜ธ๋ฅผ ๊ฐ€์ง„ ๋ชฉํ‘œ์— ์ง‘์ค‘ํ•ฉ๋‹ˆ๋‹ค.


3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์—ฐ๊ตฌ์ง„์€ ์ˆ˜ํ•™ ์ถ”๋ก (Mathematical Reasoning)๊ณผ ๋„๊ตฌ ์‚ฌ์šฉ(Tool-use)์ด๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ๋Œ€ํ‘œ์ ์ธ ๋ฉ€ํ‹ฐ ๋ฆฌ์›Œ๋“œ ํ™˜๊ฒฝ์—์„œ ์‹คํ—˜์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ์‚ฌ์šฉ๋œ ๋ฒค์น˜๋งˆํฌ:

    • ์ˆ˜ํ•™ ์ถ”๋ก : AIME-2024, AIME-2025, MATH500, OlympiadBench, AMC23 ๋“ฑ ๊ณ ๋‚œ์ด๋„ ์ˆ˜ํ•™ ๋ฌธ์ œ ๋ฐ์ดํ„ฐ์…‹. ์—ฌ๊ธฐ์„œ๋Š” โ€˜์ •๋‹ต ์ •ํ™•๋„(Accuracy)โ€˜์™€ โ€˜๋‹ต๋ณ€ ๊ธธ์ด ์ œํ•œ(Length constraint)โ€™ ๋‘ ๊ฐ€์ง€๋ฅผ ์ตœ์ ํ™”ํ•ด์•ผ ํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ๋„๊ตฌ ์‚ฌ์šฉ: BFCL-v4 (Berkeley Function Call Leaderboard). ๋„๊ตฌ๋ฅผ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ํ˜ธ์ถœํ•˜๋Š”์ง€(Correctness)์™€ ํ˜•์‹์„ ์ง€ํ‚ค๋Š”์ง€(Format compliance)๋ฅผ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์„ฑ๋Šฅ ๋น„๊ต (๊ธฐ์กด SOTA ๋Œ€๋น„):

    • ๊ธฐ์กด์˜ GRPO, Reward Combination(RC), Advantage Combination(AC), ๊ทธ๋ฆฌ๊ณ  GDPO ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ๊ฒฐ๊ณผ ํ‘œ(Table 1)์— ๋”ฐ๋ฅด๋ฉด DVAO๋Š” AIME-2024, 2025 ๋ฐ MATH500 ๋“ฑ ์ˆ˜ํ•™ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ •ํ™•๋„์™€ ๊ธธ์ด ์ œํ•œ ์ค€์ˆ˜์œจ ๋‘ ์ง€ํ‘œ ๋ชจ๋‘์—์„œ ํ‰๊ท ์ ์œผ๋กœ ๊ฐ€์žฅ ๋†’์€ ์„ฑ๋Šฅ(SOTA)์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ํŠนํžˆ ๋‹จ์ˆœํžˆ ๋ฆฌ์›Œ๋“œ๋ฅผ ๋”ํ•˜๋Š” ๋ฐฉ์‹(RC)์€ ํ•™์Šต์ด ๋ถˆ์•ˆ์ •ํ•ด ์„ฑ๋Šฅ์ด ๋‚ฎ์•˜๊ณ , ์ •์  ๊ฐ€์ค‘์น˜๋ฅผ ์“ฐ๋Š” ๋ฐฉ์‹(AC)๋ณด๋‹ค DVAO๊ฐ€ ๋” ๊ท ํ˜• ์žกํžŒ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ:

    • ๋‹จ์ˆœํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋„˜์–ด, ์„œ๋กœ ์ถฉ๋Œํ•  ์ˆ˜ ์žˆ๋Š” ๋ชฉํ‘œ(์˜ˆ: ์ •ํ™•ํ•œ ๋‹ต์„ ๋‚ด๊ธฐ ์œ„ํ•ด ๊ธธ์–ด์ง€๋Š” ๊ฒฝํ–ฅ vs ์งง์•„์•ผ ํ•จ) ์‚ฌ์ด์—์„œ ์ตœ์ ์˜ ํƒ€ํ˜‘์ (Trade-off)์„ ์ฐพ์•„๋‚ด๋Š” ๋Šฅ๋ ฅ์ด ๋›ฐ์–ด๋‚ฌ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์ •๋‹ต๋ฅ ์„ ๋†’์ด๋ฉด์„œ๋„ ๋‹ต๋ณ€์ด ๋„ˆ๋ฌด ๊ธธ์–ด์ง€๋Š” ํ˜„์ƒ์„ ํšจ๊ณผ์ ์œผ๋กœ ์–ต์ œํ–ˆ์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  • ์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„: ์ œ๊ณต๋œ ํ…์ŠคํŠธ ๋‚ด์—์„œ ์ €์ž๊ฐ€ ๋ช…์‹œ์ ์œผ๋กœ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„์ ์€ ๋ฐœ๊ฒฌ๋˜์ง€ ์•Š์•˜์œผ๋‚˜, ์ผ๋ฐ˜์ ์œผ๋กœ ๋ถ„์‚ฐ ๊ธฐ๋ฐ˜ ๋ฐฉ์‹๋ก ์€ ์ด์ƒ์น˜(Outlier)์— ๋ฏผ๊ฐํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์€ ๊ณ ๋ คํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
  • ๊ฐœ์„  ๊ฐ€๋Šฅ์„ฑ: ํ˜„์žฌ๋Š” ์„ ํ˜• ๊ฒฐํ•ฉ ํ˜•ํƒœ๋ฅผ ์ทจํ•˜๊ณ  ์žˆ์œผ๋‚˜, ๋ชฉํ‘œ ๊ฐ„์˜ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๋น„์„ ํ˜•์ ์ธ ๊ฒฝ์šฐ์— ๋Œ€์‘ํ•  ์ˆ˜ ์žˆ๋Š” ๋” ๋ณต์žกํ•œ ๊ฒฐํ•ฉ ํ•จ์ˆ˜๋ฅผ ํƒ๊ตฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋ถ„์‚ฐ ๊ณ„์‚ฐ์„ ์œ„ํ•œ ๊ทธ๋ฃน ํฌ๊ธฐ์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ ๋ฏผ๊ฐ๋„ ๋ถ„์„๋„ ์ถ”๊ฐ€๋กœ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

  • ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ถ„์•ผ:

    • ๊ณ ๊ฐ ์‘๋Œ€ ์ฑ—๋ด‡: ์นœ์ ˆํ•จ๊ณผ ์ •ํ™•์„ฑ, ๊ทธ๋ฆฌ๊ณ  ๋‹ต๋ณ€ ์†๋„(๊ธธ์ด)๋ฅผ ๋™์‹œ์— ์ตœ์ ํ™”ํ•ด์•ผ ํ•˜๋Š” ์„œ๋น„์Šค.
    • ์ฝ”๋”ฉ ์—์ด์ „ํŠธ: ์ฝ”๋“œ๊ฐ€ ์ •์ƒ ์ž‘๋™ํ•ด์•ผ ํ•˜๋ฉด์„œ๋„(์ •ํ™•๋„), ๋ณด์•ˆ ๊ฐ€์ด๋“œ๋ผ์ธ์ด๋‚˜ ์Šคํƒ€์ผ(ํ˜•์‹)์„ ์ค€์ˆ˜ํ•ด์•ผ ํ•˜๋Š” ๊ฐœ๋ฐœ ๋ณด์กฐ ๋„๊ตฌ.
    • ์š”์•ฝ ๋ด‡: ํ•ต์‹ฌ ๋‚ด์šฉ์„ ๋น ๋œจ๋ฆฌ์ง€ ์•Š์œผ๋ฉด์„œ(์ •๋ณด ๋ณด์กด) ์‚ฌ์šฉ์ž๊ฐ€ ์›ํ•˜๋Š” ๊ธธ์ด๋กœ ์š”์•ฝํ•ด์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ.
  • ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค:

    • GPU: ๊ธฐ๋ณธ GRPO ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ ๋ณ„๋„์˜ ๊ฐ€์น˜ ํ•จ์ˆ˜(Value Function)๋ฅผ ํ•™์Šต์‹œํ‚ค๋Š” PPO์— ๋น„ํ•ด ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ์ ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์—ฌ๋Ÿฌ ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์„ ๋™์‹œ์— ๋Œ๋ ค์•ผ ํ•˜๋ฏ€๋กœ ๋‹จ์ผ ๋ฆฌ์›Œ๋“œ ์„ค์ •๋ณด๋‹ค๋Š” ์ถ”๋ก  ์—ฐ์‚ฐ๋Ÿ‰์ด ๋‹ค์†Œ ๋Š˜์–ด๋‚  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๋ฐ์ดํ„ฐ: ๊ฐ ๋ชฉํ‘œ๋ณ„๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ๋ณ„๋„์˜ ๋ณด์ƒ ๋ชจ๋ธ(Reward Model)์ด๋‚˜ ๊ทœ์น™ ๊ธฐ๋ฐ˜์˜ ํ‰๊ฐ€ ์Šคํฌ๋ฆฝํŠธ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • ๊ฐ•ํ™” ํ•™์Šต(Reinforcement Learning): ์—์ด์ „ํŠธ๊ฐ€ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ํ–‰๋™์„ ํ•™์Šตํ•˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹์˜ ํ•œ ์˜์—ญ.
  • ์–ธ์–ด ๋ชจ๋ธ ์ •๋ ฌ(LLM Alignment): ์‚ฌ๋žŒ์˜ ์˜๋„๋‚˜ ์„ ํ˜ธ์— ๋งž์ถฐ ์–ธ์–ด ๋ชจ๋ธ์˜ ํ–‰๋™์„ ์กฐ์ •ํ•˜๋Š” ๊ณผ์ •.
  • GRPO(Group Relative Policy Optimization): ๋ณ„๋„์˜ ๊ฐ€์น˜ ๋ชจ๋ธ ์—†์ด ๊ทธ๋ฃน ๋‚ด ์ƒ˜ํ”Œ๋“ค ๊ฐ„์˜ ์ƒ๋Œ€์ ์ธ ์ˆœ์œ„๋ฅผ ํ†ตํ•ด ์ด์ ์„ ์ถ”์ •ํ•˜์—ฌ ํšจ์œจ์ ์œผ๋กœ ์–ธ์–ด ๋ชจ๋ธ์„ ์ตœ์ ํ™”ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜.
  • Advantage Function (์ด์  ํ•จ์ˆ˜): ํŠน์ • ์ƒํƒœ์—์„œ ํŠน์ • ํ–‰๋™์„ ์ทจํ–ˆ์„ ๋•Œ์˜ ๊ธฐ๋Œ€ ๋ณด์ƒ์ด, ํ‰๊ท ์ ์ธ ํ–‰๋™์„ ์ทจํ–ˆ์„ ๋•Œ๋ณด๋‹ค ์–ผ๋งˆ๋‚˜ ๋” ์ข‹์€์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฐ’.
  • Reward Scalarization (๋ณด์ƒ ์Šค์นผ๋ผํ™”): ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋ณด์ƒ ๊ฐ’์„ ํ•˜๋‚˜์˜ ์Šค์นผ๋ผ ๊ฐ’์œผ๋กœ ํ•ฉ์น˜๋Š” ๊ณผ์ •.
  • Variance (๋ถ„์‚ฐ): ๋ฐ์ดํ„ฐ๊ฐ€ ํ‰๊ท ์œผ๋กœ๋ถ€ํ„ฐ ์–ผ๋งˆ๋‚˜ ํผ์ ธ ์žˆ๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ฒ™๋„๋กœ, ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ํ•™์Šต ์‹ ํ˜ธ์˜ ๋ช…ํ™•์„ฑ์„ ํŒ๋‹จํ•˜๋Š” ์ง€ํ‘œ๋กœ ์‚ฌ์šฉ๋จ.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Gamma-World: Generative Multi-Agentโ€ฆDD-097
๐ŸฅˆSkillOpt: Executive Strategy for Seโ€ฆDD-098
๐Ÿฅ‰DVAO: Dynamic Variance-adaptive Advโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
4.LocateAnything: Fast and High-Qualiโ€ฆDD-100
5.AgentDoG 1.5: A Lightweight and Scaโ€ฆDD-101

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-05-31 | ๐Ÿค– GLM-4.7 Deep Dive