โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-099 DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning
arXiv: 2605.25604 Upvotes: 132 | Comments: 3 ์์: ์ด๋ฒ ์ฃผ Top 3
๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
ํ์ค ์ธ๊ณ์์ ์ธ์ด ๋ชจ๋ธ์ ํ๋ จ์ํฌ ๋๋ ์ ๋ต๋ฅ ๋ฟ๋ง ์๋๋ผ ๋ต๋ณ์ ๊ธธ์ด, ์ฝ๋์ ์์ ์ฑ, ํ์ ์ค์ ๋ฑ ์ฌ๋ฌ ๋ชฉํ๋ฅผ ๋์์ ๋ง์กฑ์์ผ์ผ ํฉ๋๋ค. ๊ธฐ์กด์ ๋ฐฉ๋ฒ์ธ Reward Combination(๋ณด์ ๊ฒฐํฉ)์ ๋ณด์ ๊ฐ์ด ๋๋ฌด ์ปค์ ธ ํ๋ จ์ด ๋ถ์์ ํด์ง๋ ๋ฌธ์ ๊ฐ ์์๊ณ , Advantage Combination(์ด์ ๊ฒฐํฉ)์ ๋ชฉํ ๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ๋ฌด์ํ์ฌ ์ ์ ์ธ ๊ฐ์ค์น๋ง ์ฌ์ฉํ๋ค๋ ํ๊ณ๊ฐ ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ๊ทธ๋ฃน ๋ด์์ ๊ฐ ๋ชฉํ์ ๋ณด์ ๋ถ์ฐ(Variance)์ ์ค์๊ฐ์ผ๋ก ์ธก์ ํ์ฌ ๊ฐ์ค์น๋ฅผ ๋์ ์ผ๋ก ์กฐ์ ํ๋ DVAO ๋ฐฉ๋ฒ์ ์ ์ํจ์ผ๋ก์จ, ํ์ต ์ ํธ๊ฐ ๊ฐํ ๋ชฉํ๋ ๊ฐํํ๊ณ ๋ ธ์ด์ฆ๊ฐ ์์ธ ๋ชฉํ๋ ์ต์ ํ์ฌ ์์ ์ ์ด๊ณ ํจ์จ์ ์ธ ๋ค์ค ๋ชฉํ ๊ฐํ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : ์ฌ๋ฌ ๊ณผ๋ชฉ์ ํ๊ฐํ๋ ์ ์๋
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ํ์์ ํ๊ฐํ๋ ์ ์๋๋์ ์ํฉ์ ๋น์ ํด ๋ณด๊ฒ ์ต๋๋ค. ์ฌ๋ฌ๋ถ์ ํ์์ธ ์ธ์ด ๋ชจ๋ธ์ด๊ณ , ์ ์๋์ ๊ฐํ ํ์ต ์์คํ ์ ๋๋ค.
- ๊ธฐ์กด ๋ฐฉ๋ฒ 1 (Reward Combination): ์ํ ์ ์(100์ ๋ง์ )์ ๋๋ ์ ์(10์ ๋ง์ )์ ๊ทธ๋ฅ ๋ํด์ ์ด์ ์ ๋ ๋๋ค. ๋ฌธ์ ๋ ์ํ ์ ์๊ฐ ๋๋ฌด ์ปค์ ๋๋ ์ ์๋ ์ํฅ๋ ฅ์ด ๊ฑฐ์ ์๊ณ , ์ด์ ์ด ๋ค์ฅ๋ ์ฅํ์ฌ ํ์์ด ์์ ์ด ๋ฌด์์ ์๋ชปํ๋์ง ํผ๋์ค๋ฌ์์ง๋๋ค(๋ถ์ฐ ํญ๋ฐ).
- ๊ธฐ์กด ๋ฐฉ๋ฒ 2 (Advantage Combination): ๋ ๊ณผ๋ชฉ ์ ์๋ฅผ ํ์คํํด์ ๋ํฉ๋๋ค. ํ์ง๋ง ํญ์ ์ํ๊ณผ ๋๋์ ๋๊ฐ์ ๋น์จ(50:50)๋ก ๋ฐ์ํฉ๋๋ค. ๋ง์ฝ ์ด๋ฒ ์ํ์์ ์ํ ๋ฌธ์ ๊ฐ ๋๋ฌด ์ด๋ ค์ ๋ชจ๋ ํ์์ด ๋น์ทํ ์ ์๋ฅผ ๋ฐ์๋ค๋ฉด, ์ํ ๊ณต๋ถ๋ฅผ ๋ ํ๋ผ๊ณ ๋งํด์ฃผ๋ ๊ฒ์ ๋ณ ๋์์ด ์ ๋ฉ๋๋ค.
- DVAO ๋ฐฉ๋ฒ: ์ ์๋์ ์ด๋ฒ ์ํ์ ๋ถ์ฐ(Variance)์ ๋ด ๋๋ค. ์ํ ์ ์๋ ํ์๋ง๋ค ํธ์ฐจ๊ฐ ํฌ๋ค(์ํ๋ ์น๊ตฌ์ ๋ชปํ๋ ์น๊ตฌ๊ฐ ํ์คํ ๋๋๋ค)๋ฉด, ์ด ๊ณผ๋ชฉ์ด โํ์ต์ ์ค์ํ ์ ํธโ๋ฅผ ์ค๋ค๊ณ ํ๋จํด ๊ฐ์ค์น๋ฅผ ๋์ ๋๋ค. ๋ฐ๋ฉด ๋๋ ์ ์๋ ๋ชจ๋๊ฐ ๋๊ฐ์ด 9์ ์ ๋ฐ์๋ค๋ฉด(๋ถ์ฐ์ด ๊ฑฐ์ ์๋ค), ์ด๊ฑด ํ์ต์ ๋์์ด ๋๋ ์ ํธ๊ฐ ์๋๋ผ๊ณ ํ๋จํด ๊ฐ์ค์น๋ฅผ ๋ฎ์ถฅ๋๋ค. ์ฆ, ์ํฉ์ ๋ฐ๋ผ ์ค์ํ ๊ณผ๋ชฉ์ ๋น์ค์ ๋์ ์ผ๋ก ๋ฐ๊พธ๋ ๊ฒ์ ๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
- ๊ทธ๋ฃน ์์ฑ (Group Rollout): ์ธ์ด ๋ชจ๋ธ์ด ํ๋์ ์ง๋ฌธ์ ๋ํด ์ฌ๋ฌ ๊ฐ์ ๋ต๋ณ์ ์์ฑํฉ๋๋ค. ์ด๋ฅผ ํ ๊ทธ๋ฃน์ผ๋ก ๋ฌถ์ต๋๋ค.
- ๋ค์ค ๋ณด์ ๊ณ์ฐ: ๊ทธ๋ฃน ๋ด์ ๊ฐ ๋ต๋ณ์ ๋ํด ์ฌ๋ฌ ๋ณด์ ๋ชจ๋ธ์ด ํ๊ฐํฉ๋๋ค. ์๋ฅผ ๋ค์ด โ์ ํ๋ ์ ์โ, โ๊ธธ์ด ์ ์โ ๋ฑ์ ๋งค๊น๋๋ค.
- ๋ถ์ฐ ๊ธฐ๋ฐ ๊ฐ์ค์น ๊ณ์ฐ: ๊ฐ ๋ชฉํ(์ ํ๋, ๊ธธ์ด ๋ฑ)๋ณ๋ก ๊ทธ๋ฃน ๋ด ์ ์๊ฐ ์ผ๋ง๋ ํผ์ ธ ์๋์ง(๋ถ์ฐ)๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์ ์๊ฐ ๋ค์ํ๊ฒ ํผ์ ธ ์์์๋ก(๋ถ์ฐ์ด ํด์๋ก) ํ์ต์ ์ข์ ์ ํธ์ด๋ฏ๋ก ๊ฐ์ค์น๋ฅผ ๋๊ฒ ์ค์ ํฉ๋๋ค.
- ๋์ ์ด์ (Advantage) ๊ฒฐํฉ: ๊ณ์ฐ๋ ๊ฐ์ค์น๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ๋ฌ ๋ชฉํ์ ์ด์ (Advantage, ํ๊ท ๋๋น ์ผ๋ง๋ ์ํ๋์ง)์ ํฉ์นฉ๋๋ค.
- ์ ์ฑ ์ ๋ฐ์ดํธ: ์ด ์ต์ข ์ด์ ์ ์ฌ์ฉํด ์ธ์ด ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค.
ํต์ฌ ์์๊ณผ ์๊ณ ๋ฆฌ์ฆ
๋ ผ๋ฌธ์ Proposition 1์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ด ๊ฐ์ง ํฌ๊ธฐ(Magnitude) ๋ฌธ์ ๋ฅผ ์ํ์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค.
$$ \frac{1}{G}\sum_{j=1}^{G}\left(A_{\text{sum}}^{(i,j)}\right)^{2} \geq \frac{1}{G}\sum_{j=1}^{G}\left(A^{(i,j)}\right)^{2} $$
์ด ์์ Reward Combination(์ผ์ชฝ ํญ)์ด Advantage Combination(์ค๋ฅธ์ชฝ ํญ)๋ณด๋ค ์ด์ ์ ์ ๊ณฑ ํฌ๊ธฐ๊ฐ ๋ ํฌ๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ์ด์ ์ด ๋๋ฌด ํฌ๋ฉด ๋ชจ๋ธ ์ ๋ฐ์ดํธ๊ฐ ๋๋ฌด ์ปค์ ธ์ ํ์ต์ด ํ๊ฒ ๋ฉ๋๋ค. DVAO๋ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ถ์ฐ์ ์ญ์๋ฅผ ๊ฐ์ค์น๋ก ํ์ฉํ์ฌ, ๋ ธ์ด์ฆ๊ฐ ์ ๊ณ ๋ช ํํ ํ์ต ์ ํธ๋ฅผ ๊ฐ์ง ๋ชฉํ์ ์ง์คํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ฐ๊ตฌ์ง์ ์ํ ์ถ๋ก (Mathematical Reasoning)๊ณผ ๋๊ตฌ ์ฌ์ฉ(Tool-use)์ด๋ผ๋ ๋ ๊ฐ์ง ๋ํ์ ์ธ ๋ฉํฐ ๋ฆฌ์๋ ํ๊ฒฝ์์ ์คํ์ ์งํํ์ต๋๋ค.
-
์ฌ์ฉ๋ ๋ฒค์น๋งํฌ:
- ์ํ ์ถ๋ก : AIME-2024, AIME-2025, MATH500, OlympiadBench, AMC23 ๋ฑ ๊ณ ๋์ด๋ ์ํ ๋ฌธ์ ๋ฐ์ดํฐ์ . ์ฌ๊ธฐ์๋ โ์ ๋ต ์ ํ๋(Accuracy)โ์ โ๋ต๋ณ ๊ธธ์ด ์ ํ(Length constraint)โ ๋ ๊ฐ์ง๋ฅผ ์ต์ ํํด์ผ ํ์ต๋๋ค.
- ๋๊ตฌ ์ฌ์ฉ: BFCL-v4 (Berkeley Function Call Leaderboard). ๋๊ตฌ๋ฅผ ์ฌ๋ฐ๋ฅด๊ฒ ํธ์ถํ๋์ง(Correctness)์ ํ์์ ์งํค๋์ง(Format compliance)๋ฅผ ํ๊ฐํ์ต๋๋ค.
-
์ฑ๋ฅ ๋น๊ต (๊ธฐ์กด SOTA ๋๋น):
- ๊ธฐ์กด์ GRPO, Reward Combination(RC), Advantage Combination(AC), ๊ทธ๋ฆฌ๊ณ GDPO ์๊ณ ๋ฆฌ์ฆ๊ณผ ๋น๊ตํ์ต๋๋ค.
- ๊ฒฐ๊ณผ ํ(Table 1)์ ๋ฐ๋ฅด๋ฉด DVAO๋ AIME-2024, 2025 ๋ฐ MATH500 ๋ฑ ์ํ ๋ฒค์น๋งํฌ์์ ์ ํ๋์ ๊ธธ์ด ์ ํ ์ค์์จ ๋ ์งํ ๋ชจ๋์์ ํ๊ท ์ ์ผ๋ก ๊ฐ์ฅ ๋์ ์ฑ๋ฅ(SOTA)์ ๊ธฐ๋กํ์ต๋๋ค.
- ํนํ ๋จ์ํ ๋ฆฌ์๋๋ฅผ ๋ํ๋ ๋ฐฉ์(RC)์ ํ์ต์ด ๋ถ์์ ํด ์ฑ๋ฅ์ด ๋ฎ์๊ณ , ์ ์ ๊ฐ์ค์น๋ฅผ ์ฐ๋ ๋ฐฉ์(AC)๋ณด๋ค DVAO๊ฐ ๋ ๊ท ํ ์กํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
-
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ:
- ๋จ์ํ ์ฑ๋ฅ ํฅ์์ ๋์ด, ์๋ก ์ถฉ๋ํ ์ ์๋ ๋ชฉํ(์: ์ ํํ ๋ต์ ๋ด๊ธฐ ์ํด ๊ธธ์ด์ง๋ ๊ฒฝํฅ vs ์งง์์ผ ํจ) ์ฌ์ด์์ ์ต์ ์ ํํ์ (Trade-off)์ ์ฐพ์๋ด๋ ๋ฅ๋ ฅ์ด ๋ฐ์ด๋ฌ์ต๋๋ค. ์ฆ, ์ ๋ต๋ฅ ์ ๋์ด๋ฉด์๋ ๋ต๋ณ์ด ๋๋ฌด ๊ธธ์ด์ง๋ ํ์์ ํจ๊ณผ์ ์ผ๋ก ์ต์ ํ์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ์ ์๊ฐ ์ธ๊ธํ ํ๊ณ: ์ ๊ณต๋ ํ ์คํธ ๋ด์์ ์ ์๊ฐ ๋ช ์์ ์ผ๋ก ์ธ๊ธํ ํ๊ณ์ ์ ๋ฐ๊ฒฌ๋์ง ์์์ผ๋, ์ผ๋ฐ์ ์ผ๋ก ๋ถ์ฐ ๊ธฐ๋ฐ ๋ฐฉ์๋ก ์ ์ด์์น(Outlier)์ ๋ฏผ๊ฐํ ์ ์๋ค๋ ์ ์ ๊ณ ๋ คํด์ผ ํฉ๋๋ค.
- ๊ฐ์ ๊ฐ๋ฅ์ฑ: ํ์ฌ๋ ์ ํ ๊ฒฐํฉ ํํ๋ฅผ ์ทจํ๊ณ ์์ผ๋, ๋ชฉํ ๊ฐ์ ์๊ด๊ด๊ณ๊ฐ ๋น์ ํ์ ์ธ ๊ฒฝ์ฐ์ ๋์ํ ์ ์๋ ๋ ๋ณต์กํ ๊ฒฐํฉ ํจ์๋ฅผ ํ๊ตฌํ ์ ์์ต๋๋ค. ๋ํ, ๋ถ์ฐ ๊ณ์ฐ์ ์ํ ๊ทธ๋ฃน ํฌ๊ธฐ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ฏผ๊ฐ๋ ๋ถ์๋ ์ถ๊ฐ๋ก ํ์ํ ์ ์์ต๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
-
๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ถ์ผ:
- ๊ณ ๊ฐ ์๋ ์ฑ๋ด: ์น์ ํจ๊ณผ ์ ํ์ฑ, ๊ทธ๋ฆฌ๊ณ ๋ต๋ณ ์๋(๊ธธ์ด)๋ฅผ ๋์์ ์ต์ ํํด์ผ ํ๋ ์๋น์ค.
- ์ฝ๋ฉ ์์ด์ ํธ: ์ฝ๋๊ฐ ์ ์ ์๋ํด์ผ ํ๋ฉด์๋(์ ํ๋), ๋ณด์ ๊ฐ์ด๋๋ผ์ธ์ด๋ ์คํ์ผ(ํ์)์ ์ค์ํด์ผ ํ๋ ๊ฐ๋ฐ ๋ณด์กฐ ๋๊ตฌ.
- ์์ฝ ๋ด: ํต์ฌ ๋ด์ฉ์ ๋น ๋จ๋ฆฌ์ง ์์ผ๋ฉด์(์ ๋ณด ๋ณด์กด) ์ฌ์ฉ์๊ฐ ์ํ๋ ๊ธธ์ด๋ก ์์ฝํด์ผ ํ๋ ๊ฒฝ์ฐ.
-
ํ์ํ ๋ฆฌ์์ค:
- GPU: ๊ธฐ๋ณธ GRPO ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๋ฏ๋ก ๋ณ๋์ ๊ฐ์น ํจ์(Value Function)๋ฅผ ํ์ต์ํค๋ PPO์ ๋นํด ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ์ ์ต๋๋ค. ํ์ง๋ง ์ฌ๋ฌ ๋ฆฌ์๋ ๋ชจ๋ธ์ ๋์์ ๋๋ ค์ผ ํ๋ฏ๋ก ๋จ์ผ ๋ฆฌ์๋ ์ค์ ๋ณด๋ค๋ ์ถ๋ก ์ฐ์ฐ๋์ด ๋ค์ ๋์ด๋ ์ ์์ต๋๋ค.
- ๋ฐ์ดํฐ: ๊ฐ ๋ชฉํ๋ณ๋ก ํ๊ฐํ ์ ์๋ ๋ณ๋์ ๋ณด์ ๋ชจ๋ธ(Reward Model)์ด๋ ๊ท์น ๊ธฐ๋ฐ์ ํ๊ฐ ์คํฌ๋ฆฝํธ๊ฐ ํ์ํฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ๊ฐํ ํ์ต(Reinforcement Learning): ์์ด์ ํธ๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ๋ณด์์ ์ต๋ํํ๋ ํ๋์ ํ์ตํ๋ ๋จธ์ ๋ฌ๋์ ํ ์์ญ.
- ์ธ์ด ๋ชจ๋ธ ์ ๋ ฌ(LLM Alignment): ์ฌ๋์ ์๋๋ ์ ํธ์ ๋ง์ถฐ ์ธ์ด ๋ชจ๋ธ์ ํ๋์ ์กฐ์ ํ๋ ๊ณผ์ .
- GRPO(Group Relative Policy Optimization): ๋ณ๋์ ๊ฐ์น ๋ชจ๋ธ ์์ด ๊ทธ๋ฃน ๋ด ์ํ๋ค ๊ฐ์ ์๋์ ์ธ ์์๋ฅผ ํตํด ์ด์ ์ ์ถ์ ํ์ฌ ํจ์จ์ ์ผ๋ก ์ธ์ด ๋ชจ๋ธ์ ์ต์ ํํ๋ ์๊ณ ๋ฆฌ์ฆ.
- Advantage Function (์ด์ ํจ์): ํน์ ์ํ์์ ํน์ ํ๋์ ์ทจํ์ ๋์ ๊ธฐ๋ ๋ณด์์ด, ํ๊ท ์ ์ธ ํ๋์ ์ทจํ์ ๋๋ณด๋ค ์ผ๋ง๋ ๋ ์ข์์ง๋ฅผ ๋ํ๋ด๋ ๊ฐ.
- Reward Scalarization (๋ณด์ ์ค์นผ๋ผํ): ์ฌ๋ฌ ๊ฐ์ ๋ณด์ ๊ฐ์ ํ๋์ ์ค์นผ๋ผ ๊ฐ์ผ๋ก ํฉ์น๋ ๊ณผ์ .
- Variance (๋ถ์ฐ): ๋ฐ์ดํฐ๊ฐ ํ๊ท ์ผ๋ก๋ถํฐ ์ผ๋ง๋ ํผ์ ธ ์๋์ง๋ฅผ ๋ํ๋ด๋ ์ฒ๋๋ก, ์ด ๋ ผ๋ฌธ์์๋ ํ์ต ์ ํธ์ ๋ช ํ์ฑ์ ํ๋จํ๋ ์งํ๋ก ์ฌ์ฉ๋จ.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Gamma-World: Generative Multi-Agentโฆ | DD-097 |
| ๐ฅ | SkillOpt: Executive Strategy for Seโฆ | DD-098 |
| ๐ฅ | DVAO: Dynamic Variance-adaptive Advโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 4. | LocateAnything: Fast and High-Qualiโฆ | DD-100 |
| 5. | AgentDoG 1.5: A Lightweight and Scaโฆ | DD-101 |
๐ ์์ฑ์ผ: 2026-05-31 | ๐ค GLM-4.7 Deep Dive