โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-057 FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

arXiv: 2603.19835 ๊ธฐ๊ด€: Qwen Upvotes: 313 | Comments: 7 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 2


์•ˆ๋…•ํ•˜์„ธ์š”! AI/ML ์ „๋ฌธ๊ฐ€๋กœ์„œ ์ด ํฅ๋ฏธ๋กœ์šด ๋…ผ๋ฌธ์„ ์•„์ฃผ ์‰ฝ๊ฒŒ, ํ•˜์ง€๋งŒ ๊นŠ์ด ์žˆ๊ฒŒ ๋ถ„์„ํ•ด ๋“œ๋ฆด๊ฒŒ์š”. ์ด ๋…ผ๋ฌธ์€ ์ตœ๊ทผ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋Œ์–ด์˜ฌ๋ฆฌ๋Š” ํ•ต์‹ฌ ๊ธฐ์ˆ ์ธ ๊ฐ•ํ™” ํ•™์Šต(RL)์˜ ์ •๊ตํ•œ ํŠœ๋‹ ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃจ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ž, ์‹œ์ž‘ํ•ด ๋ณผ๊นŒ์š”?


1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

์ด ๋…ผ๋ฌธ์€ ํ˜„์žฌ ๊ฐ€์žฅ ํ•ซํ•œ ๋ถ„์•ผ์ธ โ€˜ํ…Œ์ŠคํŠธ ํƒ€์ž„(Test-time) ์Šค์ผ€์ผ๋งโ€™, ์ฆ‰ ๋ชจ๋ธ์ด ๋‹ต์„ ์ƒ์„ฑํ•  ๋•Œ ๋” ๋งŽ์€ ์‹œ๊ฐ„๊ณผ ์ž์›์„ ์จ์„œ ๊นŠ๊ฒŒ ์ƒ๊ฐํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ๊ธฐ์ˆ ์˜ ํšจ์œจ์„ฑ์„ ํš๊ธฐ์ ์œผ๋กœ ๋†’์˜€์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๊ฐ•ํ™” ํ•™์Šต ๋ฐฉ์‹์ธ GRPO๋‚˜ DAPO๋Š” ๋‹ต์ด ๋งž์œผ๋ฉด ๊ทธ ๊ณผ์ •์— ์“ฐ์ธ โ€˜๋ชจ๋“  ๋‹จ์–ดโ€™๋ฅผ ๋˜‘๊ฐ™์ด ์นญ์ฐฌํ•˜๋Š” ๋‹จ์ˆœํ•œ ๋ฐฉ์‹์„ ์จ์„œ, ๋ชจ๋ธ์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์ด ์ผ์ • ์ˆ˜์ค€ ์ด์ƒ ์„ฑ์žฅํ•˜์ง€ ๋ชปํ•˜๋Š” ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ๊ฒช์—ˆ์Šต๋‹ˆ๋‹ค. FIPO๋Š” ๋‹จ์–ด ํ•˜๋‚˜ํ•˜๋‚˜๊ฐ€ ๋ฏธ๋ž˜์˜ ๋‹ต๋ณ€ ํ๋ฆ„์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ๋ ฅ์„ ๊ณ„์‚ฐํ•˜์—ฌ, ์ •๋ง ์ค‘์š”ํ•œ ๋…ผ๋ฆฌ์  ์ „ํ™˜์ ์„ ์ •ํ™•ํžˆ ์ง‘์–ด๋‚ด๊ณ  ๋ณด์ƒํ•ด ์คŒ์œผ๋กœ์จ ์ด ํ•œ๊ณ„๋ฅผ ๋›ฐ์–ด๋„˜์—ˆ์Šต๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ : ์š”๋ฆฌ์‚ฌ ํ‰๊ฐ€ํ•˜๊ธฐ

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์„ โ€˜๋ฏธ์А๋žญ ๋ ˆ์Šคํ† ๋ž‘์˜ ์š”๋ฆฌ์‚ฌ ํ‰๊ฐ€โ€™์— ๋น„์œ ํ•ด ๋ณผ๊นŒ์š”?

  • ๊ธฐ์กด ๋ฐฉ์‹(ORM, GRPO)์˜ ๋ฌธ์ œ์ : ์‹ฌ์‚ฌ์œ„์›์ด ์š”๋ฆฌ๋ฅผ ๋จน์–ด๋ณด๊ณ  โ€œ๋ง›์žˆ๋‹ค!โ€๋ผ๊ณ  ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ๋ณด์ƒ์„ ์ค„ ๋•Œ, ์†Œ๊ธˆ์„ ๋ฟŒ๋ฆฐ ์ˆœ๊ฐ„, ํŒฌ์„ ๋‹ฌ๊ตฐ ์ˆœ๊ฐ„, ์ ‘์‹œ๋ฅผ ๋‹ฆ์€ ์ˆœ๊ฐ„ ๋“ฑ ์š”๋ฆฌ์˜ ๋ชจ๋“  ๊ณผ์ •์— ๋˜‘๊ฐ™์€ ์ ์ˆ˜๋ฅผ ์ค๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๋˜๋ฉด ์ค‘์š”ํ•œ ์ˆœ๊ฐ„(์˜ˆ: ์Šคํ…Œ์ดํฌ๋ฅผ ๊ตฝ๋Š” ํƒ€์ด๋ฐ)๊ณผ ๋œ ์ค‘์š”ํ•œ ์ˆœ๊ฐ„(์˜ˆ: ์•ž์น˜๋งˆ ๋‘๋ฅด๊ธฐ)์ด ๊ตฌ๋ถ„๋˜์ง€ ์•Š์•„, ์š”๋ฆฌ์‚ฌ๋Š” ๋ฌด์—‡์ด ์ง„์งœ ์ค‘์š”ํ•œ์ง€ ๋ฐฐ์šฐ์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค.

  • FIPO์˜ ํ•ด๊ฒฐ์ฑ…: FIPO๋Š” ์š”๋ฆฌ์˜ ํŠน์ • ์ˆœ๊ฐ„(ํ† ํฐ)์ด ๋‹ค์Œ ์š”๋ฆฌ ๊ณผ์ •(๋ฏธ๋ž˜ ํŠธ๋ž™์ ํ† ๋ฆฌ)์„ ์–ผ๋งˆ๋‚˜ ํฌ๊ฒŒ ๋ฐ”๊พธ์–ด ๋†“์•˜๋Š”์ง€๋ฅผ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, โ€œ๊ฐ„์„ ๋งž์ถ”๋Š” ์ˆœ๊ฐ„โ€์ด ๊ทธ ์ดํ›„์˜ ๋ชจ๋“  ๋ง›์„ ๊ฒฐ์ •์ง“๋Š”๋‹ค๋ฉด, ์ด ์ˆœ๊ฐ„์— ์—„์ฒญ๋‚œ ๋ณด์ƒ์„ ์ค๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, ๋‹จ์ˆœํžˆ ๋ฌผ์„ ๋ถ“๋Š” ํ–‰์œ„๊ฐ€ ๋ง›์— ํฐ ๋ณ€ํ™”๋ฅผ ์ฃผ์ง€ ์•Š๋Š”๋‹ค๋ฉด ๋‚ฎ์€ ๋ณด์ƒ์„ ์ค๋‹ˆ๋‹ค. ์ฆ‰, **๊ณผ์ •์˜ ์˜ํ–ฅ๋ ฅ(Influence)**์„ ๋”ฐ์ ธ์„œ ์ ์ˆ˜๋ฅผ ๋‹ค๋ฅด๊ฒŒ ๋งค๊ธฐ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

  1. ํ™•๋ฅ  ๋ณ€ํ™”(Probability Shift) ๊ด€์ฐฐํ•˜๊ธฐ: ๋ชจ๋ธ์ด ํ›ˆ๋ จ๋˜๋ฉด์„œ ํŠน์ • ๋‹จ์–ด๋ฅผ ์„ ํƒํ•  ํ™•๋ฅ ์ด ์–ผ๋งˆ๋‚˜ ๋ณ€ํ–ˆ๋Š”์ง€ ๋ด…๋‹ˆ๋‹ค. ์ด์ „ ์ •์ฑ…๊ณผ ํ˜„์žฌ ์ •์ฑ… ์‚ฌ์ด์˜ ํ™•๋ฅ  ์ฐจ์ด์ธ ๋ธํƒ€ ๋กœ๊ทธ p(Delta log p)๋ฅผ ๊ณ„์‚ฐํ•˜๋Š”๋ฐ, ์ด๊ฒŒ ๋‹จ์–ด ์„ ํƒ์˜ โ€˜์‹ ํ˜ธโ€™๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

  2. ๋ฏธ๋ž˜ ์˜ํ–ฅ๋ ฅ(Future-KL) ์ธก์ •ํ•˜๊ธฐ: ์ด๊ฒƒ์ด ์ด ๋…ผ๋ฌธ์˜ ํ•˜์ด๋ผ์ดํŠธ์ž…๋‹ˆ๋‹ค. ์ง€๊ธˆ ์„ ํƒํ•œ ๋‹จ์–ด ๋•Œ๋ฌธ์—, ๊ทธ ๋’ค์— ์ด์–ด์งˆ ๋ฌธ์žฅ๋“ค์˜ ํ๋ฆ„(๋ฏธ๋ž˜์˜ ์ •์ฑ… ๋ถ„ํฌ)์ด ์–ผ๋งˆ๋‚˜ ๋ฐ”๋€Œ๋Š”์ง€ KL ๋ฐœ์‚ฐ(KL Divergence)์œผ๋กœ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. ๋‚ด๊ฐ€ ์ง€๊ธˆ โ€˜Aโ€™๋ผ๊ณ  ๋งํ•ด์„œ ๋’ค์˜ ๋‚ด์šฉ์ด ์™„์ „ํžˆ ๋‹ค๋ฅธ ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐ„๋‹ค๋ฉด, ์ด โ€˜Aโ€™๋Š” ์ •๋ง ์ค‘์š”ํ•œ ๋‹จ์–ด์ž…๋‹ˆ๋‹ค.

  3. ๋ฐ€๋„ ๋†’์€ ์ด์ (Dense Advantage) ๊ณ„์‚ฐ: ์ด ์˜ํ–ฅ๋ ฅ์„ ๋ฐ”ํƒ•์œผ๋กœ ๊ฐ ๋‹จ์–ด์— ์ ์ˆ˜(Advantage)๋ฅผ ๋งค๊น๋‹ˆ๋‹ค. ์ค‘์š”ํ•œ ๋…ผ๋ฆฌ์  ์ „ํ™˜์ (Pivot)์—๋Š” ๋†’์€ ์ ์ˆ˜๋ฅผ, ์“ธ๋ฐ์—†๋Š” ๋ง(Trivial token)์—๋Š” ๋‚ฎ์€ ์ ์ˆ˜๋ฅผ ์ค๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์€ โ€œ์•„, ์ด๋Ÿด ๋•Œ ์ด ๋‹จ์–ด๋ฅผ ์จ์•ผ ๋‹ต์ด ๊ธธ์–ด์ง€๊ณ  ์ •ํ™•ํ•ด์ง€๋Š”๊ตฌ๋‚˜!โ€๋ฅผ ๊นจ๋‹ซ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์ˆ˜์‹๊ณผ ์•Œ๊ณ ๋ฆฌ์ฆ˜

๊ฐ€์žฅ ์ค‘์š”ํ•œ ๊ฐœ๋…์€ ๋ฏธ๋ž˜ KL ๋ฐœ์‚ฐ์„ ํ™œ์šฉํ•œ ์ด์ (Advantage) ์žฌ์ •์˜์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด PPO๊ฐ€ ์ „์ฒด ๊ฒฐ๊ณผ์— ๋Œ€ํ•ด ๊ท ์ผํ•œ ์ ์ˆ˜๋ฅผ ์คฌ๋‹ค๋ฉด, FIPO๋Š” ์‹œ๊ฐ„ ๋‹จ๊ณ„ t์—์„œ์˜ ๋ฏธ๋ž˜ KL ํ•ฉ์„ ๊ฐ€์ค‘์น˜๋กœ ์‚ฌ์šฉํ•˜์—ฌ ์ ์ˆ˜๋ฅผ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค.

๊ฐ„๋‹จํžˆ ํ‘œํ˜„ํ•˜์ž๋ฉด, ๋ชจ๋ธ์˜ ํ•™์Šต ๋ชฉํ‘œ๋Š” ๋‹จ์ˆœํžˆ ์ •๋‹ต์„ ๋งž์ถ”๋Š” ๊ฒƒ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ์ž์‹ ์˜ ํ–‰๋™์ด ์ดํ›„์˜ ํ–‰๋™ ๋ถ„ํฌ๋ฅผ ์–ผ๋งˆ๋‚˜ ์˜๋ฏธ ์žˆ๊ฒŒ ๋ณ€ํ™”์‹œํ‚ค๋Š”์ง€๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์—…๋ฐ์ดํŠธ๋˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ โ€˜์†Œํ”„ํŠธ ๋””์ผ€์ด ์œˆ๋„์šฐ(Soft decay window)โ€™ ์ „๋žต์ด๋ผ๊ณ  ๋ถ€๋ฅด๋ฉฐ, ๋ฐ”๋กœ ๋‹ค์Œ ๋‹จ์–ด์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์€ ๊ฐ€์žฅ ์ค‘์š”ํ•˜๊ฒŒ ๋ณด๋˜ ์•„์ฃผ ๋จผ ๋ฏธ๋ž˜์˜ ์˜ํ–ฅ์€ ์กฐ๊ธˆ์”ฉ ํฌ์„์‹œ์ผœ ๋ฐ˜์˜ํ•ฉ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์ด ๋…ผ๋ฌธ์˜ ์„ฑ๊ณผ๋Š” ๋‹จ์ˆœํžˆ ์„ฑ๋Šฅ ์ˆ˜์น˜ ์ƒ์Šน์„ ๋„˜์–ด, ๋ชจ๋ธ์ด โ€˜์ƒ๊ฐํ•˜๋Š” ๋ฐฉ์‹โ€™ ์ž์ฒด๋ฅผ ๋ฐ”๊ฟ”๋ฒ„๋ ธ๋‹ค๋Š” ์ ์—์„œ ์˜๋ฏธ๊ฐ€ ๊นŠ์Šต๋‹ˆ๋‹ค.

  • ํ…Œ์ŠคํŠธ ๋ฒค์น˜๋งˆํฌ: ์ฃผ๋กœ ์ˆ˜ํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” AIME 2024 ๋ฐ์ดํ„ฐ์…‹๊ณผ Qwen2.5-32B ๋ชจ๋ธ์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์‚ฌ๊ณ ์˜ ๊ธธ์ด(CoT Length) ํญ๋ฐœ์  ์ฆ๊ฐ€: ๊ธฐ์กด ๋ฒ ์ด์Šค๋ผ์ธ(DAPO ๋“ฑ)์€ ์•ฝ 4,000 ํ† ํฐ ์ •๋„์—์„œ ์ƒ๊ฐ์˜ ํ๋ฆ„์ด ๋ฉˆ์ถ”๋Š” โ€˜๊ธธ์ด ์ •์ฒด ํ˜„์ƒโ€™์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ FIPO๋ฅผ ์ ์šฉํ•˜์ž ํ‰๊ท  ์‚ฌ๊ณ  ์—ฐ์‡„(Chain-of-Thought) ๊ธธ์ด๊ฐ€ 10,000 ํ† ํฐ์„ ๋„˜์–ด์„œ ๊ณ„์† ์ฆ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ๋Š๊น€ ์—†์ด ๊นŠ์ด ์žˆ๋Š” ๋…ผ๋ฆฌ๋ฅผ ์ด์–ด๊ฐˆ ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  • ์ •ํ™•๋„(Accuracy) ํ–ฅ์ƒ: AIME 2024 Pass@1 ์ง€ํ‘œ์—์„œ ๊ธฐ์กด ๋ฐฉ์‹์ด ์•ฝ 50.0%์˜ ์„ฑ๋Šฅ์„ ๋ณด์ธ ๋ฐ˜๋ฉด, FIPO๋Š” ์ด๋ฅผ ํฌ๊ฒŒ ๋›ฐ์–ด๋„˜๋Š” ์ •์ (Peak) ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค(๋…ผ๋ฌธ ์ดˆ๋ก์— ๋”ฐ๋ฅด๋ฉด 50%์—์„œ ์œ ์˜๋ฏธํ•˜๊ฒŒ ์ƒ์Šนํ•œ ์ˆ˜์น˜ ๊ธฐ๋ก). ๋‹จ์ˆœํžˆ ๊ธธ์ด๋งŒ ๋Š˜์–ด๋‚œ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๊ทธ ๊ธธ์–ด์ง„ ์ƒ๊ฐ ์†์— ์ •๋‹ต์„ ์ด๋Œ์–ด๋‚ด๋Š” ๋…ผ๋ฆฌ๊ฐ€ ํฌํ•จ๋˜์—ˆ๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  • ๊ณ„์‚ฐ ๋น„์šฉ ์ฆ๊ฐ€: ๋ชจ๋“  ๋‹จ์–ด์— ๋Œ€ํ•ด ๋ฏธ๋ž˜์˜ ํŠธ๋ž™์ ํ† ๋ฆฌ(๋ฌธ๋งฅ)๋ฅผ ๊ณ ๋ คํ•˜์—ฌ KL ๋ฐœ์‚ฐ์„ ๊ณ„์‚ฐํ•ด์•ผ ํ•˜๋ฏ€๋กœ, ๊ธฐ์กด GRPO๋‚˜ DAPO ๋Œ€๋น„ ์—ฐ์‚ฐ๋Ÿ‰์ด๋‚˜ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ๋Š˜์–ด๋‚  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ๊ธฐ์ˆ ์ด ์ถ”๊ฐ€๋กœ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ๋ฏผ๊ฐ์„ฑ: ๋ฏธ๋ž˜์˜ ์˜ํ–ฅ์„ ์–ผ๋งˆ๋‚˜ ๋ฐ˜์˜ํ• ์ง€ ๊ฒฐ์ •ํ•˜๋Š” ๊ฐ๊ฐ€์œจ(Discount factor)์ด๋‚˜ ์œˆ๋„์šฐ ํฌ๊ธฐ ์„ค์ •์— ๋”ฐ๋ผ ์„ฑ๋Šฅ์ด ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ์ด๋ฅผ ์ž๋™์œผ๋กœ ํŠœ๋‹ํ•˜๋Š” ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

  • ์ ์šฉ ๋ถ„์•ผ: ๋ณต์žกํ•œ ์ˆ˜ํ•™ ๋ฌธ์ œ ํ’€์ด, ๊ธด ์ฝ”๋“œ ์ƒ์„ฑ, ๋ณต์žกํ•œ ๋…ผ๋ฆฌ๊ฐ€ ํ•„์š”ํ•œ ๋ฒ•๋ฅ ์ด๋‚˜ ์˜๋ฃŒ ๋ถ„์•ผ์˜ ์ถ”๋ก  ์‹œ์Šคํ…œ ๊ตฌ์ถ•์— ์ฆ‰์‹œ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ โ€˜๊นŠ์€ ์ƒ๊ฐ(Deep Reasoning)โ€˜์ด ํ•„์š”ํ•œ ๊ณณ์—์„œ ํšจ๊ณผ๋ฅผ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค.
  • ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค: ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) ์ž์ฒด์— ๋Œ€ํ•œ ๊ฐ•ํ™” ํ•™์Šต ํ›ˆ๋ จ์ด๋ฏ€๋กœ, ์ˆ˜์‹ญ ์žฅ ์ด์ƒ์˜ ๊ณ ์„ฑ๋Šฅ GPU(A100/H100) ํด๋Ÿฌ์Šคํ„ฐ ํ™˜๊ฒฝ๊ณผ ๋ฐฉ๋Œ€ํ•œ ์ถ”๋ก  ๋ฐ์ดํ„ฐ์…‹์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๊ฐœ๋ฐœ์ž ๊ฐœ์ธ์ด๋‚˜ ์†Œ๊ทœ๋ชจ ํŒ€๋ณด๋‹ค๋Š” ๋Œ€๊ทœ๋ชจ AI ์—ฐ๊ตฌ์†Œ๋‚˜ ๊ธฐ์—…์—์„œ ์ ํ•ฉํ•œ ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • ๊ฐ•ํ™” ํ•™์Šต(Reinforcement Learning): ์—์ด์ „ํŠธ๊ฐ€ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ํ–‰๋™์„ ํ•™์Šตํ•˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹์˜ ํ•œ ๋ถ„์•ผ์ž…๋‹ˆ๋‹ค.
  • PPO(Proximal Policy Optimization): ์ •์ฑ…์„ ์—…๋ฐ์ดํŠธํ•  ๋•Œ ๋„ˆ๋ฌด ํฐ ๋ณ€ํ™”๋ฅผ ๋ง‰์•„ ํ•™์Šต์„ ์•ˆ์ •์ ์œผ๋กœ ๋งŒ๋“œ๋Š” ๋Œ€ํ‘œ์ ์ธ ๊ฐ•ํ™” ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.
  • KL ๋ฐœ์‚ฐ(KL Divergence): ๋‘ ํ™•๋ฅ  ๋ถ„ํฌ๊ฐ€ ์„œ๋กœ ์–ผ๋งˆ๋‚˜ ๋‹ค๋ฅธ์ง€๋ฅผ ์ธก์ •ํ•˜๋Š” ๊ฐ’์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ์ด ํ›ˆ๋ จ ์ „ํ›„๋กœ ์–ผ๋งˆ๋‚˜ ๋‹ฌ๋ผ์กŒ๋Š”์ง€๋ฅผ ๋ณผ ๋•Œ ์”๋‹ˆ๋‹ค.
  • Chain-of-Thought(CoT): ๋ชจ๋ธ์ด ๋‹ต์„ ๋ฐ”๋กœ ๋งํ•˜์ง€ ์•Š๊ณ , ์‚ฌ๋žŒ์ฒ˜๋Ÿผ ์ค‘๊ฐ„ ๊ณผ์ •์„ ๋‹จ๊ณ„์ ์œผ๋กœ ์ƒ๊ฐํ•˜๋ฉฐ ์ถ”๋ก ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
  • ์ด์  ํ•จ์ˆ˜(Advantage Function): ํŠน์ • ์ƒํƒœ์—์„œ ์–ด๋–ค ํ–‰๋™์„ ์ทจํ–ˆ์„ ๋•Œ, ํ‰๊ท ์ ์ธ ๊ธฐ๋Œ“๊ฐ’๋ณด๋‹ค ์–ผ๋งˆ๋‚˜ ๋” ์ด๋“์ธ์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ฒ™๋„์ž…๋‹ˆ๋‹ค.
  • GRPO(Group Relative Policy Optimization): ํฌ๋ฆฌํ‹ฑ(๊ฐ€์น˜ ํ‰๊ฐ€์ž) ๋„คํŠธ์›Œํฌ ์—†์ด, ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์ƒ˜ํ”Œ ๊ทธ๋ฃน์„ ๋น„๊ตํ•˜์—ฌ ๋ณด์ƒ์„ ์ถ”์ •ํ•˜๋Š” ์ตœ๊ทผ LLM ๊ฐ•ํ™” ํ•™์Šต ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
  • ํ† ํฐ(Token): ํ…์ŠคํŠธ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ๋ชจ๋ธ์ด ์‚ฌ์šฉํ•˜๋Š” ์ตœ์†Œ ๋‹จ์œ„์ž…๋‹ˆ๋‹ค. ๋‹จ์–ด๋‚˜ ๋ฌธ์ž ์กฐ๊ฐ์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡CARLA-Air: Fly Drones Inside a CARLโ€ฆDD-056
๐ŸฅˆFIPO: Eliciting Deep Reasoning withโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐Ÿฅ‰ClawKeeper: Comprehensive Safety Prโ€ฆDD-058
4.ShotStream: Streaming Multi-Shot Viโ€ฆDD-059
5.DataFlex: A Unified Framework for Dโ€ฆDD-060

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-04-05 | ๐Ÿค– GLM-4.7 Deep Dive