โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-055 Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

arXiv: 2603.17051 Upvotes: 105 | Comments: 6 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 5


1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

ํ˜„์žฌ ๋Œ€๋ถ€๋ถ„์˜ ๊ณ ํ’ˆ์งˆ ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์€ ํ™•์‚ฐ ๋ชจ๋ธ(Diffusion Model)์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜์ง€๋งŒ, ์ด๋“ค์€ ์ˆ˜๋งŽ์€ ์ถ”๋ก  ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์ณ์•ผ ํ•˜๋ฏ€๋กœ ์ƒ์„ฑ ์†๋„๊ฐ€ ๋А๋ฆฌ๊ณ  ์‹ค์‹œ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ์— ์ ํ•ฉํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ๋น ๋ฅธ ์ž๊ธฐํšŒ๊ท€ ๋ชจ๋ธ๋กœ ์••์ถ•ํ•˜๋Š” ๊ธฐ์ˆ (Distillation)์ด ๋“ฑ์žฅํ–ˆ์œผ๋‚˜, ์ด๋Š” ๋‹จ์ˆœํžˆ ์„ ์ƒ๋‹˜ ๋ชจ๋ธ์„ ํ‰๋‚ด ๋‚ผ ๋ฟ ์ธ๊ฐ„์ด ์„ ํ˜ธํ•˜๋Š” ์ž์—ฐ์Šค๋Ÿฌ์šด ์›€์ง์ž„์ด๋‚˜ ๊ณ ํ’ˆ์งˆ ๊ฒฐ๊ณผ๋ฌผ์„ ๋ณด์žฅํ•˜์ง€ ๋ชปํ•œ๋‹ค๋Š” ๊ทผ๋ณธ์ ์ธ ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋А๋ฆฌ๊ณ  ๋น„ํšจ์œจ์ ์ธ ์žฌํ•™์Šต ๊ณผ์ • ์—†์ด, ๊ฐ•ํ™” ํ•™์Šต(Reinforcement Learning)์„ ํ†ตํ•ด ์ด๋ฏธ ์••์ถ•๋œ ๋น ๋ฅธ ๋ชจ๋ธ์„ ์ธ๊ฐ„์˜ ๊ธฐํ˜ธ์— ๋งž์ถฐ ์ •๋ฐ€ํ•˜๊ฒŒ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ•˜์—ฌ ์‹ค์‹œ๊ฐ„ ๊ณ ํ’ˆ์งˆ ๋น„๋””์˜ค ์ƒ์„ฑ์˜ ๊ธธ์„ ์—ด์—ˆ๋‹ค๋Š” ์ ์—์„œ ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€˜์‹ค์‹œ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ›๋Š” ํ™”๊ฐ€โ€™๋กœ ์ดํ•ดํ•˜๊ธฐ

์ด ๋…ผ๋ฌธ์˜ ๊ธฐ์ˆ ์„ ์ดํ•ดํ•˜๋ ค๋ฉด โ€˜์‹ค์‹œ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ›๋Š” ํ™”๊ฐ€โ€™๋ฅผ ์ƒ์ƒํ•ด ๋ณด์„ธ์š”. ๊ธฐ์กด์˜ ์••์ถ• ๋ชจ๋ธ(Distilled Model)์€ ๋ช…ํ™”(์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ)๋ฅผ ๋น ๋ฅด๊ฒŒ ๋ฒ ๋ผ๋Š” ํ™”๊ฐ€์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ด ํ™”๊ฐ€๋Š” ์†์€ ๋งค์šฐ ๋น ๋ฅด์ง€๋งŒ, ๊ทธ๋ฆผ์˜ ๊ตฌ๋„๋‚˜ ์ธ๋ฌผ์˜ ํ‘œ์ •์ด ์–ด์ƒ‰ํ•˜๋”๋ผ๋„ ๋๊นŒ์ง€ ๊ทธ๋ฆฐ ๋’ค์—์•ผ ๋ฌธ์ œ๋ฅผ ์•Œ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ˆ˜์ •ํ•˜๋ ค๋ฉด ์ฒ˜์Œ๋ถ€ํ„ฐ ๋‹ค์‹œ ๊ทธ๋ ค์•ผ ํ•˜์ฃ .

Astrolabe์€ ์ด ํ™”๊ฐ€ ์˜†์— โ€˜๋ฏธ์ˆ  ๊ฐ๋…(Reward Model)โ€˜์„ ์„ธ์›Œ์ค๋‹ˆ๋‹ค. ํ™”๊ฐ€๊ฐ€ ๋ถ“์„ ํ•œ ๋ฒˆ ํœ˜ํœ˜๋ฅผ ๋•Œ๋งˆ๋‹ค ๊ฐ๋…์ด ๋ฐ”๋กœ ์˜†์—์„œ โ€œ์ง€๊ธˆ ๊ทธ๋ ‡๊ฒŒ ๊ทธ๋ฆฌ๋ฉด ๋‚˜์ค‘์— ์†์ด ์ด์ƒํ•˜๊ฒŒ ๋‚˜์˜ฌ ๊ฑฐ๋‹ˆ๊นŒ, ๋ถ“ ๊ฐ๋„๋ฅผ ์กฐ๊ธˆ ์˜ฌ๋ คโ€๋ผ๊ณ  ์‹ค์‹œ๊ฐ„์œผ๋กœ ์กฐ์–ธํ•ด ์ค๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ™”๊ฐ€๋Š” ๋А๋ฆฐ ๋ชจ์‚ฌ ๊ณผ์ •์„ ๊ฑฐ์น˜์ง€ ์•Š๊ณ ๋„, ๋น ๋ฅธ ์†œ์”จ ๊ทธ๋Œ€๋กœ ์‚ฌ๋žŒ๋“ค์ด ๋ณด๊ธฐ ์ข‹์€ ๊ทธ๋ฆผ์„ ์™„์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

์ฒซ์งธ, ๋ชจ๋ธ์€ ์ˆœ์ฐจ์ ์œผ๋กœ ๋น„๋””์˜ค ํ”„๋ ˆ์ž„์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ๋‹จ์ˆœํžˆ ๊ณผ๊ฑฐ์˜ ํ”„๋ ˆ์ž„๋งŒ ๋ณด๊ณ  ๋‹ค์Œ์„ ๊ทธ๋ฆฌ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์•ž์œผ๋กœ ์ƒ์„ฑ๋  ๋‚ด์šฉ์ด ์–ผ๋งˆ๋‚˜ ๋ณด์ƒ์„ ๋†’์ผ์ง€ ๋ฏธ๋ฆฌ ์˜ˆ์ธกํ•˜๋Š” ์ •์ฑ…(Policy)์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ๋‘˜์งธ, โ€˜Self-Forcingโ€™์ด๋ผ๋Š” ๊ธฐ์ˆ ์„ ํ†ตํ•ด ๋ชจ๋ธ ์Šค์Šค๋กœ ์ƒ์„ฑํ•œ ๊ฒฐ๊ณผ๋ฌผ์„ ๋‹ค์‹œ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šตํ•˜๋˜, โ€˜Reward-Forcingโ€™์ด๋ผ๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์œผ๋กœ ์‚ฌ๋žŒ์ด ์ข‹์•„ํ•  ๋งŒํ•œ ๊ฒฐ๊ณผ(๋†’์€ ๋ณด์ƒ)๋ฅผ ์ด๋Œ์–ด๋‚ด๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์ƒ์„ฑ ๊ฒฝ๋กœ๋ฅผ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์…‹์งธ, โ€˜Causal Forcingโ€™์„ ์ ์šฉํ•˜์—ฌ ๋ฏธ๋ž˜์˜ ์ •๋ณด๋ฅผ ์—ผํƒํ•˜์ง€ ๋ชปํ•˜๊ฒŒ ํ•จ์œผ๋กœ์จ, ์‹ค์ œ ์ŠคํŠธ๋ฆฌ๋ฐ ํ™˜๊ฒฝ์ฒ˜๋Ÿผ ๊ณผ๊ฑฐ์˜ ์ •๋ณด๋งŒ์œผ๋กœ ํ˜„์žฌ๋ฅผ ์ƒ์„ฑํ•˜๋„๋ก ๊ฐ•์ œํ•ฉ๋‹ˆ๋‹ค. ์ด ๋•๋ถ„์— ์‹ค์‹œ๊ฐ„ ์ƒ์„ฑ์ด ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฐ ์ˆ˜์‹

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์€ ์ˆœ๋ฐฉํ–ฅ ํ”„๋กœ์„ธ์Šค(Forward Process) ์ „์ฒด์— ๊ฐ•ํ™” ํ•™์Šต์„ ์ ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹์ด ์ƒ์„ฑ๋œ ๊ฒฐ๊ณผ๋ฌผ์— ๋Œ€ํ•ด๋งŒ ํ‰๊ฐ€ํ–ˆ๋‹ค๋ฉด, Astrolabe์€ ์ƒ์„ฑ ๊ณผ์ • ์ค‘้—ด็š„ ๋ชจ๋“  ๋‹จ๊ณ„ $t$์—์„œ์˜ ํ–‰๋™์ด ์ตœ์ข… ๋ณด์ƒ $R$์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๊ณ ๋ คํ•˜์—ฌ ์ •์ฑ… $\pi$๋ฅผ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„ํ•˜์ž๋ฉด, ๊ธฐ์กด์˜ ๊ต์‚ฌ ๊ฐ•์ œ(Teacher Forcing) ์†์‹ค ๋Œ€์‹  ๋ณด์ƒ ๊ธฐ๋ฐ˜์˜ ๊ทธ๋ผ๋””์–ธํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์˜ ์ƒ์„ฑ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์ธ๊ฐ„ ์„ ํ˜ธ๋„๊ฐ€ ๋†’์€ ์ชฝ์œผ๋กœ ์ด๋™์‹œํ‚ค๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์–ด๋–ค ๋ฒค์น˜๋งˆํฌ์—์„œ ํ…Œ์ŠคํŠธํ–ˆ๋‚˜?

์—ฐ๊ตฌ์ง„์€ VBench์™€ ImageReward์™€ ๊ฐ™์€ ๋น„๋””์˜ค ํ’ˆ์งˆ ๋ฐ ์ธ๊ฐ„ ์„ ํ˜ธ๋„ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋‹จ์ผ ํ”„๋กฌํ”„ํŠธ๋กœ ์งง์€ ๋น„๋””์˜ค๋ฅผ ๋งŒ๋“œ๋Š” ์ผ๋ฐ˜์ ์ธ ์ƒํ™ฉ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ์—ฌ๋Ÿฌ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์—ฐ๊ฒฐํ•˜์—ฌ ๊ธด ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๊ฑฐ๋‚˜ ์•„์ฃผ ๊ธด ์‹œ๊ฐ„์˜ ์˜์ƒ์„ ๋งŒ๋“œ๋Š” โ€˜Long Videoโ€™ ์ƒ์„ฑ ๊ณผ์ œ์—์„œ๋„ ์„ฑ๋Šฅ์„ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด SOTA ๋Œ€๋น„ ์–ผ๋งˆ๋‚˜ ์ข‹์•„์กŒ๋‚˜?

Astrolabe์„ ์ ์šฉํ•œ ๋ชจ๋ธ์€ ๊ธฐ์กด์˜ ์ฆ๋ฅ˜๋œ ์ž๊ธฐํšŒ๊ท€ ๋ชจ๋ธ(์˜ˆ: Causal Forcing, LongLive ๋“ฑ) ๋Œ€๋น„ ์ธ๊ฐ„ ์„ ํ˜ธ๋„ ์ ์ˆ˜์™€ ํ’ˆ์งˆ ์ง€์ˆ˜์—์„œ ์œ ์˜๋ฏธํ•œ ํ–ฅ์ƒ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์›€์ง์ž„์˜ ์ž์—ฐ์Šค๋Ÿฌ์›€(Motion Smoothness)๊ณผ ๋ฏธ์  ํ’ˆ์งˆ(Aesthetics) ์ง€ํ‘œ์—์„œ ํฐ ํญ์˜ ์ƒ์Šน์„ธ๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‹จ์ˆœํžˆ ์†๋„๋ฅผ ์œ ์ง€ํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด, ๋น„๋””์˜ค์˜ ํ€„๋ฆฌํ‹ฐ ์ž์ฒด๋ฅผ ํš๊ธฐ์ ์œผ๋กœ ๋†’์˜€๋‹ค๋Š” ๊ฒƒ์„ ์ˆ˜์น˜๋กœ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

๊ฐ€์žฅ ์ธ์ƒ์ ์ธ ์ ์€ ์ด๋Ÿฌํ•œ ํ’ˆ์งˆ ํ–ฅ์ƒ์ด ๋ชจ๋ธ์˜ ์ƒ์„ฑ ์†๋„๋ฅผ ํฌ์ƒํ•˜์ง€ ์•Š๊ณ  ์ด๋ฃจ์–ด์กŒ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์—ฌ์ „ํžˆ ์ŠคํŠธ๋ฆฌ๋ฐ ๋ฐฉ์‹์œผ๋กœ ์‹ค์‹œ๊ฐ„์— ๊ฐ€๊นŒ์šด ์†๋„๋กœ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๋ฉด์„œ๋„, ์ด์ „์—๋Š” ๋ณผ ์ˆ˜ ์—†์—ˆ๋˜ ์ˆ˜์ค€์˜ ์„ธ๋ฐ€ํ•œ ์›€์ง์ž„๊ณผ ๊ณ ํ’ˆ์งˆ ํ™”๋ฉด์„ ๊ตฌํ˜„ํ–ˆ์Šต๋‹ˆ๋‹ค. Inf-RoPE(Infinite RoPE) ๊ธฐ์ˆ ์„ ํ™œ์šฉํ•˜์—ฌ ์•„์ฃผ ๊ธด ์˜์ƒ๋„ ๋ฉ”๋ชจ๋ฆฌ ํญ๋ฐœ ์—†์ด ์•ˆ์ •์ ์œผ๋กœ ์ƒ์„ฑํ•œ ์  ๋˜ํ•œ ์ฃผ์š” ์„ฑ๊ณผ์ž…๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„

ํ˜„์žฌ์˜ ๋ฐฉ์‹์€ ๋ณด์ƒ ๋ชจ๋ธ(Reward Model)์˜ ํ’ˆ์งˆ์— ํฌ๊ฒŒ ์˜์กดํ•œ๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณด์ƒ ๋ชจ๋ธ์ด ์ธ๊ฐ„์˜ ๊ธฐํ˜ธ๋ฅผ ์™„๋ฒฝํ•˜๊ฒŒ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•œ๋‹ค๋ฉด, ์ƒ์„ฑ๋œ ๋น„๋””์˜ค๋„ ๋ณด์ƒ ๋ชจ๋ธ์˜ ํŽธํ–ฅ์„ ๋”ฐ๋ฅด๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์•„์ฃผ ๋ณต์žกํ•œ ๋ฌผ๋ฆฌ ๋ฒ•์น™์ด๋‚˜ ๋งค์šฐ ๊ธด ์‹œ๊ฐ„ ๋™์•ˆ ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•ด์•ผ ํ•˜๋Š” ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ๋Š” ์—ฌ์ „ํžˆ ์˜ค๋ฅ˜๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅํ•œ ์ 

ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ๋ณด์ƒ ๋ชจ๋ธ์„ ๋” ์ •๊ตํ•˜๊ฒŒ ์„ค๊ณ„ํ•˜๊ฑฐ๋‚˜, ๋‹ค์–‘ํ•œ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•ฉํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต ์•ˆ์ •์„ฑ์„ ๋†’์ผ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ํ˜„์žฌ์˜ 2D ์˜์ƒ ์ƒ์„ฑ์„ ๋„˜์–ด 3D ๋น„๋””์˜ค๋‚˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ(์Œ์„ฑ, ํ…์ŠคํŠธ ๋“ฑ)์ด ๊ฒฐํ•ฉ๋œ ๋ณตํ•ฉ์ ์ธ ์ฝ˜ํ…์ธ  ์ƒ์„ฑ์œผ๋กœ ์˜์—ญ์„ ํ™•์žฅํ•˜๋Š” ๊ฒƒ์ด ์ž์—ฐ์Šค๋Ÿฌ์šด ๋‹ค์Œ ๋‹จ๊ณ„๊ฐ€ ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์–ด๋””์— ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅ?

๊ฐ€์žฅ ๋จผ์ € ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ถ„์•ผ๋Š” โ€˜์‹ค์‹œ๊ฐ„ AI ๋น„๋””์˜ค ์ฑ„ํŒ…๋ด‡โ€™์ด๋‚˜ โ€˜๋Œ€ํ™”ํ˜• ๊ฒŒ์ž„โ€™์ž…๋‹ˆ๋‹ค. ์‚ฌ์šฉ์ž๊ฐ€ ๋งํ•˜๋Š” ๋‚ด์šฉ์„ ์ฆ‰์‹œ ๋น„๋””์˜ค๋กœ ๋ฐ˜์˜ํ•ด์•ผ ํ•˜๋Š” ์„œ๋น„์Šค์—์„œ ๊ธฐ์กด์˜ ๋А๋ฆฐ ๋ชจ๋ธ ๋Œ€์‹  Astrolabe ๊ธฐ์ˆ ์„ ์ ์šฉํ•˜๋ฉด ๋น ๋ฅด๊ณ  ์ž์—ฐ์Šค๋Ÿฌ์šด ์บ๋ฆญํ„ฐ ์• ๋‹ˆ๋ฉ”์ด์…˜์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์œ ํŠœ๋ธŒ๋‚˜ ํ‹ฑํ†ก ๊ฐ™์€ ํ”Œ๋žซํผ์—์„œ ์‚ฌ์šฉ์ž๊ฐ€ ์ž…๋ ฅํ•œ ํ…์ŠคํŠธ๋กœ ๊ณ ํ’ˆ์งˆ์˜ ์ˆํผ ์˜์ƒ์„ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ œ์ž‘ํ•˜๋Š” ์˜์ƒ ์ƒ์„ฑ ๋„๊ตฌ์—๋„ ๋ฐ”๋กœ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

์ด ๊ธฐ์ˆ ์„ ํ™œ์šฉํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ƒ๋‹นํ•œ ํฌ๊ธฐ์˜ GPU ๋ฉ”๋ชจ๋ฆฌ(VRAM)๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๊ธด ์˜์ƒ์„ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด KV-Caching์„ ์ ๊ทน์ ์œผ๋กœ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ, ๊ณ ์‚ฌ์–‘ GPU(์˜ˆ: A100 ์ด์ƒ) ํ™˜๊ฒฝ์ด ์ผ๋ฐ˜์ ์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ๋Š” ํšจ์œจ์ด ์ข‹๊ธฐ ๋•Œ๋ฌธ์—, ํ•œ ๋ฒˆ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ์„œ๋น„์Šค์— ํ†ตํ•ฉํ•˜๋Š” ๊ฒƒ์€ ์ƒ๋Œ€์ ์œผ๋กœ ๋ถ€๋‹ด์ด ์ ์Šต๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • ์ž๊ธฐํšŒ๊ท€ ๋ชจ๋ธ(Autoregressive Model): ์ด์ „์— ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์Œ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆœ์ฐจ์ ์œผ๋กœ ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
  • ์ง€์‹ ์ฆ๋ฅ˜(Knowledge Distillation): ํฌ๊ณ  ๋ณต์žกํ•œ ์„ ์ƒ๋‹˜ ๋ชจ๋ธ(Teacher)์˜ ์ง€์‹์„ ์ž‘๊ณ  ๋น ๋ฅธ ํ•™์ƒ ๋ชจ๋ธ(Student)๋กœ ์˜ฎ๊ฒจ ๋‹ด๋Š” ์••์ถ• ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.
  • ํ™•์‚ฐ ๋ชจ๋ธ(Diffusion Model): ์ ์ง„์ ์œผ๋กœ ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•˜์—ฌ ์ด๋ฏธ์ง€๋‚˜ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ณ ํ’ˆ์งˆ ์ƒ์„ฑ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  • ๊ฐ•ํ™” ํ•™์Šต(Reinforcement Learning): ์—์ด์ „ํŠธ๊ฐ€ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์Šค์Šค๋กœ ํ•™์Šตํ•˜๋Š” ๊ธฐ๊ณ„ํ•™์Šต์˜ ํ•œ ๋ถ„์•ผ์ž…๋‹ˆ๋‹ค.
  • ์ŠคํŠธ๋ฆฌ๋ฐ ์ƒ์„ฑ(Streaming Generation): ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋‘ ๋งŒ๋“  ๋’ค์— ์ถœ๋ ฅํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์ƒ์„ฑ๋˜๋Š” ๋Œ€๋กœ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๋‚ด๋ณด๋‚ด๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
  • KV-Caching: ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์˜ ์ถ”๋ก  ์†๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•ด ์ด์ „ ๊ณ„์‚ฐ ๊ฒฐ๊ณผ(ํ‚ค์™€ ๊ฐ’)๋ฅผ ์ €์žฅํ•ด ๋‘๊ณ  ์žฌ์‚ฌ์šฉํ•˜๋Š” ์ตœ์ ํ™” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
  • RoPE(Rotary Positional Embedding): ํŠธ๋žœ์Šคํฌ๋จธ์—์„œ ํ† ํฐ์˜ ์ƒ๋Œ€์ ์ธ ์œ„์น˜ ์ •๋ณด๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ๊ธด ๋ฌธ๋งฅ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡MinerU-Diffusion: Rethinking Documeโ€ฆDD-051
๐ŸฅˆOmni-WorldBench: Towards a Compreheโ€ฆDD-052
๐Ÿฅ‰Speed by Simplicity: A Single-Streaโ€ฆDD-053
4.PixelSmile: Toward Fine-Grained Facโ€ฆDD-054
5.Astrolabe: Steering Forward-Processโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-03-29 | ๐Ÿค– GLM-4.7 Deep Dive