โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-055 Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models
arXiv: 2603.17051 Upvotes: 105 | Comments: 6 ์์: ์ด๋ฒ ์ฃผ Top 5
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
ํ์ฌ ๋๋ถ๋ถ์ ๊ณ ํ์ง ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ํ์ฐ ๋ชจ๋ธ(Diffusion Model)์ ๊ธฐ๋ฐ์ผ๋ก ํ์ง๋ง, ์ด๋ค์ ์๋ง์ ์ถ๋ก ๋จ๊ณ๋ฅผ ๊ฑฐ์ณ์ผ ํ๋ฏ๋ก ์์ฑ ์๋๊ฐ ๋๋ฆฌ๊ณ ์ค์๊ฐ ์ํธ์์ฉ์ ์ ํฉํ์ง ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ๋น ๋ฅธ ์๊ธฐํ๊ท ๋ชจ๋ธ๋ก ์์ถํ๋ ๊ธฐ์ (Distillation)์ด ๋ฑ์ฅํ์ผ๋, ์ด๋ ๋จ์ํ ์ ์๋ ๋ชจ๋ธ์ ํ๋ด ๋ผ ๋ฟ ์ธ๊ฐ์ด ์ ํธํ๋ ์์ฐ์ค๋ฌ์ด ์์ง์์ด๋ ๊ณ ํ์ง ๊ฒฐ๊ณผ๋ฌผ์ ๋ณด์ฅํ์ง ๋ชปํ๋ค๋ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๊ฐ ์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋๋ฆฌ๊ณ ๋นํจ์จ์ ์ธ ์ฌํ์ต ๊ณผ์ ์์ด, ๊ฐํ ํ์ต(Reinforcement Learning)์ ํตํด ์ด๋ฏธ ์์ถ๋ ๋น ๋ฅธ ๋ชจ๋ธ์ ์ธ๊ฐ์ ๊ธฐํธ์ ๋ง์ถฐ ์ ๋ฐํ๊ฒ ์กฐ์ ํ ์ ์๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ์ฌ ์ค์๊ฐ ๊ณ ํ์ง ๋น๋์ค ์์ฑ์ ๊ธธ์ ์ด์๋ค๋ ์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : โ์ค์๊ฐ ํผ๋๋ฐฑ์ ๋ฐ๋ ํ๊ฐโ๋ก ์ดํดํ๊ธฐ
์ด ๋ ผ๋ฌธ์ ๊ธฐ์ ์ ์ดํดํ๋ ค๋ฉด โ์ค์๊ฐ ํผ๋๋ฐฑ์ ๋ฐ๋ ํ๊ฐโ๋ฅผ ์์ํด ๋ณด์ธ์. ๊ธฐ์กด์ ์์ถ ๋ชจ๋ธ(Distilled Model)์ ๋ช ํ(์ฌ์ ํ์ต๋ ๋ชจ๋ธ)๋ฅผ ๋น ๋ฅด๊ฒ ๋ฒ ๋ผ๋ ํ๊ฐ์ ๊ฐ์ต๋๋ค. ์ด ํ๊ฐ๋ ์์ ๋งค์ฐ ๋น ๋ฅด์ง๋ง, ๊ทธ๋ฆผ์ ๊ตฌ๋๋ ์ธ๋ฌผ์ ํ์ ์ด ์ด์ํ๋๋ผ๋ ๋๊น์ง ๊ทธ๋ฆฐ ๋ค์์ผ ๋ฌธ์ ๋ฅผ ์๊ฒ ๋ฉ๋๋ค. ์์ ํ๋ ค๋ฉด ์ฒ์๋ถํฐ ๋ค์ ๊ทธ๋ ค์ผ ํ์ฃ .
Astrolabe์ ์ด ํ๊ฐ ์์ โ๋ฏธ์ ๊ฐ๋ (Reward Model)โ์ ์ธ์์ค๋๋ค. ํ๊ฐ๊ฐ ๋ถ์ ํ ๋ฒ ํํ๋ฅผ ๋๋ง๋ค ๊ฐ๋ ์ด ๋ฐ๋ก ์์์ โ์ง๊ธ ๊ทธ๋ ๊ฒ ๊ทธ๋ฆฌ๋ฉด ๋์ค์ ์์ด ์ด์ํ๊ฒ ๋์ฌ ๊ฑฐ๋๊น, ๋ถ ๊ฐ๋๋ฅผ ์กฐ๊ธ ์ฌ๋ คโ๋ผ๊ณ ์ค์๊ฐ์ผ๋ก ์กฐ์ธํด ์ค๋๋ค. ์ด๋ฅผ ํตํด ํ๊ฐ๋ ๋๋ฆฐ ๋ชจ์ฌ ๊ณผ์ ์ ๊ฑฐ์น์ง ์๊ณ ๋, ๋น ๋ฅธ ์์จ ๊ทธ๋๋ก ์ฌ๋๋ค์ด ๋ณด๊ธฐ ์ข์ ๊ทธ๋ฆผ์ ์์ฑํ ์ ์์ต๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
์ฒซ์งธ, ๋ชจ๋ธ์ ์์ฐจ์ ์ผ๋ก ๋น๋์ค ํ๋ ์์ ์์ฑํฉ๋๋ค. ์ด๋ ๋จ์ํ ๊ณผ๊ฑฐ์ ํ๋ ์๋ง ๋ณด๊ณ ๋ค์์ ๊ทธ๋ฆฌ๋ ๊ฒ์ด ์๋๋ผ, ์์ผ๋ก ์์ฑ๋ ๋ด์ฉ์ด ์ผ๋ง๋ ๋ณด์์ ๋์ผ์ง ๋ฏธ๋ฆฌ ์์ธกํ๋ ์ ์ฑ (Policy)์ ํ์ตํฉ๋๋ค. ๋์งธ, โSelf-Forcingโ์ด๋ผ๋ ๊ธฐ์ ์ ํตํด ๋ชจ๋ธ ์ค์ค๋ก ์์ฑํ ๊ฒฐ๊ณผ๋ฌผ์ ๋ค์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ ํ์ตํ๋, โReward-Forcingโ์ด๋ผ๋ ๋ฉ์ปค๋์ฆ์ผ๋ก ์ฌ๋์ด ์ข์ํ ๋งํ ๊ฒฐ๊ณผ(๋์ ๋ณด์)๋ฅผ ์ด๋์ด๋ด๋ ๋ฐฉํฅ์ผ๋ก ์์ฑ ๊ฒฝ๋ก๋ฅผ ์กฐ์ ํฉ๋๋ค. ์ ์งธ, โCausal Forcingโ์ ์ ์ฉํ์ฌ ๋ฏธ๋์ ์ ๋ณด๋ฅผ ์ผํํ์ง ๋ชปํ๊ฒ ํจ์ผ๋ก์จ, ์ค์ ์คํธ๋ฆฌ๋ฐ ํ๊ฒฝ์ฒ๋ผ ๊ณผ๊ฑฐ์ ์ ๋ณด๋ง์ผ๋ก ํ์ฌ๋ฅผ ์์ฑํ๋๋ก ๊ฐ์ ํฉ๋๋ค. ์ด ๋๋ถ์ ์ค์๊ฐ ์์ฑ์ด ๊ฐ๋ฅํด์ง๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ ๋ฐ ์์
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ์๋ฐฉํฅ ํ๋ก์ธ์ค(Forward Process) ์ ์ฒด์ ๊ฐํ ํ์ต์ ์ ์ฉํ๋ ๊ฒ์ ๋๋ค. ๊ธฐ์กด ๋ฐฉ์์ด ์์ฑ๋ ๊ฒฐ๊ณผ๋ฌผ์ ๋ํด๋ง ํ๊ฐํ๋ค๋ฉด, Astrolabe์ ์์ฑ ๊ณผ์ ์ค้ด็ ๋ชจ๋ ๋จ๊ณ $t$์์์ ํ๋์ด ์ต์ข ๋ณด์ $R$์ ๋ฏธ์น๋ ์ํฅ์ ๊ณ ๋ คํ์ฌ ์ ์ฑ $\pi$๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค. ์ด๋ ์์์ผ๋ก ํํํ์๋ฉด, ๊ธฐ์กด์ ๊ต์ฌ ๊ฐ์ (Teacher Forcing) ์์ค ๋์ ๋ณด์ ๊ธฐ๋ฐ์ ๊ทธ๋ผ๋์ธํธ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์์ฑ ํ๋ฅ ๋ถํฌ๋ฅผ ์ธ๊ฐ ์ ํธ๋๊ฐ ๋์ ์ชฝ์ผ๋ก ์ด๋์ํค๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ด๋ค ๋ฒค์น๋งํฌ์์ ํ ์คํธํ๋?
์ฐ๊ตฌ์ง์ VBench์ ImageReward์ ๊ฐ์ ๋น๋์ค ํ์ง ๋ฐ ์ธ๊ฐ ์ ํธ๋ ํ๊ฐ ๋ฒค์น๋งํฌ๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ํนํ ๋จ์ผ ํ๋กฌํํธ๋ก ์งง์ ๋น๋์ค๋ฅผ ๋ง๋๋ ์ผ๋ฐ์ ์ธ ์ํฉ๋ฟ๋ง ์๋๋ผ, ์ฌ๋ฌ ํ๋กฌํํธ๋ฅผ ์ฐ๊ฒฐํ์ฌ ๊ธด ๋น๋์ค๋ฅผ ์์ฑํ๊ฑฐ๋ ์์ฃผ ๊ธด ์๊ฐ์ ์์์ ๋ง๋๋ โLong Videoโ ์์ฑ ๊ณผ์ ์์๋ ์ฑ๋ฅ์ ๊ฒ์ฆํ์ต๋๋ค.
๊ธฐ์กด SOTA ๋๋น ์ผ๋ง๋ ์ข์์ก๋?
Astrolabe์ ์ ์ฉํ ๋ชจ๋ธ์ ๊ธฐ์กด์ ์ฆ๋ฅ๋ ์๊ธฐํ๊ท ๋ชจ๋ธ(์: Causal Forcing, LongLive ๋ฑ) ๋๋น ์ธ๊ฐ ์ ํธ๋ ์ ์์ ํ์ง ์ง์์์ ์ ์๋ฏธํ ํฅ์์ ๋ณด์์ต๋๋ค. ํนํ ์์ง์์ ์์ฐ์ค๋ฌ์(Motion Smoothness)๊ณผ ๋ฏธ์ ํ์ง(Aesthetics) ์งํ์์ ํฐ ํญ์ ์์น์ธ๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ๋จ์ํ ์๋๋ฅผ ์ ์งํ๋ ๊ฒ์ ๋์ด, ๋น๋์ค์ ํ๋ฆฌํฐ ์์ฒด๋ฅผ ํ๊ธฐ์ ์ผ๋ก ๋์๋ค๋ ๊ฒ์ ์์น๋ก ์ ์ฆํ์ต๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
๊ฐ์ฅ ์ธ์์ ์ธ ์ ์ ์ด๋ฌํ ํ์ง ํฅ์์ด ๋ชจ๋ธ์ ์์ฑ ์๋๋ฅผ ํฌ์ํ์ง ์๊ณ ์ด๋ฃจ์ด์ก๋ค๋ ๊ฒ์ ๋๋ค. ์ฌ์ ํ ์คํธ๋ฆฌ๋ฐ ๋ฐฉ์์ผ๋ก ์ค์๊ฐ์ ๊ฐ๊น์ด ์๋๋ก ๋น๋์ค๋ฅผ ์์ฑํ๋ฉด์๋, ์ด์ ์๋ ๋ณผ ์ ์์๋ ์์ค์ ์ธ๋ฐํ ์์ง์๊ณผ ๊ณ ํ์ง ํ๋ฉด์ ๊ตฌํํ์ต๋๋ค. Inf-RoPE(Infinite RoPE) ๊ธฐ์ ์ ํ์ฉํ์ฌ ์์ฃผ ๊ธด ์์๋ ๋ฉ๋ชจ๋ฆฌ ํญ๋ฐ ์์ด ์์ ์ ์ผ๋ก ์์ฑํ ์ ๋ํ ์ฃผ์ ์ฑ๊ณผ์ ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ
ํ์ฌ์ ๋ฐฉ์์ ๋ณด์ ๋ชจ๋ธ(Reward Model)์ ํ์ง์ ํฌ๊ฒ ์์กดํ๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค. ๋ณด์ ๋ชจ๋ธ์ด ์ธ๊ฐ์ ๊ธฐํธ๋ฅผ ์๋ฒฝํ๊ฒ ๋ฐ์ํ์ง ๋ชปํ๋ค๋ฉด, ์์ฑ๋ ๋น๋์ค๋ ๋ณด์ ๋ชจ๋ธ์ ํธํฅ์ ๋ฐ๋ฅด๊ฒ ๋ฉ๋๋ค. ๋ํ, ์์ฃผ ๋ณต์กํ ๋ฌผ๋ฆฌ ๋ฒ์น์ด๋ ๋งค์ฐ ๊ธด ์๊ฐ ๋์ ์ผ๊ด์ฑ์ ์ ์งํด์ผ ํ๋ ์๋๋ฆฌ์ค์์๋ ์ฌ์ ํ ์ค๋ฅ๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค.
๊ฐ์ ๊ฐ๋ฅํ ์
ํฅํ ์ฐ๊ตฌ์์๋ ๋ณด์ ๋ชจ๋ธ์ ๋ ์ ๊ตํ๊ฒ ์ค๊ณํ๊ฑฐ๋, ๋ค์ํ ํผ๋๋ฐฑ์ ํตํฉํ๋ ๋ฐฉ์์ผ๋ก ํ์ต ์์ ์ฑ์ ๋์ผ ์ ์์ ๊ฒ์ ๋๋ค. ๋ํ ํ์ฌ์ 2D ์์ ์์ฑ์ ๋์ด 3D ๋น๋์ค๋ ๋ฉํฐ๋ชจ๋ฌ(์์ฑ, ํ ์คํธ ๋ฑ)์ด ๊ฒฐํฉ๋ ๋ณตํฉ์ ์ธ ์ฝํ ์ธ ์์ฑ์ผ๋ก ์์ญ์ ํ์ฅํ๋ ๊ฒ์ด ์์ฐ์ค๋ฌ์ด ๋ค์ ๋จ๊ณ๊ฐ ๋ ๊ฒ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด๋์ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅ?
๊ฐ์ฅ ๋จผ์ ์ ์ฉ ๊ฐ๋ฅํ ๋ถ์ผ๋ โ์ค์๊ฐ AI ๋น๋์ค ์ฑํ ๋ดโ์ด๋ โ๋ํํ ๊ฒ์โ์ ๋๋ค. ์ฌ์ฉ์๊ฐ ๋งํ๋ ๋ด์ฉ์ ์ฆ์ ๋น๋์ค๋ก ๋ฐ์ํด์ผ ํ๋ ์๋น์ค์์ ๊ธฐ์กด์ ๋๋ฆฐ ๋ชจ๋ธ ๋์ Astrolabe ๊ธฐ์ ์ ์ ์ฉํ๋ฉด ๋น ๋ฅด๊ณ ์์ฐ์ค๋ฌ์ด ์บ๋ฆญํฐ ์ ๋๋ฉ์ด์ ์ ๋ง๋ค ์ ์์ต๋๋ค. ๋ํ ์ ํ๋ธ๋ ํฑํก ๊ฐ์ ํ๋ซํผ์์ ์ฌ์ฉ์๊ฐ ์ ๋ ฅํ ํ ์คํธ๋ก ๊ณ ํ์ง์ ์ํผ ์์์ ์ค์๊ฐ์ผ๋ก ์ ์ํ๋ ์์ ์์ฑ ๋๊ตฌ์๋ ๋ฐ๋ก ์ฌ์ฉ๋ ์ ์์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค
์ด ๊ธฐ์ ์ ํ์ฉํ๊ธฐ ์ํด์๋ ์๋นํ ํฌ๊ธฐ์ GPU ๋ฉ๋ชจ๋ฆฌ(VRAM)๊ฐ ํ์ํฉ๋๋ค. ๊ธด ์์์ ์์ฑํ๊ธฐ ์ํด KV-Caching์ ์ ๊ทน์ ์ผ๋ก ์ฌ์ฉํ๋ฏ๋ก, ๊ณ ์ฌ์ GPU(์: A100 ์ด์) ํ๊ฒฝ์ด ์ผ๋ฐ์ ์ ๋๋ค. ํ์ง๋ง ์ถ๋ก ๋จ๊ณ์์๋ ํจ์จ์ด ์ข๊ธฐ ๋๋ฌธ์, ํ ๋ฒ ํ์ต๋ ๋ชจ๋ธ์ ์๋น์ค์ ํตํฉํ๋ ๊ฒ์ ์๋์ ์ผ๋ก ๋ถ๋ด์ด ์ ์ต๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ์๊ธฐํ๊ท ๋ชจ๋ธ(Autoregressive Model): ์ด์ ์ ์์ฑ๋ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ๋ค์ ๋ฐ์ดํฐ๋ฅผ ์์ฐจ์ ์ผ๋ก ์์ธกํ๋ ๋ชจ๋ธ ๋ฐฉ์์ ๋๋ค.
- ์ง์ ์ฆ๋ฅ(Knowledge Distillation): ํฌ๊ณ ๋ณต์กํ ์ ์๋ ๋ชจ๋ธ(Teacher)์ ์ง์์ ์๊ณ ๋น ๋ฅธ ํ์ ๋ชจ๋ธ(Student)๋ก ์ฎ๊ฒจ ๋ด๋ ์์ถ ๊ธฐ์ ์ ๋๋ค.
- ํ์ฐ ๋ชจ๋ธ(Diffusion Model): ์ ์ง์ ์ผ๋ก ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ์ฌ ์ด๋ฏธ์ง๋ ๋น๋์ค๋ฅผ ์์ฑํ๋ ๊ณ ํ์ง ์์ฑ ๋ชจ๋ธ์ ๋๋ค.
- ๊ฐํ ํ์ต(Reinforcement Learning): ์์ด์ ํธ๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ๋ณด์์ ์ต๋ํํ๋ ๋ฐฉํฅ์ผ๋ก ์ค์ค๋ก ํ์ตํ๋ ๊ธฐ๊ณํ์ต์ ํ ๋ถ์ผ์ ๋๋ค.
- ์คํธ๋ฆฌ๋ฐ ์์ฑ(Streaming Generation): ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ๋ง๋ ๋ค์ ์ถ๋ ฅํ๋ ๊ฒ์ด ์๋๋ผ, ์์ฑ๋๋ ๋๋ก ์ค์๊ฐ์ผ๋ก ๋ด๋ณด๋ด๋ ๋ฐฉ์์ ๋๋ค.
- KV-Caching: ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ์ถ๋ก ์๋๋ฅผ ๋์ด๊ธฐ ์ํด ์ด์ ๊ณ์ฐ ๊ฒฐ๊ณผ(ํค์ ๊ฐ)๋ฅผ ์ ์ฅํด ๋๊ณ ์ฌ์ฌ์ฉํ๋ ์ต์ ํ ๊ธฐ๋ฒ์ ๋๋ค.
- RoPE(Rotary Positional Embedding): ํธ๋์คํฌ๋จธ์์ ํ ํฐ์ ์๋์ ์ธ ์์น ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉํ๋ ๋ฐฉ์์ผ๋ก, ๊ธด ๋ฌธ๋งฅ์ ์ฒ๋ฆฌํ๋ ๋ฐ ์ ๋ฆฌํฉ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | MinerU-Diffusion: Rethinking Documeโฆ | DD-051 |
| ๐ฅ | Omni-WorldBench: Towards a Compreheโฆ | DD-052 |
| ๐ฅ | Speed by Simplicity: A Single-Streaโฆ | DD-053 |
| 4. | PixelSmile: Toward Fine-Grained Facโฆ | DD-054 |
| 5. | Astrolabe: Steering Forward-Processโฆ | ๐ ํ์ฌ ๋ฌธ์ |
๐ ์์ฑ์ผ: 2026-03-29 | ๐ค GLM-4.7 Deep Dive