โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-059 ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling
arXiv: 2603.25746 Upvotes: 153 | Comments: 6 ์์: ์ด๋ฒ ์ฃผ Top 4
ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling ๋ ผ๋ฌธ ๋ถ์
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๋ฉํฐ ์ท ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ์ํ ์ ์ฒด์ ๋๋ณธ์ ์ฒ์์ ๋ค ์ ๋ ฅ๋ฐ์์ผ ํ๊ณ , ์์ ์ ์ฒ์๋ถํฐ ๋ค์ ๋ง๋ค์ด์ผ ํ๋ ๋๋ฆฌ๊ณ ๋นํจ์จ์ ์ธ ๊ณผ์ ์ ๊ฑฐ์ณค์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ฌ์ฉ์๊ฐ ์ด์ผ๊ธฐ๋ฅผ ์งํํ๋ฉฐ ์ค์๊ฐ์ผ๋ก ๋ค์ ์ฅ๋ฉด์ ์ง์ํ ์ ์๋ ์คํธ๋ฆฌ๋ฐ ๋ฐฉ์์ ๋์ ํ์ฌ, ๋ํํ ์คํ ๋ฆฌํ ๋ง์ ํจ์จ์ฑ๊ณผ ์ํธ์์ฉ์ฑ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ํ์ต๋๋ค. ๋จ์ผ GPU์์ ์ด๋น 16ํ๋ ์(FPS)์ด๋ผ๋ ๋น ๋ฅธ ์๋๋ก ๊ณ ํ์ง์ ๊ธด ๋น๋์ค๋ฅผ ์์ฑํจ์ผ๋ก์จ, ์ค์๊ฐ AI ์์ ์ ์์ ๊ฐ๋ฅ์ฑ์ ํ์ค๋ก ๋ง๋ค์์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : ์ฆํฅ ์ฐ๊ทน๊ณผ ๋๋ณธ ์๊ฐ์ ์ฐจ์ด
๊ธฐ์กด์ ์๋ฐฉํฅ(Bidirectional) ๋ชจ๋ธ์ ๋ง์น ์๋ฒฝํ ๋๋ณธ์ ๋ค ์ด ๋ค์์ผ ์ํ๋ฅผ ์ฐ๋ โ๋๋ณธ ์๊ฐโ์ ๋น์ทํฉ๋๋ค. ์ค๊ฐ์ ์ด์ผ๊ธฐ๋ฅผ ๋ฐ๊พธ๊ณ ์ถ์ผ๋ฉด ๋๋ณธ์ ์ฒ์๋ถํฐ ๋ค์ ์จ์ผ ํ๋ฏ๋ก ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆฌ๊ณ ์ ์ฐํ์ง ์์ฃ . ๋ฐ๋ฉด, ShotStream์ ๊ด๊ฐ์ ๋ฐ์์ ๋ฐ๋ผ ๋ฐ๋ก ๋ค์ ์ฅ๋ฉด์ ์ฐ๊ธฐํ๋ โ์ฆํฅ ์ฐ๊ทน ๋ฐฐ์ฐโ์ ๊ฐ์ต๋๋ค. ๋ฐฐ์ฐ๋ ๊ด๊ฐ(์ฌ์ฉ์)์ด โ์ด์ ์ผ์ชฝ์ผ๋ก ๋๋ง๊ฐ!โ๋ผ๊ณ ์ธ์น๋ฉด, ๋ฐฉ๊ธ ์ ๊น์ง ์ฐ๊ธฐํ๋ ๋ด์ฉ(์ญ์ฌ์ ๋งฅ๋ฝ)์ ๋ฐํ์ผ๋ก ์ฆ์ ๋ค์ ์ฅ๋ฉด์ ๋ง๋ค์ด๋ ๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
์ด ์์คํ ์ ํฌ๊ฒ ๋ ๋จ๊ณ๋ก ๋๋ฉ๋๋ค. ์ฒซ ๋ฒ์งธ๋ ์ง๋ ๊ต์ฌ(Teacher)๋ฅผ ๋ง๋๋ ๋จ๊ณ์ ๋๋ค. ๊ธฐ์กด์ ํ ์คํธ-๋น๋์ค ๋ชจ๋ธ์ fine-tuning ํ์ฌ, ์์ ์ฅ๋ฉด๋ค์ ๋ณด๊ณ ๋ค์ ์ฅ๋ฉด์ ์ ์์ธกํ๋๋ก ํ๋ จ์ํต๋๋ค. ํ์ง๋ง ์ด ๊ต์ฌ๋ ๋๋ฌด ๋๋ํด์ ์ฐ์ฐ ์๋๊ฐ ๋๋ฆฝ๋๋ค. ๋ ๋ฒ์งธ ๋จ๊ณ๋ ์ด ๋๋ํ ๊ต์ฌ์ ์ง์์ ๋น ๋ฅธ ํ์(Student) ๋ชจ๋ธ์๊ฒ ์ฆ๋ฅ(Distillation)ํ๋ ๊ณผ์ ์ ๋๋ค. ํ์ ๋ชจ๋ธ์ ๊ณผ๊ฑฐ์ ์ ๋ณด๋ง ๋ณด๊ณ ๋ฏธ๋๋ฅผ ์์ธกํ๋ โ์ธ๊ณผ์ (Causal)โ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ฏ๋ก, ์ค์๊ฐ์ผ๋ก ์คํธ๋ฆฌ๋ฐ๋๋ ๋ฐ์ดํฐ๋ฅผ ๋ฐ๋ก ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
ํต์ฌ ๊ธฐ์ : ๋์ผ ์บ์์ ๋ ๋จ๊ณ ์ฆ๋ฅ
์ฅ๋ฉด์ ์ผ๊ด์ฑ์ ์ ์งํ๊ธฐ ์ํด ๋ ๊ฐ์ ๋ฉ๋ชจ๋ฆฌ(์บ์)๋ฅผ ์ฌ์ฉํฉ๋๋ค. โ๊ธ๋ก๋ฒ ์บ์โ๋ ๋ฑ์ฅ์ธ๋ฌผ์ ์ผ๊ตด์ด๋ ๋ฐฐ๊ฒฝ ๊ฐ์ ์ค์ํ ์ค์ ์ ์ค๋ ๊ธฐ์ตํ๊ณ , โ๋ก์ปฌ ์บ์โ๋ ์ง๊ธ ๋ฐฉ๊ธ ์์ฑ๋ ํ๋ ์๋ค์ ์์ง์์ ์งง๊ฒ ๊ธฐ์ตํ์ฌ ๋ถ๋๋ฌ์ด ์ฐ๊ฒฐ์ ๋์์ค๋๋ค. ๋ํ, ์์ฑ ์ค๋ฅ๊ฐ ์์ด๋ ๊ฒ์ ๋ง๊ธฐ ์ํด ํ์ ๋ชจ๋ธ์ด ์ค์ค๋ก ๋ง๋ ๊ฒฐ๊ณผ๋ฌผ์ ๋ค์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ ํ๋ จํ๋ โ์ ํ ํฌ์ฑ(Self-Forcing)โ ๊ธฐ๋ฒ์ ๋ ๋จ๊ณ์ ๊ฑธ์ณ ์ ์ฉํฉ๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ์์ ์ ์ค์์์๋ ์ค์ค๋ก ๋ณต๊ตฌํ ์ ์๋๋ก ํ๋ จ์ํค๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ: Distribution Matching Distillation (DMD)
์ด ๋ ผ๋ฌธ์ ๋๋ฆฐ ํ์ฐ ๋ชจ๋ธ(Diffusion Model)์ ๋น ๋ฅธ 4-step ์์ฑ๊ธฐ๋ก ์์ถํ๊ธฐ ์ํด DMD๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด ์๊ณ ๋ฆฌ์ฆ์ ํ์ ๋ชจ๋ธ์ด ๋ง๋ค์ด๋ธ ๋น๋์ค ๋ถํฌ์ ๊ต์ฌ ๋ชจ๋ธ์ด ๋ง๋๋ ์ค์ ๋น๋์ค ๋ถํฌ๊ฐ ์ต๋ํ ๋น์ทํด์ง๋๋ก ๊ฐ์ ํฉ๋๋ค. ์์์ ์ผ๋ก๋ ํ์ ๋ชจ๋ธ์ ์์ฑ ๋ถํฌ์ ์ค์ ๋ฐ์ดํฐ ๋ถํฌ ์ฌ์ด์ ์ญ๋ฐฉํฅ KL ๋ฐ์ฐ์ ์ต์ํํ์ฌ, ์ ์ ๋จ๊ณ๋ก๋ ๊ณ ํ์ง์ ๊ฒฐ๊ณผ๋ฅผ ๋ผ ์ ์๊ฒ ํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
๋ฒค์น๋งํฌ ๋ฐ ์ฑ๋ฅ ํ๊ฐ
์ฐ๊ตฌ์ง์ WebVid-2M๊ณผ ๊ฐ์ ๋๊ท๋ชจ ๋น๋์ค ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ํ๊ฐํ์ต๋๋ค. ํนํ ๊ธฐ์กด์ ์ต์ ๋ชจ๋ธ์ธ HoloCine๊ณผ ๋น๊ตํ์ฌ ์์ฑ ์๋์ ํ์ง์ ์ธก์ ํ์ต๋๋ค.
๊ธฐ์กด SOTA(State-of-the-Art) ๋๋น ์ฑ๋ฅ ํฅ์
๊ฐ์ฅ ์ธ์์ ์ธ ์์น๋ ์๋์ ๋๋ค. ๊ธฐ์กด์ HoloCine ๋ชจ๋ธ์ด 240ํ๋ ์์ง๋ฆฌ ๋น๋์ค๋ฅผ ์์ฑํ๋ ๋ฐ ์ฝ 25๋ถ์ด ๊ฑธ๋ฆฐ ๋ฐ๋ฉด, ShotStream์ ๋จ์ผ GPU์์ ์ด๋น 16ํ๋ ์(FPS)์ ์๋๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ์ด๋ ์ด๋ก ์ 240ํ๋ ์์ ๋จ 15์ด ๋ง์ ์์ฑํ ์ ์๋ค๋ ์๋ฏธ์ด๋ฉฐ, ๊ธฐ์กด ๋ฐฉ์ ๋๋น ์ฝ 100๋ฐฐ ์ด์์ ์๋ ํฅ์์ ๋ณด์ฌ์ค๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
๋จ์ํ ์๋๋ง ๋น ๋ฅธ ๊ฒ์ด ์๋๋ผ, ์ฌ๋ฌ ์ฅ๋ฉด(์ท)์ ๊ฑธ์ณ ๋ฑ์ฅ์ธ๋ฌผ์ ๋ชจ์ต์ด๋ ๋ฐฐ๊ฒฝ์ด ๋ฐ๋์ง ์๋ โ์ท ๊ฐ ์ผ๊ด์ฑ(Inter-shot consistency)โ์ ๋์ ์์ค์ผ๋ก ์ ์งํ์ต๋๋ค. ๋ํ, ์ฌ์ฉ์๊ฐ ๋น๋์ค ์์ฑ ๋์ค์ ํ ์คํธ ํ๋กฌํํธ๋ฅผ ๋ฐ๊ฟ์ ์ด์ผ๊ธฐ์ ๋ฐฉํฅ์ ํ์ด๋ ๋ชจ๋ธ์ด ๋ฌธ๋งฅ์ ์์ง ์๊ณ ์์ฐ์ค๋ฝ๊ฒ ๋ฐ๋ผ์ค๋ ์ํธ์์ฉ ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ
ํ์ฌ์ ์ธ๊ณผ์ (Causal) ๊ตฌ์กฐ๋ ๊ณผ๊ฑฐ์ ์ ๋ณด์๋ง ์์กดํ๋ฏ๋ก, ๋งค์ฐ ๊ธด ๋น๋์ค์ ์์ฃผ ์ฒ์ ๋ถ๋ถ๊ณผ ๋ฏธ๋์ ๋ด์ฉ์ ์ฐ๊ฒฐํ๋ ๋ฐ ์์ด ์๋ฐฉํฅ ๋ชจ๋ธ๋ณด๋ค ๋งฅ๋ฝ ์ ์ง ๋ฅ๋ ฅ์ด ๋ค์ ๋จ์ด์ง ์ ์์ต๋๋ค. ๋ํ, ์์ ํ ์ค์๊ฐ ์์ฑ์ ์ํด์๋ ํ์ฌ์ ๋จ์ผ GPU ์ฑ๋ฅ๋ณด๋ค ๋ ๋์ ์ฐ์ฐ ํ์๊ฐ ํ์ํ ์ ์์์ ์์ฌํ์ต๋๋ค.
๊ฐ์ ๊ฐ๋ฅํ ์
ํฅํ ์ฐ๊ตฌ์์๋ ์ค๋์ค(์์ฑ, ํจ๊ณผ์)๋ฅผ ๋น๋์ค ์์ฑ๊ณผ ๋์์ ์ค์๊ฐ์ผ๋ก ํฉ์ฑํ๋ ๋ฉํฐ๋ชจ๋ฌ ํ์ฅ์ด ๊ฐ๋ฅํ ๊ฒ์ ๋๋ค. ๋ํ, ๋์ผ ์บ์ ๋ฉ์ปค๋์ฆ์ ๋์ฑ ์ ๊ตํ๊ฒ ํ์ฌ 10๋ถ ์ด์์ ์ฅํธ ์ํ๋ ํ ๋ฒ์ ์์ฑ ๋์ ์ผ๊ด์ฑ์ ์์ง ์๋๋ก ๋ง๋๋ ๊ธฐ์ ์ด ๊ฐ๋ฐ๋ ๊ฒ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด๋์ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅ?
๊ฐ์ฅ ๋จผ์ โ์ธํฐ๋ํฐ๋ธ ๊ฒ์โ์ด๋ โAI ์๋ฐํ ์ฑํ ์๋น์คโ์ ์ ์ฉ๋ ์ ์์ต๋๋ค. ์ฌ์ฉ์๊ฐ ์ ๋ ฅํ๋ ํ ์คํธ์ ๋ฐ๋ผ ์ค์๊ฐ์ผ๋ก ์ ๋๋ฉ์ด์ ์ด๋ ์์์ด ๋ณํํ๋ ์ํฐํ ์ธ๋จผํธ ์ฝํ ์ธ ์ ์์ ํ์ ์ ์ผ์ผํฌ ๊ฒ์ ๋๋ค. ๋ํ, ์ ํ๋ธ๋ ํฑํก ๊ฐ์ ํ๋ซํผ์์ ํฌ๋ฆฌ์์ดํฐ๊ฐ ๋๋ณธ์ ์ ๋ ฅํ๋ฉฐ ์ค์๊ฐ์ผ๋ก ์์๋ฅผ ์ ์ํ๋ ์คํธ๋ฆฌ๋ฐ ์ ์ ๋๊ตฌ๋ก๋ ํ์ฉ๋ ์ ์์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค
๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด ๋ชจ๋ธ์ ๋จ์ผ GPU(์: A100 ๋๋ ๊ณ ์ฑ๋ฅ ์๋ฒ๊ธ GPU)์์ ์ด๋น 16ํ๋ ์์ ์๋๋ฅผ ๋ผ ์ ์์ต๋๋ค.่ฟๆๅณ็ ์๋์ ์ผ๋ก ์ ๊ทผ ๊ฐ๋ฅํ ํ๋์จ์ด ํ๊ฒฝ์์๋ ์ด์ฉ์ด ๊ฐ๋ฅํ๋ฉฐ, ์ถ๋ก ์ต์ ํ ์์ํ ๊ธฐ์ ์ ์ ์ฉํ๋ฉด ๊ณ ์ฑ๋ฅ ์๋น์์ฉ GPU์์๋ ์ค์๊ฐ ์ฑ๋ฅ์ ๋ผ ์ ์์ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- Text-to-Video Generation (ํ ์คํธ-๋น๋์ค ์์ฑ): ํ ์คํธ ํ๋กฌํํธ๋ฅผ ์ ๋ ฅ๋ฐ์ ๊ทธ์ ๋ง๋ ๋น๋์ค๋ฅผ ์์ฑํ๋ AI ๊ธฐ์ ์ ๋๋ค.
- Autoregressive Generation (์๊ธฐํ๊ท ์์ฑ): ์ด์ ์ ์์ฑ๋ ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ ์์ฐจ์ ์ผ๋ก ๋ค์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ๋ฐฉ์์ ๋๋ค.
- Bidirectional Attention (์๋ฐฉํฅ ์ดํ ์ ): ๋ฌธ๋งฅ์ ์ดํดํ ๋ ์๋ค ์ ๋ณด๋ฅผ ๋ชจ๋ ์ฐธ์กฐํ๋ ๋ฉ์ปค๋์ฆ์ผ๋ก, ์ผ๊ด์ฑ์๋ ์ข์ง๋ง ์๋๊ฐ ๋๋ฆฝ๋๋ค.
- Causal Architecture (์ธ๊ณผ์ ๊ตฌ์กฐ): ๊ณผ๊ฑฐ์ ์ ๋ณด๋ง์ ์ฌ์ฉํ์ฌ ํ์ฌ์ ๋ฏธ๋๋ฅผ ์์ธกํ๋ ๊ตฌ์กฐ๋ก, ์ค์๊ฐ ์ฒ๋ฆฌ์ ์ ๋ฆฌํฉ๋๋ค.
- Knowledge Distillation (์ง์ ์ฆ๋ฅ): ํฌ๊ณ ๋ณต์กํ ๋ชจ๋ธ(Teacher)์ ์ง์์ ์๊ณ ๋น ๋ฅธ ๋ชจ๋ธ(Student)๋ก ์ฎ๊ฒจ์ ํจ์จ์ฑ์ ๋์ด๋ ๊ธฐ๋ฒ์ ๋๋ค.
- Distribution Matching Distillation (DMD): ์์ฑ ๋ชจ๋ธ์ ์ฆ๋ฅ ๊ธฐ๋ฒ ์ค ํ๋๋ก, ํ์ ๋ชจ๋ธ์ ์ถ๋ ฅ ๋ถํฌ๊ฐ ๊ต์ฌ ๋ชจ๋ธ์ ๋ถํฌ์ ์ผ์นํ๋๋ก ํ๋ จ์ํต๋๋ค.
- Self-Forcing (์ ํ ํฌ์ฑ): ํ๋ จ ์ ์ ๋ต ๋ฐ์ดํฐ ๋์ ๋ชจ๋ธ์ด ์ด์ ๋จ๊ณ์์ ์์ธกํ ๊ฒฐ๊ณผ๋ฅผ ๋ค์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ, ์ค์ ์ถ๋ก ํ๊ฒฝ๊ณผ์ ์ฐจ์ด๋ฅผ ์ค์ด๋ ๊ธฐ๋ฒ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | CARLA-Air: Fly Drones Inside a CARLโฆ | DD-056 |
| ๐ฅ | FIPO: Eliciting Deep Reasoning withโฆ | DD-057 |
| ๐ฅ | ClawKeeper: Comprehensive Safety Prโฆ | DD-058 |
| 4. | ShotStream: Streaming Multi-Shot Viโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 5. | DataFlex: A Unified Framework for Dโฆ | DD-060 |
๐ ์์ฑ์ผ: 2026-04-05 | ๐ค GLM-4.7 Deep Dive