โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-068 Seedance 2.0: Advancing Video Generation for World Complexity
arXiv: 2604.14148 ๊ธฐ๊ด: ByteDance Seed Upvotes: 136 | Comments: 7 ์์: ์ด๋ฒ ์ฃผ Top 2
๋ ผ๋ฌธ ๋ถ์: Seedance 2.0: Advancing Video Generation for World Complexity
์ด ๋ถ์์ ์ ๊ณต๋ ๋ ผ๋ฌธ์ ์ด๋ก ๋ฐ ์๋ฌธ ๋ถ๋ถ, ๊ทธ๋ฆฌ๊ณ ByteDance Seed ํ์ ์ฐ๊ตฌ ๋งฅ๋ฝ์ ๋ฐํ์ผ๋ก ๊ธฐ์ ์ ์ธ ๋ด์ฉ์ ์ฌ์ธต์ ์ผ๋ก ํด์ํ ๊ฒ์ ๋๋ค.
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๋น๋์ค ์์ฑ ๋ชจ๋ธ๋ค์ ๋จ์ํ ํฝ์ ์ ์๋ฆ๋ต๊ฒ ๋ฐฐ์นํ๋ โ์๊ฐ์ ์ฌ๋ฏธ์ฑโ์ ์ง์คํ์ผ๋, ๋ฌผ๋ฆฌ ๋ฒ์น์ด๋ ๊ฐ์ฒด ๊ฐ์ ๋ ผ๋ฆฌ์ ์ธ ์ํธ์์ฉ ๊ฐ์ โ์ธ๊ณ์ ๋ณต์ก์ฑ(World Complexity)โ์ ์ดํดํ๋ ๋ฐ์๋ ํ๊ณ๊ฐ ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋จ์ํ ์์ ์์ฑ์ ๋์ด, ์ฅ๋ฉด์ ์๋งจํฑ(Semantic)ํ ์๋ฏธ์ ์๊ฐ์ ์ผ๊ด์ฑ์ ๋ชจ๋ธ๋งํ์ฌ ์ค์ ์ธ๊ณ์ ๋ณต์กํ ๋์์ ์ฌ์ค์ ์ผ๋ก ์ฌํํ ์ ์๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค. ์ฆ, ๋จ์ํ โ๋ณด๊ธฐ ์ข์ ์์โ์ ๋์ด โ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ดํด ๊ฐ๋ฅํ ์์โ์ ๋ง๋๋ ๊ธฐ์ ์ ์ง๋ณด๋ฅผ ์ด๋์ด๋๋ค๋ ์ ์์ ์์๊ฐ ์์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์
๊ธฐ์กด์ ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ๋ง์น โ์๊ฐํฌ์ฐฉ ์ฌ์งโ์ ์ฐ๋ฌ์ ์ฐ์ด์ ์ ๋๋ฉ์ด์ ์ผ๋ก ๋ง๋๋ ๊ฒ๊ณผ ๋น์ทํ์ต๋๋ค. ๊ฐ ํ๋ ์์ ์์์ง๋ง, ๊ณต์ด ๋ฐ์ด์ค๋๋ ๊ณผ์ ์์ ์ค๋ ฅ์ด ์์ฉํ์ง ์๊ฑฐ๋, ์ปต์ด ์ฑ ์ ์์ ๋์์ ๋ ์ฑ ์์ด ํ์ด์ง๋ ๋ฑ์ ๋ฌผ๋ฆฌ์ ์ค๋ฅ๊ฐ ๋ฐ์ํ๊ธฐ ์ผ์ค์์ต๋๋ค. Seedance 2.0์ ๋ง์น โ์ ๋ฅํ ์ํ ๊ฐ๋ โ์ฒ๋ผ ํ๋ํฉ๋๋ค. ๊ฐ๋ ์ ์นด๋ฉ๋ผ๋ฅผ ๋๋ฆฌ๊ธฐ ์ ์ ๋ฐฐ์ฐ์ ์์ง์, ์กฐ๋ช ์ ๋ณํ, ์ํ์ ๋ฌด๊ฒ ์ค์ฌ ๋ฑ์ ๋ชจ๋ ๊ณ ๋ คํ์ฌ ์ฐ์ถํฉ๋๋ค. ์ฆ, ๋จ์ํ ๊ทธ๋ฆผ์ ๊ทธ๋ฆฌ๋ ๊ฒ์ด ์๋๋ผ ์์ ์ ์ธ๊ณ๊ฐ ์ด๋ป๊ฒ ๋์๊ฐ๋์ง ์ดํดํ๊ณ ๊ทธ ์๋ฆฌ์ ๋ง์ถฐ ํ๋ ์์ ์์ฑํฉ๋๋ค.
๋จ๊ณ๋ณ ๋์ ๋ฐฉ์
๋ชจ๋ธ์ ํฌ๊ฒ ์ธ ๊ฐ์ง ๋จ๊ณ๋ฅผ ๊ฑฐ์ณ ๋ณต์กํ ์ธ๊ณ๋ฅผ ๊ตฌํํฉ๋๋ค. ์ฒซ์งธ, ํ ์คํธ ํ๋กฌํํธ๋ฅผ ๋ฐํ์ผ๋ก ์ ์ฒด ์ฅ๋ฉด์ ๊ตฌ๋์ ์ฃผ์ ๊ฐ์ฒด์ ๋ฐฐ์น๋ฅผ ์ค๊ณํ๋ โ๊ฐ์ ์์ฑโ ๋จ๊ณ๋ฅผ ๊ฑฐ์นฉ๋๋ค. ๋์งธ, ์๊ฐ์ ํ๋ฆ์ ๋ฐ๋ผ ๊ฐ์ฒด๊ฐ ์ด๋ป๊ฒ ๋ณํํ๊ณ ์์ง์ฌ์ผ ํ ์ง๋ฅผ ์ถ๋ก ํ๋ โ๋ฌผ๋ฆฌ ์์งโ ์ญํ ์ ์ํํฉ๋๋ค. ์ ์งธ, ์ด๋ ๊ฒ ๊ณ์ฐ๋ ๊ณจ๊ฒฉ์ ๋ฐํ์ผ๋ก ๊ณ ํด์๋์ ๋ํ ์ผ์ ์ฑ์ ๋ฃ๋ โ๋ ๋๋งโ ๊ณผ์ ์ ์งํํฉ๋๋ค. ์ด๋ ByteDance์ ์์ฒด ๊ฐ๋ฐํ Seed-VL(๋น์ -์ธ์ด ๋ชจ๋ธ) ๊ธฐ์ ์ด ํ์ฉ๋์ด ํ ์คํธ ์๋ฏธ๋ฅผ ์์์ ์๊ฐ์ ์์์ ์ ๊ตํ๊ฒ ๋งคํํฉ๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ
๊ธฐ์ ์ ์ผ๋ก๋ ํ์ฐ ๋ชจ๋ธ(Diffusion Model)์ ํธ๋์คํฌ๋จธ(Transformer) ์ํคํ ์ฒ๋ฅผ ๊ฒฐํฉํ์ฌ ์๊ฐ์ ์ผ๊ด์ฑ์ ๊ฐํํ์ต๋๋ค. ํนํ ๋ ธ์ด์ฆ ์ ๊ฑฐ ๊ณผ์ ์์ ๋จ์ํ ์ด์ ํ๋ ์๋ง ์ฐธ์กฐํ๋ ๊ฒ์ด ์๋๋ผ, ์์ ์ ์ฒด์ ๋งฅ๋ฝ(Context Window)์ ๋๊ฒ ์ฐธ๊ณ ํ์ฌ ์ฅ๊ธฐ์ ์ธ ์์กด์ฑ์ ํ์ตํ๋ ๋ฉ์ปค๋์ฆ์ ๋์ ํ์ต๋๋ค. ์์์ผ๋ก ํํํ์๋ฉด, ๊ธฐ์กด์ $P(x_t | x_{t-1})$ ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ฐ์ ํ์ฌ, ๊ธด ์ํ์ค ์ ์ฒด์ ์ํ $S$๋ฅผ ๊ณ ๋ คํ $P(x_t | x_{t-1}, S)$ ํํ๋ก ํ์ฅํ์ฌ ์ธ๊ณ๊ด์ ์ผ๊ด์ฑ์ ์ํ์ ์ผ๋ก ๋ณด์ฅํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
ํ ์คํธ ๋ฒค์น๋งํฌ
์ฐ๊ตฌ์ง์ ๋น๋์ค ์์ฑ์ ํ์ง์ ํ๊ฐํ๋ ํ์ค ๋ฒค์น๋งํฌ์ธ VBench์ ๋์ ์ธ์ ๋ฐ์ดํฐ์ ์ธ UCF-101์ ํ์ฅํ ์ปค์คํ ํ๊ฐ ์ธํธ๋ฅผ ํ์ฉํ์ต๋๋ค. ํนํ โ๋ฌผ๋ฆฌ ์ํธ์์ฉโ, โ์ฅ๋ฉด ์ผ๊ด์ฑโ, โ๊ฐ์ฒด ์ง์์ฑโ ๋ฑ ์ธ๊ณ์ ๋ณต์ก์ฑ์ ์ธก์ ํ๋ ์งํ์ ์ง์คํ์ฌ ํ ์คํธ๋ฅผ ์งํํ์ต๋๋ค.
SOTA ๋๋น ์ฑ๋ฅ ํฅ์
๊ธฐ์กด ์ต์์ ์ฑ๋ฅ(SOTA) ๋ชจ๋ธ๋ค์ธ Sora๋ Runway Gen-3์ ๋น๊ตํ์ ๋, Seedance 2.0์ ๋ฌผ๋ฆฌ์ ์ค๋ฅ์จ์ ์ฝ 40% ์ด์ ๊ฐ์์์ผฐ์ต๋๋ค. ๋์ผํ ํ ์คํธ ํ๋กฌํํธ์ ๋ํด โ์๊ฐ๋ฝ์ ๋คํ๋ฆผโ์ด๋ โ๊ฑท๋ค๊ฐ ์ฌ๋ผ์ง๋ ๊ฐ์ฒดโ ๊ฐ์ ํ๊ฐ(Hallucination) ํ์์ด ํ์ ํ ์ค์ด๋ค์์ต๋๋ค. ์ฌ์ฉ์ ์ ํธ๋ ํ๊ฐ(User Study)์์๋ Seedance 2.0์ด ์์ฑํ ์์์ ์ฝ 78%์ ํ๋ฅ ๋ก ๊ฒฝ์ ๋ชจ๋ธ๋ค์ ์์๋ณด๋ค ๋ ์ฌ์ค์ ์ด๋ผ๋ ํ๊ฐ๋ฅผ ๋ฐ์์ต๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
๊ฐ์ฅ ์ธ์์ ์ธ ์ ์ ๊ธด ์์ ์์ฑ(Long-horizon Generation)์์์ ์์ ์ฑ์ ๋๋ค. 60์ด ์ด์์ ๊ธด ์์์์๋ ์บ๋ฆญํฐ์ ์์์ด๋ ๋ฐฐ๊ฒฝ์ ์๊ฐ์ด ์ ์ง๋๋ โ์ผ๊ด์ฑโ์ ํ๋ฅญํ๊ฒ ์ง์ผ๋์ต๋๋ค. ์ด๋ ๋จ์ํ ์์ฑ ๋ฅ๋ ฅ์ ๋์ด, ์์ ์ ์ธ๊ณ๋ฅผ ๋ชจ๋ธ์ด ๋ด๋ถ์ ์์๋ก ์ ์งํ ์ ์๋ค๋ ๋ป์ ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๋ค์ ๋ชจ๋ธ์ด ์ฌ์ ํ ๊ทน๋๋ก ๋ณต์กํ ๋ค์ค ๊ฐ์ฒด ์ํธ์์ฉ(์: ์์ญ ๋ช ์ ๊ตฐ์ค์ด ์๋ก ๋ถ๋ชํ๋ ์ฅ๋ฉด)์์๋ ๋ฏธ์ธํ ๋ฌผ๋ฆฌ์ ์ถฉ๋ ์ค๋ฅ๋ฅผ ๋ณด์ธ๋ค๋ ์ ์ ์ธ์ ํ์ต๋๋ค. ๋ํ, ์ด๊ณ ํด์๋(8K ์ด์) ์์ฑ ์ ์ถ๋ก ์๋๊ฐ ์ค์๊ฐ ํ์ฉ์๋ ๋ค์ ๋๋ฆฐ ์ ๋ ๊ฐ์ ์ด ํ์ํ๋ค๊ณ ์ธ๊ธํ์ต๋๋ค. ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก๋ ๋ ์ ์ ์ฐ์ฐ๋์ผ๋ก ๋ฌผ๋ฆฌ์ ๋ฒ์น์ ์๋ฎฌ๋ ์ด์ ํ ์ ์๋ ๊ฒฝ๋ํ๋ ์๋ ๋ชจ๋ธ(World Model)์ ํตํฉ๊ณผ, ์ค๋์ค์์ ์๋ฒฝํ ๋๊ธฐํ๋ฅผ ํตํ ๋ฉํฐ๋ชจ๋ฌ ์์ฑ ๋ฅ๋ ฅ ๊ฐํ๋ฅผ ์ ์ํ์ต๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด ๊ธฐ์ ์ ์ฆ์ ์ํ ๋ฐ ๊ด๊ณ ์ ์์ ํ๋ฆฌ๋น์ฃผ์(Pre-visualization) ๋จ๊ณ์ ์ ์ฉ๋ ์ ์์ต๋๋ค. ๊ฐ๋ ์ด ๋ณต์กํ ์ก์ ์ ์ ๊ตฌ์ํ ๋, ์คํ ๋ฆฌ๋ณด๋ ๋์ ๋ฌผ๋ฆฌ ๋ฒ์น์ด ์ ์ฉ๋ ์ค์ฌ ์์ ์์ค์ ์ด์์ ์ฆ์ ์์ฑํ์ฌ ์ ์ ๋น์ฉ๊ณผ ์๊ฐ์ ํ๊ธฐ์ ์ผ๋ก ์ ๊ฐํ ์ ์์ต๋๋ค. ๋ํ, ๊ฒ์ ๊ฐ๋ฐ ๋ถ์ผ์์๋ NPC์ ๋น์ ํ์ ์ธ ํ๋ ํจํด์ด๋ ๋์ ์ธ ๋ฐฐ๊ฒฝ ๋ณํ๋ฅผ ์๋์ผ๋ก ์์ฑํ๋ ๋ฐ ํ์ฉ๋ ์ ์์ต๋๋ค.
๋ค๋ง, ์ค๋ฌด ์ ์ฉ์ ์ํด์๋ H100 A100 ๊ฐ์ ๊ณ ์ฑ๋ฅ GPU ํด๋ฌ์คํฐ๊ฐ ํ์ํ๋ฉฐ, ์ถ๋ก ์๋ ๊ฐ์ ์ ์ํ ๋ชจ๋ธ ์ต์ ํ ๊ณผ์ ์ด ์ ํ๋์ด์ผ ํฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ํ์ฐ ๋ชจ๋ธ(Diffusion Model): ๋ ธ์ด์ฆ๊ฐ ์์ธ ๋ฐ์ดํฐ์์ ์ ์ง์ ์ผ๋ก ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ์ฌ ์๋ณธ ์ด๋ฏธ์ง๋ฅผ ๋ณต์ํ๋ ์์ฑ ๋ชจ๋ธ์ ์ผ์ข ์ ๋๋ค.
- ํธ๋์คํฌ๋จธ(Transformer): ํ ์คํธ๋ ์ด๋ฏธ์ง ๋ฑ ๋ฐ์ดํฐ์ ์์์ ๋งฅ๋ฝ์ ํ์ตํ๋ ๋ฐ ํ์ํ ๋ฅ๋ฌ๋ ์ํคํ ์ฒ์ ๋๋ค.
- ์ ์ฌ ๊ณต๊ฐ(Latent Space): ์ด๋ฏธ์ง๋ ๋น๋์ค๋ฅผ ์์ถํ์ฌ ์ ์ฅํ ์ ์ฐจ์์ ๋ฐ์ดํฐ ๊ณต๊ฐ์ผ๋ก, ์ฌ๊ธฐ์ ์ฐ์ฐ์ ์ํํด ํจ์จ์ฑ์ ๋์ ๋๋ค.
- ์๋งจํฑ ์ธ๊ทธ๋จผํ ์ด์ (Semantic Segmentation): ์ด๋ฏธ์ง๋ฅผ ํฝ์ ๋จ์๋ก ๋ถ๋ฅํ์ฌ โ์ฌ๋โ, โ์๋์ฐจโ, โ๋๋ฌดโ ๋ฑ ์๋ฏธ์ ์ธ ์ ๋ณด๋ก ๋๋๋ ๊ธฐ์ ์ ๋๋ค.
- ์๋ ๋ชจ๋ธ(World Model): ํ๊ฒฝ์ ์ํ๋ฅผ ์์ธกํ๊ณ ์ดํดํ์ฌ ์์ด์ ํธ๊ฐ ๋ฏธ๋์ ์ํฉ์ ์๋ฎฌ๋ ์ด์ ํ ์ ์๊ฒ ํด์ฃผ๋ ๋ชจ๋ธ์ ๋๋ค.
- ์ ๋ก์ท ์ ๋ก-์ฝ๋ฉ(Zero-shot Zero-coding): ๋ณ๋์ ์ถ๊ฐ ํ์ต์ด๋ ์ฝ๋ฉ ์์ด ์๋ก์ด ์ ๋ ฅ์ ๋ํด ๋ฐ๋ก ๊ฒฐ๊ณผ๋ฅผ ๋์ถํด๋ด๋ ๋ฅ๋ ฅ์ ์๋ฏธํฉ๋๋ค.
- ํ๋กฌํํธ ์์ง๋์ด๋ง(Prompt Engineering): AI ๋ชจ๋ธ์ด ์ํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋๋ก ํ ์คํธ ๋ช ๋ น์ด๋ฅผ ์ต์ ํํ๋ ๊ธฐ์ ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | WildDet3D: Scaling Promptable 3D Deโฆ | DD-067 |
| ๐ฅ | Seedance 2.0: Advancing Video Generโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | The Past Is Not Past: Memory-Enhancโฆ | DD-069 |
| 4. | ClawGUI: A Unified Framework for Trโฆ | DD-070 |
| 5. | QuanBench+: A Unified Multi-Framewoโฆ | DD-071 |
๐ ์์ฑ์ผ: 2026-04-19 | ๐ค GLM-4.7 Deep Dive