โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-088 Mean Mode Screaming: MeanโVariance Split Residuals for 1000-Layer Diffusion Transformers
arXiv: 2605.06169 Upvotes: 182 | Comments: 2 ์์: ์ด๋ฒ ์ฃผ Top 2
Mean Mode Screaming ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: 1000๊ฐ ์ธต์ ๊ฐ์ง ๋ํจ์ ํธ๋์คํฌ๋จธ์ ๋น๋ฐ
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๋ฅ๋ฌ๋ ์ฐ๊ตฌ์์ ๋ชจ๋ธ์ ์๋ฐฑ, ์์ฒ ๊ฐ ์ธต์ผ๋ก ๊น๊ฒ ์์ผ๋ ค ํ ๋ ๋จ์ํ ๊ธฐ์ธ๊ธฐ ์์ค์ด๋ ํญ๋ฐ ๋ฌธ์ ๋ฅผ ๋์ด์๋ ๊ตฌ์กฐ์ ๋ถ์์ ์ฑ์ด ์กด์ฌํ๋ค๋ ์ ์ ๋ฐํ๋์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ โMean Mode Screaming(MMS)โ์ด๋ผ๋ ์๋ก์ด ๋ถ๊ดด ๋ฉ์ปค๋์ฆ์ ๊ท๋ช ํ๊ณ , ์ด๋ฅผ ํด๊ฒฐํ๋ โMean-Variance Split(MV-Split)โ ์์ฐจ ์ฐ๊ฒฐ ๋ฐฉ๋ฒ์ ์ ์ํ์ฌ 1000๊ฐ ์ธต์ง๋ฆฌ ๋ํจ์ ํธ๋์คํฌ๋จธ(DiT) ํ์ต์ ๊ฐ๋ฅํ๊ฒ ๋ง๋ค์์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
ํ๊ต์ โํ๊ท ์ ์โ์ โ๊ฐ์ธ ์ฐจ์ดโ ๋น์
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ์ดํดํ๋ ค๋ฉด ๊ต์ค ์ํฉ์ ๋ ์ฌ๋ฆฌ๋ฉด ๋ฉ๋๋ค. ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ๊ฐ ํ ํฐ ๋ฐ์ดํฐ๋ฅผ ํ์๋ค์ ์ํ ์ ์๋ผ๊ณ ์๊ฐํด ๋ด ์๋ค. ์ด ์ ์๋ ํฌ๊ฒ ๋ ๊ฐ์ง ์์๋ก ๋๋ฉ๋๋ค. ํ๋๋ ๋ฐ ์ ์ฒด์ โํ๊ท ์ ์โ์ด๊ณ , ๋ค๋ฅธ ํ๋๋ ํ๊ท ์์ ์ผ๋ง๋ ๋จ์ด์ ธ ์๋์ง๋ฅผ ๋ํ๋ด๋ โ๊ฐ์ธ ์ฐจ์ดโ์ ๋๋ค.
๋ณดํต ๋ชจ๋ธ์ด ํ์ต์ ์ํ๋ ค๋ฉด ํ๊ท ์ ์๊ฐ ์ ์ ํ ์ ์ง๋๋ฉด์๋, ํ์๋ง๋ค ๊ฐ์ฑ์ด ์๋ ๊ฐ์ธ ์ฐจ์ด(์ค์ฌํ๋ ๋ณํ)๊ฐ ์ด์์์ด์ผ ํฉ๋๋ค. ํ์ง๋ง ์์ฃผ ๊น์ ์ ๊ฒฝ๋ง(์ธต์ด ๋ง์ ๋ชจ๋ธ)์์๋ ๊ธฐ์ดํ ํ์์ด ๋ฐ์ํฉ๋๋ค. ๋ฐ๋ก โ์ดํ ์ (Attention)โ์ด๋ผ๋ ๋ฉ์ปค๋์ฆ์ด ํ๊ท ์ ์๋ ์๋ฒฝํ๊ฒ ๋ณด์กดํด์ฃผ๋ ๋ฐ๋ฉด, ๊ฐ์ธ ์ฐจ์ด๋ ์ ์ ๋ณ์ ์์ด์ง๊ฒ ๋ง๋ค๊ธฐ ๋๋ฌธ์ ๋๋ค.
ํญ์ฃผํ๋ ๋ฉ์์ง์ ์นจ๋ฌตํ๋ ๊ฐ์ฑ
ํ์ต์ด ์งํ๋๋ฉด์ ๋ชจ๋ธ์ ์ค์ฐจ๋ฅผ ์ค์ด๊ธฐ ์ํด ํ๋ผ๋ฏธํฐ๋ฅผ ์์ ํฉ๋๋ค. ์ด๋ ์ญ์ ํ ๊ณผ์ ์์ โํ๊ท ์ ์โ๋ฅผ ์์ ํ๋ผ๋ ์ ํธ๊ฐ ๋ค์ด์ค๋๋ฐ, ๋ฌธ์ ๋ ์ด ์ ํธ๊ฐ ํ์ ์(์ํ์ค ๊ธธ์ด)์ ๋น๋กํด์ ์์ฃผ ๊ฑฐ๋ํด์ง ์ ์๋ค๋ ์ ์ ๋๋ค. ์ด๊ฒ์ด ๋ฐ๋ก โMean Mode Screaming(MMS)โ์ ๋๋ค.
์๋ฅผ ๋ค์ด, ๋ชจ๋ ํ์์ด ๋๊ฐ์ด ์ ์๊ฐ ๋ฎ์์ ์์ ์ด ํ์ํ ๋, ๋ชจ๋ธ์ ๊ฐ๊ฐ์ธ์ ์ฐจ์ด๋ฅผ ๋ฌด์ํ ์ฑ โ๋ฐ ํ๊ท ์ ์ฌ๋ ค๋ผ!โ๋ผ๊ณ ์๋ฆฌ์น๋ ๋ช ๋ น์ ์ง์คํ๊ฒ ๋ฉ๋๋ค. ์ด ๊ฑฐ๋ํ ๋ช ๋ น(ํ๊ท ๋ณด์กฐ ๊ทธ๋๋์ธํธ)์ด ๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ์ฅ์ ํ๋ฉด, ๋ชจ๋ธ์ ๊ฐ์ธ์ ํน์ฑ(์ค์ฌํ๋ ๋ณํ)์ ๋ฌด์ํ๊ณ ๋ชจ๋ ํ ํฐ์ ๋๊ฐ์ ํ๊ท ๊ฐ์ผ๋ก ๋ง๋ค์ด๋ฒ๋ฆฝ๋๋ค. ์ด๋ ๊ฒ ๋๋ฉด ๋ชจ๋ ํ ํฐ์ด ๋๊ฐ์์ ธ(๋์งํ) ๋ ์ด์ ์ ์๋ฏธํ ์ ๋ณด๋ฅผ ์์ฑํ์ง ๋ชปํ๋ ๋ถ๊ดด ์ํ์ ๋น ์ง๋๋ค.
ํด๊ฒฐ์ฑ : ํต์ ๊ถ ๋ถ๋ฆฌ (MV-Split)
์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ ํด๊ฒฐ์ฑ ์ โํ๊ท โ๊ณผ โ๊ฐ์ธ ์ฐจ์ดโ๋ฅผ ๋ค๋ฃจ๋ ํต๋ก๋ฅผ ์์ ๋ถ๋ฆฌํด๋ฒ๋ฆฌ๋ ๊ฒ์ ๋๋ค. ๊ธฐ์กด ๋ฐฉ์์ ์ด ๋์ ํ๋์ ํ์ดํ(์์ฐจ ์ฐ๊ฒฐ)๋ก ์์ด ๋ณด๋๊ธฐ ๋๋ฌธ์, ๊ฑฐ๋ํ ํ๊ท ์ ํธ๊ฐ ๊ฐ์ธ ์ฐจ์ด ์ ํธ๋ฅผ ์ง๋ฐ์์ต๋๋ค. MV-Split๋ ํ๊ท ์ ์กฐ์ ํ๋ ์ ํธ๋ ๋ณ๋์ ์์ ๋ฐธ๋ธ(Leaky trunk-mean replacement)๋ฅผ ํตํด ์กฐ์ ํ๊ณ , ๊ฐ์ธ ์ฐจ์ด๋ฅผ ์ด๋ฆฌ๋ ์ ํธ๋ ๋ฐ๋ก ์ฆํญ์์ผ์ ๋ณด๋ ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๊ฑฐ๋ํ ํ๊ท ์ ํธ๊ฐ ํ์ด๋ ๊ฐ์ธ์ ๋ค์์ฑ์ ์งํค๋ ํ๋ก๋ ๋ณดํธ๋ฐ์, ๋ชจ๋ธ์ด 1000๊ฐ ์ธต์ด ๋์ด๋ ํ์ต์ ๋ฉ์ถ์ง ์๊ฒ ๋ฉ๋๋ค.
ํต์ฌ ์์๊ณผ ์๊ณ ๋ฆฌ์ฆ
๋ ผ๋ฌธ์ ํต์ฌ ์์์ ์ ๋ ฅ ํ ํฐ $X$๋ฅผ ํ๊ท ์ฑ๋ถ $\mu(X)$์ ์ค์ฌํ๋ ์ฑ๋ถ $c(X)$๋ก ์๋ฒฝํ๊ฒ ๋ถํดํ๋ ๊ฒ์์ ์์ํฉ๋๋ค.
$$X = JX + PX \equiv \mu(X) + c(X)$$
์ฌ๊ธฐ์ $J$๋ ๋ชจ๋ ์์๊ฐ $1/T$์ธ ํ๋ ฌ(ํ๊ท ์ฐ์ฐ์), $P$๋ $I - J$(์ค์ฌํ ์ฐ์ฐ์)์ ๋๋ค. ๋ฌธ์ ๋ ์ญ์ ํ ์ ๊ทธ๋๋์ธํธ๊ฐ ๋ค์๊ณผ ๊ฐ์ด ๋ถํด๋๋ค๋ ์ ์ ๋๋ค.
$$\nabla_{W}\mathcal{L} = \underbrace{T \bar{\delta} \bar{y}^{\top}}{\Delta W{\mu} (\text{Mean-coherent, } \mathcal{O}(T))} + \underbrace{\sum_{t=1}^{T} \tilde{\delta}{t} \tilde{y}{t}^{\top}}{\Delta W{c} (\text{Centered})}$$
์ฒซ ๋ฒ์งธ ํญ์ธ $\Delta W_{\mu}$๋ ์ํ์ค ๊ธธ์ด $T$์ ๋น๋กํ์ฌ ์ปค์ง ์ ์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ด ๋ถ๋ถ์ด ํญ์ฃผํ์ฌ $\Delta W_{c}$๋ฅผ ์๋ํ๋ ๊ฒ์ ๋ง๊ธฐ ์ํด, ํ๊ท ์ ๋ฐ์ดํธ์ ์ค์ฌํ ์ ๋ฐ์ดํธ ๊ฒฝ๋ก๋ฅผ ๊ตฌ์กฐ์ ์ผ๋ก ๋ถ๋ฆฌํ๋ MV-Split ์ํคํ ์ฒ๋ฅผ ์ค๊ณํ์ต๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ฐ๊ตฌ์ง์ ImageNet ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ํจ์ ๋ชจ๋ธ ์์ฑ ํ๊ฒฝ์์ ์ด ๊ธฐ๋ฒ์ ํ ์คํธํ์ต๋๋ค. ํนํ 400๊ฐ ์ธต์ ๊ฐ์ง ๋จ์ผ ์คํธ๋ฆผ ๋ํจ์ ํธ๋์คํฌ๋จธ(DiT)๋ฅผ ์ฃผ์ ์ง๋จ ์์ญ์ผ๋ก ์ค์ ํ์ฌ ์คํ์ ์งํํ์ต๋๋ค.
๊ธฐ์กด์ ์์ ํ ๊ธฐ๋ฒ์ธ ReZero๋ LayerScale์ ์ ์ฉํ์ ๋๋ ๊น์ ๋ชจ๋ธ์์ ํ์ต์ด ์ค๋จ๋๊ฑฐ๋ ์์ค ํจ์๊ฐ ๋ฐ์ฐํ์ฌ ์ด๊ธฐํ ์ํ๋ก ๋๋์๊ฐ๋ ๋ถ๊ดด ํ์์ด ๊ด์ฐฐ๋์์ต๋๋ค. ํ์ง๋ง MV-Split๋ฅผ ์ ์ฉํ ๋ชจ๋ธ์ 400๊ฐ ์ธต์์ ๋ถ๊ดด ํ์์ด ์์ ํ ์ฌ๋ผ์ก์ผ๋ฉฐ, ํ๊ฐ ๋์ ์ค ๊ฐ์ฅ ์์ ์ ์ธ ํ์ต ๊ณก์ ์ ๋ณด์์ต๋๋ค. ๋ ๋์๊ฐ ๋ณ๋์ 1000๊ฐ ์ธต ๋ชจ๋ธ ์คํ์์๋ ๋์ผํ ์ค๊ณ๊ฐ ํ์ต ๊ฐ๋ฅํจ์ ์ ์ฆํ์ฌ, ๊ธฐ์กด ๊ธฐ์ ๋ก๋ ๋ถ๊ฐ๋ฅํ๋ ์ด์ฌ์ธต ๋ชจ๋ธ ํ์ต์ ์ฑ๊ณต์ ์ผ๋ก ์ด๋์ด๋๋ค๋ ์ ์ด ์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ์ ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๋ค์ ์ด ์ฐ๊ตฌ๊ฐ ์ฃผ๋ก ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN)์ด ์๋ ํธ๋์คํฌ๋จธ ๊ตฌ์กฐ, ํนํ ๋ํจ์ ํธ๋์คํฌ๋จธ์ ์ด์ ์ ๋ง์ถ๊ณ ์๋ค๋ ์ ์ ์ธ๊ธํฉ๋๋ค. ๋ฐ๋ผ์ ๋ค๋ฅธ ์ํคํ ์ฒ์์์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ์ถ๊ฐ๋ก ๊ฒ์ฆ๋์ด์ผ ํฉ๋๋ค. ๋ํ, MV-Split๋ฅผ ์ ์ฉํ๋ฉด ๋ชจ๋ธ์ ๊ตฌ์กฐ๊ฐ ์ฝ๊ฐ ๋ ๋ณต์กํด์ง๊ณ ์ฐ์ฐ ํจ์จ์ฑ์ ๋ฏธ์ธํ ์ํฅ์ ์ค ์ ์์ผ๋ฏ๋ก, ์ด๋ฅผ ์ต์ ํํ๋ ํฅํ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด ๊ธฐ์ ์ ๊ณ ํ์ง ์ด๋ฏธ์ง ์์ฑ, ๊ณ ํด์๋ ๋น๋์ค ์์ฑ๊ณผ ๊ฐ์ด ๋ชจ๋ธ์ ์ฉ๋์ด ๊ทน๋๋ก ํฐ ์์ฑํ AI ์๋น์ค์ ์ฆ์ ์ ์ฉํ ์ ์์ต๋๋ค. 1000๊ฐ ์ธต์ง๋ฆฌ ๋ชจ๋ธ์ ํ์ต์ํค๋ ค๋ฉด ์์ฒญ๋ ์์ GPU ์์๊ณผ ๋ฐ์ดํฐ๊ฐ ํ์ํ๊ฒ ์ง๋ง, MV-Split ์์ฒด๋ ๋ชจ๋ธ ๊ตฌ์กฐ์ ๋ณ๊ฒฝ๋ง์ผ๋ก๋ ํฐ ํจ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๋ฏ๋ก ๋๊ท๋ชจ ํ์ต ํ๊ฒฝ์ ๊ตฌ์ถํ ์ฐ๊ตฌ์๋ ๊ธฐ์ ์์ ์์ ์ ์ธ ์ด๋ํ ๋ชจ๋ธ ๊ฐ๋ฐ์ ํต์ฌ์ ์ธ ์ญํ ์ ํ ๊ฒ์ ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- Diffusion Models (๋ํจ์ ๋ชจ๋ธ): ๋ ธ์ด์ฆ๋ฅผ ์ ์ง์ ์ผ๋ก ์ ๊ฑฐํ์ฌ ์ด๋ฏธ์ง์ ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ์์ฑ ๋ชจ๋ธ์ ์ผ์ข ์ ๋๋ค.
- Transformer Architecture (ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ): ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ํ๋ ์์ฐ์ด ์ฒ๋ฆฌ ๋ฐ ์ด๋ฏธ์ง ์์ฑ์ ํต์ฌ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ์ ๋๋ค.
- Residual Connections (์์ฐจ ์ฐ๊ฒฐ): ๊น์ ์ ๊ฒฝ๋ง์์ ๊ธฐ์ธ๊ธฐ ์์ค์ ๋ง๊ธฐ ์ํด ์ ๋ ฅ์ ์ถ๋ ฅ์ ๋ํด์ฃผ๋ ์ฐ๊ฒฐ ๋ฐฉ์(Skip connection)์ ๋๋ค.
- Backpropagation (์ญ์ ํ): ์ถ๋ ฅ์ธต์ ์ค์ฐจ๋ฅผ ์ ๋ ฅ์ธต ๋ฐฉํฅ์ผ๋ก ์ ํํ์ฌ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
- Softmax Function (์ํํธ๋งฅ์ค ํจ์): ๊ฐ์ ํ๋ฅ ๋ถํฌ๋ก ๋ณํํ๋ ํจ์๋ก, ์ดํ ์ ๋ฉ์ปค๋์ฆ์์ ๊ฐ์ค์น๋ฅผ ๊ณ์ฐํ ๋ ์ฌ์ฉ๋ฉ๋๋ค.
- Row-stochastic Matrix (ํ ํ๋ฅ ํ๋ ฌ): ๊ฐ ํ์ ์์ ํฉ์ด 1์ด ๋๋ ํ๋ ฌ๋ก, ์ดํ ์ ๊ฐ์ค์น ํ๋ ฌ์ ํน์ฑ์ ์ค๋ช ํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
- Vanishing/Exploding Gradients (๊ธฐ์ธ๊ธฐ ์์ค ๋ฐ ํญ๋ฐ): ๊น์ ์ ๊ฒฝ๋ง ํ์ต ์ ๊ธฐ์ธ๊ธฐ๊ฐ ๋๋ฌด ์์์ ธ ์ฌ๋ผ์ง๊ฑฐ๋ ๋๋ฌด ์ปค์ ธ์ ๋ฐ์ฐํ๋ ๋ฌธ์ ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | MinT: Managed Infrastructure for Trโฆ | DD-087 |
| ๐ฅ | Mean Mode Screaming: MeanโVarianceโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | SenseNova-U1: Unifying Multimodal Uโฆ | DD-089 |
| 4. | MemPrivacy: Privacy-Preserving Persโฆ | DD-090 |
| 5. | Achieving Gold-Medal-Level Olympiadโฆ | DD-091 |
๐ ์์ฑ์ผ: 2026-05-17 | ๐ค GLM-4.7 Deep Dive