โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-089 SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture
arXiv: 2605.12500 ๊ธฐ๊ด: SenseNova Upvotes: 169 | Comments: 1 ์์: ์ด๋ฒ ์ฃผ Top 3
SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture ๋ ผ๋ฌธ ๋ถ์
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ(Multimodal Models)์ ๋ณด๋ ๊ฒ(์ดํด, Understanding)๊ณผ ๊ทธ๋ฆฌ๋ ๊ฒ(์์ฑ, Generation)์ ์๋ก ๋ค๋ฅธ ๋๊ตฌ์ ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๊ทผ๋ณธ์ ์ธ ๋ถ์ด(Dichotomy)์ ๊ฐ์ง๊ณ ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ด๋ฌํ ๊ฒฝ๊ณ๋ฅผ ํ๋ฌผ์ด, ์ดํด์ ์์ฑ์ ํ๋์ ํตํฉ๋ ๊ณผ์ ์ผ๋ก ๋์์ ์ํํ๋ ์๋ก์ด ํจ๋ฌ๋ค์(Native Unified Multimodal Paradigm)์ ์ ์ํฉ๋๋ค. SenseNova-U1์ ๋ณ๋์ ์ฌ์ ํ๋ จ๋ ์ธ์ฝ๋๋ ๋์ฝ๋ ์์ด ํฝ์ ๊ณผ ํ ์คํธ๋ฅผ ์ฒ์๋ถํฐ ๋๊น์ง ํตํฉํ์ฌ ์ฒ๋ฆฌํจ์ผ๋ก์จ, ์ง์ ํ ๋ฉํฐ๋ชจ๋ฌ ์ง๋ฅ์ ๊ฐ๋ฅ์ฑ์ ์ ์ฆํ์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ ๋ก ์ค๋ช ํ๊ธฐ
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ โ๋ฒ์ญ๊ธฐ์ ํ๊ฐโ์ ๋น์ ๋ก ์ดํดํด ๋ด ์๋ค. ๊ธฐ์กด์ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ๋ง์น ์ฌ์ง์ ๋ณด๊ณ ์ค๋ช ํ ๋๋ โ๋ฒ์ญ๊ธฐ(์ดํด ์ ์ฉ ์ธ์ฝ๋)โ๋ฅผ ํตํด ํด์ํ ๋ค ๊ธ๋ก ์ฐ๊ณ , ๊ทธ๋ฆผ์ ๊ทธ๋ฆด ๋๋ ์ ํ ๋ค๋ฅธ ๋๊ตฌ์ธ โ๋ณต์ฌ๊ธฐ(์์ฑ ์ ์ฉ VAE)โ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ์ด ๋ ๊ณผ์ ์ ์๋ก ๋ค๋ฅธ ์ธ์ด๋ฅผ ์ฌ์ฉํ๋ฏ๋ก ์ ๋ณด๊ฐ ์ ๋ฌ๋๋ ๊ณผ์ ์์ ์๊ณก์ด๋ ์์ค์ด ๋ฐ์ํ๊ธฐ ์ฝ์ต๋๋ค.
๋ฐ๋ฉด, SenseNova-U1์ ์ฒ์ฌ์ ์ธ โ์ธ๊ฐ ํ๊ฐโ์ ๊ฐ์ต๋๋ค. ํ๊ฐ๋ ๋์ผ๋ก ์ฌ์ง์ ๋ณด๋(์ดํด) ๊ณผ์ ๊ณผ ๋จธ๋ฆฟ์์์ ์ด๋ฏธ์ง๋ฅผ ๊ตฌ์ํ์ฌ ์์ผ๋ก ๊ทธ๋ ค๋ด๋(์์ฑ) ๊ณผ์ ์ ํ๋์ ๋(์ ๊ฒฝ๋ง)์์ ํตํฉ์ ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค. ๋ณด๋ ์๊ฐ ์ด๋ฏธ ๊ทธ๋ฆฌ๊ธฐ ์ํ ์ค๋น๊ฐ ๋์ด ์๊ณ , ๊ทธ๋ฆฌ๋ ์๊ฐ ๋ณด์๋ ๋ด์ฉ์ ๊ทธ๋๋ก ์ฌํํ ์ ์์ฃ . ์ด ๋ชจ๋ธ์ ๋ฐ๋ก ์ด์ฒ๋ผ ์ดํด์ ์์ฑ์ ๋จ์ผํ ํํ ๊ณต๊ฐ ๋ด์์ ์๋์ง ํจ๊ณผ๋ฅผ ๋ด๋๋ก ์ค๊ณ๋์์ต๋๋ค.
๋จ๊ณ๋ณ ๋์ ๊ณผ์
-
์ ๋ ฅ ์ฒ๋ฆฌ (Patch Encoding Layer) ๋ชจ๋ธ์ ๋จผ์ ์ด๋ฏธ์ง๋ฅผ ์์ฃผ ์์ ์กฐ๊ฐ์ผ๋ก ์๋ฆ ๋๋ค. ๋ง์น ๋ชจ์์ดํฌ ๊ทธ๋ฆผ์ ๋ง๋ค ๋ ์ฌ์ง์ ์๋ง์ ์์ ์ฌ๊ฐํ ํ์ผ๋ก ์ชผ๊ฐ๋ ๊ฒ๊ณผ ๋น์ทํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋ ์ด๋ฏธ์ง๋ฅผ 32x32 ํฝ์ ํฌ๊ธฐ์ ํจ์น(Patch)๋ก ๋๋๊ณ , ์ด๋ฅผ ์ปจ๋ณผ๋ฃจ์ (Convolution) ์ ๊ฒฝ๋ง์ ํตํด ์๊ฐ์ ํ ํฐ(Visual Tokens)์ผ๋ก ๋ณํํฉ๋๋ค. ์ด๋ ๋ณต์กํ ์ฌ์ ํ์ต๋ ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ์ง ์๊ณ , ๊ฐ๋ณ๊ณ ์ง์ ์ ์ธ ์ธต(Layer)๋ง์ ์ฌ์ฉํ์ฌ ์ ๋ณด ์์ค์ ์ต์ํํฉ๋๋ค.
-
ํตํฉ์ ์ฒ๋ฆฌ (Unified Backbone) ๋ณํ๋ ์๊ฐ์ ํ ํฐ๊ณผ ์ฐ๋ฆฌ๊ฐ ๋งํ๋ ํ ์คํธ ํ ํฐ์ ํ๋์ ๊ณตํต๋ ๊ณต๊ฐ(Shared Embedding Space)์ผ๋ก ํฌ์๋ฉ๋๋ค. ์ด์ ์ปดํจํฐ ์ ์ฅ์์๋ โ์ด๋ฏธ์ง ์กฐ๊ฐโ์ด๋ โ๋จ์ดโ๋ ๋ชจ๋ ๊ฐ์ ์ข ๋ฅ์ ๋ฐ์ดํฐ ์กฐ๊ฐ์ด ๋ฉ๋๋ค. ์ด ์กฐ๊ฐ๋ค์ ํ๋์ ๊ฑฐ๋ํ ์ ๊ฒฝ๋ง(Backbone)์ ๋ค์ด๊ฐ์ ์๋ก ๋งฅ๋ฝ์ ์ฃผ๊ณ ๋ฐ์ผ๋ฉฐ ์ฒ๋ฆฌ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, โ์ฌ๊ณผโ๋ผ๋ ๋จ์ด ํ ํฐ๊ณผ โ๋นจ๊ฐ ๋ฅ๊ทผ ์ด๋ฏธ์งโ ํ ํฐ์ด ์์ฌ์ ๋ฌด์์ ์๋ฏธํ๋์ง ๊ฐ์ด ์๊ฐํ๊ฒ ๋๋ ๊ฒ์ ๋๋ค.
-
์ถ๋ ฅ ๊ฒฐ์ (Patch Decoding Layer) ๋ง์ง๋ง์ผ๋ก ๋ชจ๋ธ์ ๋ชฉ์ ์ ๋ฐ๋ผ ์ถ๋ ฅ ๋ฐฉ์์ด ๊ฒฐ์ ๋ฉ๋๋ค.
- ์ดํด(Understanding) ๋ชจ๋: ์ง๋ฌธ์ ๋ฐ์๋ค๋ฉด, ์ฒ๋ฆฌ๋ ํ ํฐ๋ค์ ๋ฐํ์ผ๋ก ๋ค์์ ์ฌ ๊ฐ์ฅ ์ ์ ํ ๋จ์ด๋ฅผ ์์ธกํ์ฌ ๋ต๋ณ์ ์์ฑํฉ๋๋ค.
- ์์ฑ(Generation) ๋ชจ๋: ๊ทธ๋ฆผ์ ๊ทธ๋ ค๋ฌ๋ผ๋ ์์ฒญ์ด๋ผ๋ฉด, ํ ์คํธ๋ฅผ ์์ฑํ๋ ๋์ ๋ค์์ ์ฌ ํฝ์ ํจ์น๋ฅผ ์ง์ ์์ธกํฉ๋๋ค. ๊ธฐ์กด์ ๋ณต์กํ ์ด๋ฏธ์ง ์์ฑ ๊ณผ์ (๋ํจ์ ๋ฑ)์ ๊ฑฐ์น์ง ์๊ณ , MLP(Multi-Layer Perceptron)๋ผ๋ ๋น๊ต์ ๊ฐ๋จํ ๋จธ๋ฆฌ(Head)๋ฅผ ํตํด ๋ฐ๋ก ํฝ์ ๊ฐ์ ๋ฑ์ด๋ ๋๋ค. ์ด๋ฅผ ํตํด ์๋ ํฌ ์๋(End-to-End) ํ์ต์ด ๊ฐ๋ฅํด์ง๋๋ค.
ํต์ฌ ์์ ๋ฐ ์๊ณ ๋ฆฌ์ฆ
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ๊ธฐ์กด์ ์ด์ฐ์ ํ ํฐ(Discrete Tokens) ๋ฐฉ์์ด๋ ๊น์ ์ ์ฌ ๊ณต๊ฐ(Deep Latent Space) ์์กด์ฑ์์ ๋ฒ์ด๋๋ ๊ฒ์ ๋๋ค. ๊ธฐ์กด ๋ฐฉ์: ์ด๋ฏธ์ง โ ์ธ์ฝ๋ โ ์์ถ๋ ๋ฒกํฐ โ ๋์ฝ๋ โ ์ด๋ฏธ์ง SenseNova-U1 ๋ฐฉ์: ์ด๋ฏธ์ง ํจ์น โ ๊ณตํต ์๋ฒ ๋ฉ ๊ณต๊ฐ โ (ํ ์คํธ ํน์ ํฝ์ ํจ์น) ์์ฑ ํนํ ํจ์น ๋์ฝ๋ฉ ๊ณผ์ ์์ VAE(๋ณ๋ถ ์คํ ์ธ์ฝ๋) ๋์ฝ๋ ์์ด MLP ํค๋๋ฅผ ์ฌ์ฉํ์ฌ ํฝ์ ํจ์น๋ฅผ ์ง์ ํ๋ณตํ๋ค๋ ์ ์ด ๊ธฐ์ ์ ์ธ ํต์ฌ์ ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ด๋ค ๋ฒค์น๋งํฌ์์ ํ ์คํธ?
์ฐ๊ตฌ์ง์ ๋ค์ํ ๋ฉํฐ๋ชจ๋ฌ ์ดํด ๋ฐ ์ถ๋ก ๋ฒค์น๋งํฌ์์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋ ์ด๋ฏธ์ง ์ดํด, OCR(๊ดํ ๋ฌธ์ ์ธ์) ์ธ์, ์๊ฐ์ ์ถ๋ก , ๊ทธ๋ฆฌ๊ณ ๊ณต๊ฐ ์ง๋ฅ(Spatial Intelligence)์ ํฌํจํ ๊ด๋ฒ์ํ ์์ญ์ ํ ์คํธํ์ต๋๋ค. ํ๊ฐ ๋ฐฉ์์ผ๋ก๋ ๊ฐ๋ ฅํ ์ธ์ด ๋ชจ๋ธ(GPT-4o-mini)์ ์ฌํ์ผ๋ก ์ผ์ ๋ชจ๋ธ์ ๋ต๋ณ์ ์ฑ์ ํ๋ LLM-as-a-judge ํจ๋ฌ๋ค์์ ์ฑํํ์ต๋๋ค. ๋ํ, ์ต๋ 40,960 ํ ํฐ์ด๋ผ๋ ์์ฃผ ๊ธด ๋ฌธ๋งฅ(Long-context)์ ์ฒ๋ฆฌํ ์ ์๋์ง๋ ์ํํ์ต๋๋ค.
๊ธฐ์กด SOTA ๋๋น ์ผ๋ง๋ ์ข์์ก๋?
๋ ผ๋ฌธ์ ์ ์๋ ํ(Table 3) ๋ฑ์ ๋ฐ๋ฅด๋ฉด, SenseNova-U1์ ์ดํด(Understanding) ์ ์ฉ์ผ๋ก ์ค๊ณ๋ ์ต์์๊ธ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํด๋ ์์์๋ ๊ฒฝ์๋ ฅ์ ๋ณด์์ต๋๋ค. ํนํ ํ ์คํธ ์ดํด, ์๊ฐ-์ธ์ด ์ง๊ฐ, ์ง์ ์ถ๋ก ๋ฑ์์ ์ต๊ณ ์์ค์ ์ฑ๋ฅ์ ๊ธฐ๋กํ๋ฉฐ ์ด์ ์ ๋ถ๋ฆฌ๋์ด ์๋ ๋ชจ๋ธ๋ค์ ํ๋๋ก ํตํฉํ์์๋ ๋ถ๊ตฌํ๊ณ ์ฑ๋ฅ ์ ํ๊ฐ ์์์ ์ ์ฆํ์ต๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
๊ฐ์ฅ ์ธ์์ ์ธ ์ ์ โ๊ณต๊ฐ ์ง๋ฅ(Spatial Intelligence)โ๊ณผ โ๊ธด ๋ฌธ๋งฅ ์ฒ๋ฆฌโ ๋ฅ๋ ฅ์ ๋๋ค. ์ต๋ 40,960 ํ ํฐ์ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ์ ์์ด, ์ฌ๋ฌ ์ฅ์ ์ด๋ฏธ์ง๊ฐ ํฌํจ๋ ๊ธด ๋ฌธ์๋ ๋ณต์กํ ์ง์์ฌํญ์ ํ ๋ฒ์ ์ดํดํ๊ณ ์ํํ ์ ์๋ ์์ด์ ํธ(Agent) ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋ํ, ๋ฐ์ดํฐ ๊ตฌ์ฑ ๋จ๊ณ์์ ์ธ๊ธ๋ โCLIP-ratio-balanced re-captioningโ๊ณผ ๊ฐ์ ์ ๊ตํ ๋ฐ์ดํฐ ์ ์ ๊ณผ์ ์ด ๋ชจ๋ธ์ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ์ถ๋ก ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํจ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ
์ด ๋ ผ๋ฌธ์ ์๋ก ์์ ๊ธฐ์กด์ ํตํฉ ๋ชจ๋ธ๋ค์ด ๊ฐ์ง ํํ์์ ์ ์ถฉ(Trade-offs) ๋ฌธ์ ๋ฅผ ์ง์ ํ๋ฉฐ ๋์์ง๋ง, ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ์๋ฒฝํ ํด๊ฒฐ์ฑ ์ด๋ผ๊ธฐ๋ณด๋ค๋ ์๋ก์ด ๋ฐฉํฅ์ฑ์ ์ ์ํ๋ ๊ฒ์ ๊ฐ๊น์ต๋๋ค. ํนํ โ์ฐ์์ ์๊ฐ ์ธํฐํ์ด์ค(Continuous Visual Interface)โ๋ฅผ ์ถ๊ตฌํจ์ ์์ด, ๊ณ ํด์๋ ์ด๋ฏธ์ง ์์ฑ์ด๋ ๋งค์ฐ ๋ณต์กํ ์๋ฏธ์ ์ธ๋ถ ์ฌํญ์ ์ฌํํ๋ ๋ฐ ์์ด ์์ ์์ฑ ์ ์ฉ ๋ชจ๋ธ(์: ํ๋ญ์ค๋ ์๊ทธ๋ง ๊ฐ์ ์ต์ diffusion ๋ชจ๋ธ) ๋๋น ์ฌ์ ํ ๋ฏธ์ธํ ํ์ง ์ฐจ์ด๊ฐ ์์ ์ ์์ต๋๋ค.
๊ฐ์ ๊ฐ๋ฅํ ์
ํฅํ ์ฐ๊ตฌ์์๋ ์ด ํฝ์ ๊ธฐ๋ฐ์ ํตํฉ ์ํคํ ์ฒ๋ฅผ ๋ ๋๊ท๋ชจ๋ก ํ์ฅ(Scale-up)ํ๋ฉด์๋ ๊ณ์ฐ ํจ์จ์ฑ์ ์ ์งํ๋ ๋ฐฉ๋ฒ์ด ์ฐ๊ตฌ๋ ๊ฒ์ ๋๋ค. ๋ํ, ํ์ฌ๋ ์ฃผ๋ก ์ ์ ์ธ ์ด๋ฏธ์ง์ ํ ์คํธ ์์ฃผ์ง๋ง, ์ด๋ฅผ ๋น๋์ค๋ ์ค๋์ค์ ๊ฐ์ ๋ ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ํ์ฅํ์ฌ ์๊ฐ์ ๊ฐ๋ ๊น์ง ํตํฉํ๋ โ๋ค์ดํฐ๋ธ(Native)โ ๋ฉํฐ๋ชจ๋ฌ ์ง๋ฅ์ผ๋ก ๋ฐ์ ์ํฌ ์ ์์ ๊ฒ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด๋์ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅ?
์ด ๋ชจ๋ธ์ ์ดํด์ ์์ฑ์ด ๋์์ ํ์ํ ๊ณณ์์ ๋งค์ฐ ์ ์ฉํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๊ณ ๊ฐ์ด ๋ณด๋ธ ์ฌ์ง์ ๋ถ์ํ์ฌ(์ดํด) ์๋ฆฌ ๊ฐ์ด๋ ์ด๋ฏธ์ง๋ฅผ ์ค์๊ฐ์ผ๋ก ๊ทธ๋ ค์ ๋ณด๋ด์ฃผ๋(์์ฑ) ๊ณ ๊ฐ ์ง์ ์์คํ ์ด๋, ํ๋ฉด์ ๋ณด๊ณ ์ํฉ์ ํ๋จํ์ฌ ์ฆ์ UI๋ฅผ ์์ฑํ๊ฑฐ๋ ์์ ํด ์ฃผ๋ AI ์์ด์ ํธ์ ์ ํฉํฉ๋๋ค. ๋ํ, ๊ธด ๋ณด๊ณ ์๋ ์ธํฌ๊ทธ๋ํฝ์ ์ฝ๊ณ ์์ฝํด ์ฃผ๋ ๊ธฐ์ ์ฉ ๋ฌธ์ ๋ถ์ ๋๊ตฌ์๋ ์ฆ์ ํ์ฉ๋ ์ ์์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค
SenseNova-U1์ 8B(80์ต) ํ๋ผ๋ฏธํฐ ๋ฒ์ ๊ณผ A3B(์ฝ 300์ต ํ๋ผ๋ฏธํฐ, MoE ๊ตฌ์กฐ) ๋ฒ์ ์ผ๋ก ๋์ต๋๋ค. 8B ๋ฒ์ ์ ๋น๊ต์ ์ฝ๊ฒ ์ ๊ทผ ๊ฐ๋ฅํ ํด๋ผ์ฐ๋ ํ๊ฒฝ(์: A100 1~2๋ ์์ค)์์ ์คํํด ๋ณผ ์ ์์ง๋ง, A3B ๋ชจ๋ธ์ด๋ ํํ์ธ ํ๋์ ์ํด์๋ ์๋นํ ๊ท๋ชจ์ GPU ํด๋ฌ์คํฐ์ ๊ณ ์ฑ๋ฅ ๋คํธ์ํฌ ์ธํ๋ผ๊ฐ ํ์ํฉ๋๋ค. ์ถ๋ก ๋จ๊ณ์์๋ ๊ธด ๋ฌธ๋งฅ(4๋ง ํ ํฐ ์ด์)์ ์ฒ๋ฆฌํด์ผ ํ๋ค๋ฉด ์๋นํ ๋ฉ๋ชจ๋ฆฌ(VRAM) ๋ฆฌ์์ค๊ฐ ์๊ตฌ๋ฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- VLM (Vision-Language Model): ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๋์์ ์ดํดํ๊ณ ์ฒ๋ฆฌํ ์ ์๋ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ ์ด์นญ์ ๋๋ค.
- VAE (Variational Autoencoder): ๋ฐ์ดํฐ๋ฅผ ์์ถํ๋ค๊ฐ ๋ค์ ๋ณต์ํ๋ ์ธ๊ณต์ ๊ฒฝ๋ง์ผ๋ก, ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์์ ์ฃผ๋ก ์ด๋ฏธ์ง๋ฅผ ์ ์ฌ ๊ณต๊ฐ์ผ๋ก ์์ถํ๋ ๋ฐ ์ฐ์ ๋๋ค.
- Diffusion Model (๋ํจ์ ๋ชจ๋ธ): ์ ์ง์ ์ผ๋ก ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ์ฌ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ์ต์ ์ด๋ฏธ์ง ์์ฑ ๊ธฐ์ ์ ๋๋ค.
- Autoregressive Modeling (์๊ธฐํ๊ท ๋ชจ๋ธ): ์ด์ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ๋ค์์ ์ฌ ๋ฐ์ดํฐ๋ฅผ ์์ฐจ์ ์ผ๋ก ์์ธกํ๋ ๋ฐฉ์์ผ๋ก, GPT ๊ฐ์ ์ธ์ด ๋ชจ๋ธ์ด ์ฌ์ฉํฉ๋๋ค.
- Mixture-of-Experts (MoE): ๋ชจ๋ธ ๋ด์์ ์ ์ฒด๋ฅผ ์ฌ์ฉํ๋ ๋์ ํ์ํ ์ ๋ฌธ๊ฐ(๋ถ๋ถ ๋คํธ์ํฌ)๋ง ์ ํ์ ์ผ๋ก ํ์ฑํํ์ฌ ํจ์จ์ฑ์ ๋์ด๋ ๊ธฐ์ ์ ๋๋ค.
- End-to-End Learning (์๋ ํฌ ์๋ ํ์ต): ์ ๋ ฅ์์ ์ถ๋ ฅ๊น์ง ์ค๊ฐ์ ๋ณ๋์ ๋จ๊ณ๋ ์ฌ๋์ ๊ฐ์ ์์ด ํ๋์ ์์คํ ์ด ์ฒ์๋ถํฐ ๋๊น์ง ์ค์ค๋ก ํ์ตํ๋ ๋ฐฉ์์ ๋๋ค.
- Embedding Space (์๋ฒ ๋ฉ ๊ณต๊ฐ): ํ ์คํธ๋ ์ด๋ฏธ์ง ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์ปดํจํฐ๊ฐ ์ดํดํ ์ ์๋ ์ซ์์ ๋ฒกํฐ๋ก ๋ณํํ์ฌ ๋ฐฐ์นํ๋ ์ถ์์ ์ธ ๊ณต๊ฐ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | MinT: Managed Infrastructure for Trโฆ | DD-087 |
| ๐ฅ | Mean Mode Screaming: MeanโVarianceโฆ | DD-088 |
| ๐ฅ | SenseNova-U1: Unifying Multimodal Uโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 4. | MemPrivacy: Privacy-Preserving Persโฆ | DD-090 |
| 5. | Achieving Gold-Medal-Level Olympiadโฆ | DD-091 |
๐ ์์ฑ์ผ: 2026-05-17 | ๐ค GLM-4.7 Deep Dive