โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-089 SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture

arXiv: 2605.12500 ๊ธฐ๊ด€: SenseNova Upvotes: 169 | Comments: 1 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 3


SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture ๋…ผ๋ฌธ ๋ถ„์„

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ(Multimodal Models)์€ ๋ณด๋Š” ๊ฒƒ(์ดํ•ด, Understanding)๊ณผ ๊ทธ๋ฆฌ๋Š” ๊ฒƒ(์ƒ์„ฑ, Generation)์„ ์„œ๋กœ ๋‹ค๋ฅธ ๋„๊ตฌ์™€ ๊ณผ์ •์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ทผ๋ณธ์ ์ธ ๋ถ„์—ด(Dichotomy)์„ ๊ฐ€์ง€๊ณ  ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์ด๋Ÿฌํ•œ ๊ฒฝ๊ณ„๋ฅผ ํ—ˆ๋ฌผ์–ด, ์ดํ•ด์™€ ์ƒ์„ฑ์„ ํ•˜๋‚˜์˜ ํ†ตํ•ฉ๋œ ๊ณผ์ •์œผ๋กœ ๋™์‹œ์— ์ˆ˜ํ–‰ํ•˜๋Š” ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„(Native Unified Multimodal Paradigm)์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. SenseNova-U1์€ ๋ณ„๋„์˜ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์ธ์ฝ”๋”๋‚˜ ๋””์ฝ”๋” ์—†์ด ํ”ฝ์…€๊ณผ ํ…์ŠคํŠธ๋ฅผ ์ฒ˜์Œ๋ถ€ํ„ฐ ๋๊นŒ์ง€ ํ†ตํ•ฉํ•˜์—ฌ ์ฒ˜๋ฆฌํ•จ์œผ๋กœ์จ, ์ง„์ •ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ง€๋Šฅ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.


2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ ๋กœ ์„ค๋ช…ํ•˜๊ธฐ

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์„ โ€˜๋ฒˆ์—ญ๊ธฐ์™€ ํ™”๊ฐ€โ€™์˜ ๋น„์œ ๋กœ ์ดํ•ดํ•ด ๋ด…์‹œ๋‹ค. ๊ธฐ์กด์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์€ ๋งˆ์น˜ ์‚ฌ์ง„์„ ๋ณด๊ณ  ์„ค๋ช…ํ•  ๋•Œ๋Š” โ€˜๋ฒˆ์—ญ๊ธฐ(์ดํ•ด ์ „์šฉ ์ธ์ฝ”๋”)โ€˜๋ฅผ ํ†ตํ•ด ํ•ด์„ํ•œ ๋’ค ๊ธ€๋กœ ์“ฐ๊ณ , ๊ทธ๋ฆผ์„ ๊ทธ๋ฆด ๋•Œ๋Š” ์ „ํ˜€ ๋‹ค๋ฅธ ๋„๊ตฌ์ธ โ€˜๋ณต์‚ฌ๊ธฐ(์ƒ์„ฑ ์ „์šฉ VAE)โ€˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ด ๋‘ ๊ณผ์ •์€ ์„œ๋กœ ๋‹ค๋ฅธ ์–ธ์–ด๋ฅผ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ ์ •๋ณด๊ฐ€ ์ „๋‹ฌ๋˜๋Š” ๊ณผ์ •์—์„œ ์™œ๊ณก์ด๋‚˜ ์†์‹ค์ด ๋ฐœ์ƒํ•˜๊ธฐ ์‰ฝ์Šต๋‹ˆ๋‹ค.

๋ฐ˜๋ฉด, SenseNova-U1์€ ์ฒœ์žฌ์ ์ธ โ€˜์ธ๊ฐ„ ํ™”๊ฐ€โ€™์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค. ํ™”๊ฐ€๋Š” ๋ˆˆ์œผ๋กœ ์‚ฌ์ง„์„ ๋ณด๋Š”(์ดํ•ด) ๊ณผ์ •๊ณผ ๋จธ๋ฆฟ์†์—์„œ ์ด๋ฏธ์ง€๋ฅผ ๊ตฌ์ƒํ•˜์—ฌ ์†์œผ๋กœ ๊ทธ๋ ค๋‚ด๋Š”(์ƒ์„ฑ) ๊ณผ์ •์„ ํ•˜๋‚˜์˜ ๋‡Œ(์‹ ๊ฒฝ๋ง)์—์„œ ํ†ตํ•ฉ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ๋ณด๋Š” ์ˆœ๊ฐ„ ์ด๋ฏธ ๊ทธ๋ฆฌ๊ธฐ ์œ„ํ•œ ์ค€๋น„๊ฐ€ ๋˜์–ด ์žˆ๊ณ , ๊ทธ๋ฆฌ๋Š” ์ˆœ๊ฐ„ ๋ณด์•˜๋˜ ๋‚ด์šฉ์„ ๊ทธ๋Œ€๋กœ ์žฌํ˜„ํ•  ์ˆ˜ ์žˆ์ฃ . ์ด ๋ชจ๋ธ์€ ๋ฐ”๋กœ ์ด์ฒ˜๋Ÿผ ์ดํ•ด์™€ ์ƒ์„ฑ์„ ๋‹จ์ผํ•œ ํ‘œํ˜„ ๊ณต๊ฐ„ ๋‚ด์—์„œ ์‹œ๋„ˆ์ง€ ํšจ๊ณผ๋ฅผ ๋‚ด๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ๊ณผ์ •

  1. ์ž…๋ ฅ ์ฒ˜๋ฆฌ (Patch Encoding Layer) ๋ชจ๋ธ์€ ๋จผ์ € ์ด๋ฏธ์ง€๋ฅผ ์•„์ฃผ ์ž‘์€ ์กฐ๊ฐ์œผ๋กœ ์ž๋ฆ…๋‹ˆ๋‹ค. ๋งˆ์น˜ ๋ชจ์ž์ดํฌ ๊ทธ๋ฆผ์„ ๋งŒ๋“ค ๋•Œ ์‚ฌ์ง„์„ ์ˆ˜๋งŽ์€ ์ž‘์€ ์‚ฌ๊ฐํ˜• ํƒ€์ผ๋กœ ์ชผ๊ฐœ๋Š” ๊ฒƒ๊ณผ ๋น„์Šทํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ๋Š” ์ด๋ฏธ์ง€๋ฅผ 32x32 ํ”ฝ์…€ ํฌ๊ธฐ์˜ ํŒจ์น˜(Patch)๋กœ ๋‚˜๋ˆ„๊ณ , ์ด๋ฅผ ์ปจ๋ณผ๋ฃจ์…˜(Convolution) ์‹ ๊ฒฝ๋ง์„ ํ†ตํ•ด ์‹œ๊ฐ์  ํ† ํฐ(Visual Tokens)์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ๋ณต์žกํ•œ ์‚ฌ์ „ ํ•™์Šต๋œ ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ , ๊ฐ€๋ณ๊ณ  ์ง์ ‘์ ์ธ ์ธต(Layer)๋งŒ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ •๋ณด ์†์‹ค์„ ์ตœ์†Œํ™”ํ•ฉ๋‹ˆ๋‹ค.

  2. ํ†ตํ•ฉ์  ์ฒ˜๋ฆฌ (Unified Backbone) ๋ณ€ํ™˜๋œ ์‹œ๊ฐ์  ํ† ํฐ๊ณผ ์šฐ๋ฆฌ๊ฐ€ ๋งํ•˜๋Š” ํ…์ŠคํŠธ ํ† ํฐ์€ ํ•˜๋‚˜์˜ ๊ณตํ†ต๋œ ๊ณต๊ฐ„(Shared Embedding Space)์œผ๋กœ ํˆฌ์˜๋ฉ๋‹ˆ๋‹ค. ์ด์ œ ์ปดํ“จํ„ฐ ์ž…์žฅ์—์„œ๋Š” โ€˜์ด๋ฏธ์ง€ ์กฐ๊ฐโ€™์ด๋‚˜ โ€˜๋‹จ์–ดโ€™๋‚˜ ๋ชจ๋‘ ๊ฐ™์€ ์ข…๋ฅ˜์˜ ๋ฐ์ดํ„ฐ ์กฐ๊ฐ์ด ๋ฉ๋‹ˆ๋‹ค. ์ด ์กฐ๊ฐ๋“ค์€ ํ•˜๋‚˜์˜ ๊ฑฐ๋Œ€ํ•œ ์‹ ๊ฒฝ๋ง(Backbone)์— ๋“ค์–ด๊ฐ€์„œ ์„œ๋กœ ๋งฅ๋ฝ์„ ์ฃผ๊ณ ๋ฐ›์œผ๋ฉฐ ์ฒ˜๋ฆฌ๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, โ€˜์‚ฌ๊ณผโ€™๋ผ๋Š” ๋‹จ์–ด ํ† ํฐ๊ณผ โ€˜๋นจ๊ฐ„ ๋‘ฅ๊ทผ ์ด๋ฏธ์ง€โ€™ ํ† ํฐ์ด ์„ž์—ฌ์„œ ๋ฌด์—‡์„ ์˜๋ฏธํ•˜๋Š”์ง€ ๊ฐ™์ด ์ƒ๊ฐํ•˜๊ฒŒ ๋˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  3. ์ถœ๋ ฅ ๊ฒฐ์ • (Patch Decoding Layer) ๋งˆ์ง€๋ง‰์œผ๋กœ ๋ชจ๋ธ์˜ ๋ชฉ์ ์— ๋”ฐ๋ผ ์ถœ๋ ฅ ๋ฐฉ์‹์ด ๊ฒฐ์ •๋ฉ๋‹ˆ๋‹ค.

    • ์ดํ•ด(Understanding) ๋ชจ๋“œ: ์งˆ๋ฌธ์„ ๋ฐ›์•˜๋‹ค๋ฉด, ์ฒ˜๋ฆฌ๋œ ํ† ํฐ๋“ค์„ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์Œ์— ์˜ฌ ๊ฐ€์žฅ ์ ์ ˆํ•œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜์—ฌ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
    • ์ƒ์„ฑ(Generation) ๋ชจ๋“œ: ๊ทธ๋ฆผ์„ ๊ทธ๋ ค๋‹ฌ๋ผ๋Š” ์š”์ฒญ์ด๋ผ๋ฉด, ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋Œ€์‹  ๋‹ค์Œ์— ์˜ฌ ํ”ฝ์…€ ํŒจ์น˜๋ฅผ ์ง์ ‘ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๋ณต์žกํ•œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๊ณผ์ •(๋””ํ“จ์ „ ๋“ฑ)์„ ๊ฑฐ์น˜์ง€ ์•Š๊ณ , MLP(Multi-Layer Perceptron)๋ผ๋Š” ๋น„๊ต์  ๊ฐ„๋‹จํ•œ ๋จธ๋ฆฌ(Head)๋ฅผ ํ†ตํ•ด ๋ฐ”๋กœ ํ”ฝ์…€๊ฐ’์„ ๋ฑ‰์–ด๋ƒ…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์—”๋“œ ํˆฌ ์—”๋“œ(End-to-End) ํ•™์Šต์ด ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์ˆ˜์‹ ๋ฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์€ ๊ธฐ์กด์˜ ์ด์‚ฐ์  ํ† ํฐ(Discrete Tokens) ๋ฐฉ์‹์ด๋‚˜ ๊นŠ์€ ์ž ์žฌ ๊ณต๊ฐ„(Deep Latent Space) ์˜์กด์„ฑ์—์„œ ๋ฒ—์–ด๋‚˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹: ์ด๋ฏธ์ง€ โ†’ ์ธ์ฝ”๋” โ†’ ์••์ถ•๋œ ๋ฒกํ„ฐ โ†’ ๋””์ฝ”๋” โ†’ ์ด๋ฏธ์ง€ SenseNova-U1 ๋ฐฉ์‹: ์ด๋ฏธ์ง€ ํŒจ์น˜ โ†’ ๊ณตํ†ต ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„ โ†’ (ํ…์ŠคํŠธ ํ˜น์€ ํ”ฝ์…€ ํŒจ์น˜) ์ƒ์„ฑ ํŠนํžˆ ํŒจ์น˜ ๋””์ฝ”๋”ฉ ๊ณผ์ •์—์„œ VAE(๋ณ€๋ถ„ ์˜คํ† ์ธ์ฝ”๋”) ๋””์ฝ”๋” ์—†์ด MLP ํ—ค๋“œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ”ฝ์…€ ํŒจ์น˜๋ฅผ ์ง์ ‘ ํšŒ๋ณตํ•œ๋‹ค๋Š” ์ ์ด ๊ธฐ์ˆ ์ ์ธ ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค.


3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์–ด๋–ค ๋ฒค์น˜๋งˆํฌ์—์„œ ํ…Œ์ŠคํŠธ?

์—ฐ๊ตฌ์ง„์€ ๋‹ค์–‘ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด ๋ฐ ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ์—์„œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ๋Š” ์ด๋ฏธ์ง€ ์ดํ•ด, OCR(๊ด‘ํ•™ ๋ฌธ์ž ์ธ์‹) ์ธ์‹, ์‹œ๊ฐ์  ์ถ”๋ก , ๊ทธ๋ฆฌ๊ณ  ๊ณต๊ฐ„ ์ง€๋Šฅ(Spatial Intelligence)์„ ํฌํ•จํ•œ ๊ด‘๋ฒ”์œ„ํ•œ ์˜์—ญ์„ ํ…Œ์ŠคํŠธํ–ˆ์Šต๋‹ˆ๋‹ค. ํ‰๊ฐ€ ๋ฐฉ์‹์œผ๋กœ๋Š” ๊ฐ•๋ ฅํ•œ ์–ธ์–ด ๋ชจ๋ธ(GPT-4o-mini)์„ ์‹ฌํŒ์œผ๋กœ ์‚ผ์•„ ๋ชจ๋ธ์˜ ๋‹ต๋ณ€์„ ์ฑ„์ ํ•˜๋Š” LLM-as-a-judge ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ฑ„ํƒํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ตœ๋Œ€ 40,960 ํ† ํฐ์ด๋ผ๋Š” ์•„์ฃผ ๊ธด ๋ฌธ๋งฅ(Long-context)์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋„ ์‹œํ—˜ํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด SOTA ๋Œ€๋น„ ์–ผ๋งˆ๋‚˜ ์ข‹์•„์กŒ๋‚˜?

๋…ผ๋ฌธ์— ์ œ์‹œ๋œ ํ‘œ(Table 3) ๋“ฑ์— ๋”ฐ๋ฅด๋ฉด, SenseNova-U1์€ ์ดํ•ด(Understanding) ์ „์šฉ์œผ๋กœ ์„ค๊ณ„๋œ ์ตœ์ƒ์œ„๊ธ‰ ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ•ด๋„ ์†์ƒ‰์—†๋Š” ๊ฒฝ์Ÿ๋ ฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ํ…์ŠคํŠธ ์ดํ•ด, ์‹œ๊ฐ-์–ธ์–ด ์ง€๊ฐ, ์ง€์‹ ์ถ”๋ก  ๋“ฑ์—์„œ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ•˜๋ฉฐ ์ด์ „์— ๋ถ„๋ฆฌ๋˜์–ด ์žˆ๋˜ ๋ชจ๋ธ๋“ค์„ ํ•˜๋‚˜๋กœ ํ†ตํ•ฉํ–ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ์—†์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

๊ฐ€์žฅ ์ธ์ƒ์ ์ธ ์ ์€ โ€˜๊ณต๊ฐ„ ์ง€๋Šฅ(Spatial Intelligence)โ€˜๊ณผ โ€˜๊ธด ๋ฌธ๋งฅ ์ฒ˜๋ฆฌโ€™ ๋Šฅ๋ ฅ์ž…๋‹ˆ๋‹ค. ์ตœ๋Œ€ 40,960 ํ† ํฐ์˜ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์–ด, ์—ฌ๋Ÿฌ ์žฅ์˜ ์ด๋ฏธ์ง€๊ฐ€ ํฌํ•จ๋œ ๊ธด ๋ฌธ์„œ๋‚˜ ๋ณต์žกํ•œ ์ง€์‹œ์‚ฌํ•ญ์„ ํ•œ ๋ฒˆ์— ์ดํ•ดํ•˜๊ณ  ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ์—์ด์ „ํŠธ(Agent) ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ ๋‹จ๊ณ„์—์„œ ์–ธ๊ธ‰๋œ โ€˜CLIP-ratio-balanced re-captioningโ€™๊ณผ ๊ฐ™์€ ์ •๊ตํ•œ ๋ฐ์ดํ„ฐ ์ •์ œ ๊ณผ์ •์ด ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ๊ณผ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚จ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค.


4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„

์ด ๋…ผ๋ฌธ์€ ์„œ๋ก ์—์„œ ๊ธฐ์กด์˜ ํ†ตํ•ฉ ๋ชจ๋ธ๋“ค์ด ๊ฐ€์ง„ ํ‘œํ˜„์ƒ์˜ ์ ˆ์ถฉ(Trade-offs) ๋ฌธ์ œ๋ฅผ ์ง€์ ํ•˜๋ฉฐ ๋‚˜์™”์ง€๋งŒ, ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์™„๋ฒฝํ•œ ํ•ด๊ฒฐ์ฑ…์ด๋ผ๊ธฐ๋ณด๋‹ค๋Š” ์ƒˆ๋กœ์šด ๋ฐฉํ–ฅ์„ฑ์„ ์ œ์‹œํ•˜๋Š” ๊ฒƒ์— ๊ฐ€๊น์Šต๋‹ˆ๋‹ค. ํŠนํžˆ โ€˜์—ฐ์†์  ์‹œ๊ฐ ์ธํ„ฐํŽ˜์ด์Šค(Continuous Visual Interface)โ€˜๋ฅผ ์ถ”๊ตฌํ•จ์— ์žˆ์–ด, ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์ด๋‚˜ ๋งค์šฐ ๋ณต์žกํ•œ ์‹œ๋ฏธ์  ์„ธ๋ถ€ ์‚ฌํ•ญ์„ ์žฌํ˜„ํ•˜๋Š” ๋ฐ ์žˆ์–ด ์ˆœ์ˆ˜ ์ƒ์„ฑ ์ „์šฉ ๋ชจ๋ธ(์˜ˆ: ํ”Œ๋Ÿญ์Šค๋‚˜ ์‹œ๊ทธ๋งˆ ๊ฐ™์€ ์ตœ์‹  diffusion ๋ชจ๋ธ) ๋Œ€๋น„ ์—ฌ์ „ํžˆ ๋ฏธ์„ธํ•œ ํ’ˆ์งˆ ์ฐจ์ด๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅํ•œ ์ 

ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด ํ”ฝ์…€ ๊ธฐ๋ฐ˜์˜ ํ†ตํ•ฉ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋” ๋Œ€๊ทœ๋ชจ๋กœ ํ™•์žฅ(Scale-up)ํ•˜๋ฉด์„œ๋„ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ์œ ์ง€ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์—ฐ๊ตฌ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ˜„์žฌ๋Š” ์ฃผ๋กœ ์ •์ ์ธ ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ์œ„์ฃผ์ง€๋งŒ, ์ด๋ฅผ ๋น„๋””์˜ค๋‚˜ ์˜ค๋””์˜ค์™€ ๊ฐ™์€ ๋” ๋‹ค์–‘ํ•œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋กœ ํ™•์žฅํ•˜์—ฌ ์‹œ๊ฐ„์  ๊ฐœ๋…๊นŒ์ง€ ํ†ตํ•ฉํ•˜๋Š” โ€˜๋„ค์ดํ‹ฐ๋ธŒ(Native)โ€™ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ง€๋Šฅ์œผ๋กœ ๋ฐœ์ „์‹œํ‚ฌ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.


5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์–ด๋””์— ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅ?

์ด ๋ชจ๋ธ์€ ์ดํ•ด์™€ ์ƒ์„ฑ์ด ๋™์‹œ์— ํ•„์š”ํ•œ ๊ณณ์—์„œ ๋งค์šฐ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ณ ๊ฐ์ด ๋ณด๋‚ธ ์‚ฌ์ง„์„ ๋ถ„์„ํ•˜์—ฌ(์ดํ•ด) ์ˆ˜๋ฆฌ ๊ฐ€์ด๋“œ ์ด๋ฏธ์ง€๋ฅผ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๊ทธ๋ ค์„œ ๋ณด๋‚ด์ฃผ๋Š”(์ƒ์„ฑ) ๊ณ ๊ฐ ์ง€์› ์‹œ์Šคํ…œ์ด๋‚˜, ํ™”๋ฉด์„ ๋ณด๊ณ  ์ƒํ™ฉ์„ ํŒ๋‹จํ•˜์—ฌ ์ฆ‰์‹œ UI๋ฅผ ์ƒ์„ฑํ•˜๊ฑฐ๋‚˜ ์ˆ˜์ •ํ•ด ์ฃผ๋Š” AI ์—์ด์ „ํŠธ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ธด ๋ณด๊ณ ์„œ๋‚˜ ์ธํฌ๊ทธ๋ž˜ํ”ฝ์„ ์ฝ๊ณ  ์š”์•ฝํ•ด ์ฃผ๋Š” ๊ธฐ์—…์šฉ ๋ฌธ์„œ ๋ถ„์„ ๋„๊ตฌ์—๋„ ์ฆ‰์‹œ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

SenseNova-U1์€ 8B(80์–ต) ํŒŒ๋ผ๋ฏธํ„ฐ ๋ฒ„์ „๊ณผ A3B(์•ฝ 300์–ต ํŒŒ๋ผ๋ฏธํ„ฐ, MoE ๊ตฌ์กฐ) ๋ฒ„์ „์œผ๋กœ ๋‚˜์˜ต๋‹ˆ๋‹ค. 8B ๋ฒ„์ „์€ ๋น„๊ต์  ์‰ฝ๊ฒŒ ์ ‘๊ทผ ๊ฐ€๋Šฅํ•œ ํด๋ผ์šฐ๋“œ ํ™˜๊ฒฝ(์˜ˆ: A100 1~2๋Œ€ ์ˆ˜์ค€)์—์„œ ์‹คํ—˜ํ•ด ๋ณผ ์ˆ˜ ์žˆ์ง€๋งŒ, A3B ๋ชจ๋ธ์ด๋‚˜ ํ’€ํŒŒ์ธ ํŠœ๋‹์„ ์œ„ํ•ด์„œ๋Š” ์ƒ๋‹นํ•œ ๊ทœ๋ชจ์˜ GPU ํด๋Ÿฌ์Šคํ„ฐ์™€ ๊ณ ์„ฑ๋Šฅ ๋„คํŠธ์›Œํฌ ์ธํ”„๋ผ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ๋„ ๊ธด ๋ฌธ๋งฅ(4๋งŒ ํ† ํฐ ์ด์ƒ)์„ ์ฒ˜๋ฆฌํ•ด์•ผ ํ•œ๋‹ค๋ฉด ์ƒ๋‹นํ•œ ๋ฉ”๋ชจ๋ฆฌ(VRAM) ๋ฆฌ์†Œ์Šค๊ฐ€ ์š”๊ตฌ๋ฉ๋‹ˆ๋‹ค.


6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • VLM (Vision-Language Model): ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ๋™์‹œ์— ์ดํ•ดํ•˜๊ณ  ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ์˜ ์ด์นญ์ž…๋‹ˆ๋‹ค.
  • VAE (Variational Autoencoder): ๋ฐ์ดํ„ฐ๋ฅผ ์••์ถ•ํ–ˆ๋‹ค๊ฐ€ ๋‹ค์‹œ ๋ณต์›ํ•˜๋Š” ์ธ๊ณต์‹ ๊ฒฝ๋ง์œผ๋กœ, ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ์—์„œ ์ฃผ๋กœ ์ด๋ฏธ์ง€๋ฅผ ์ž ์žฌ ๊ณต๊ฐ„์œผ๋กœ ์••์ถ•ํ•˜๋Š” ๋ฐ ์“ฐ์ž…๋‹ˆ๋‹ค.
  • Diffusion Model (๋””ํ“จ์ „ ๋ชจ๋ธ): ์ ์ง„์ ์œผ๋กœ ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•˜์—ฌ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ตœ์‹  ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.
  • Autoregressive Modeling (์ž๊ธฐํšŒ๊ท€ ๋ชจ๋ธ): ์ด์ „ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์Œ์— ์˜ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆœ์ฐจ์ ์œผ๋กœ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, GPT ๊ฐ™์€ ์–ธ์–ด ๋ชจ๋ธ์ด ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • Mixture-of-Experts (MoE): ๋ชจ๋ธ ๋‚ด์—์„œ ์ „์ฒด๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋Œ€์‹  ํ•„์š”ํ•œ ์ „๋ฌธ๊ฐ€(๋ถ€๋ถ„ ๋„คํŠธ์›Œํฌ)๋งŒ ์„ ํƒ์ ์œผ๋กœ ํ™œ์„ฑํ™”ํ•˜์—ฌ ํšจ์œจ์„ฑ์„ ๋†’์ด๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.
  • End-to-End Learning (์—”๋“œ ํˆฌ ์—”๋“œ ํ•™์Šต): ์ž…๋ ฅ์—์„œ ์ถœ๋ ฅ๊นŒ์ง€ ์ค‘๊ฐ„์— ๋ณ„๋„์˜ ๋‹จ๊ณ„๋‚˜ ์‚ฌ๋žŒ์˜ ๊ฐœ์ž… ์—†์ด ํ•˜๋‚˜์˜ ์‹œ์Šคํ…œ์ด ์ฒ˜์Œ๋ถ€ํ„ฐ ๋๊นŒ์ง€ ์Šค์Šค๋กœ ํ•™์Šตํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
  • Embedding Space (์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„): ํ…์ŠคํŠธ๋‚˜ ์ด๋ฏธ์ง€ ๊ฐ™์€ ๋ฐ์ดํ„ฐ๋ฅผ ์ปดํ“จํ„ฐ๊ฐ€ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ์ˆซ์ž์˜ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ๋ฐฐ์น˜ํ•˜๋Š” ์ถ”์ƒ์ ์ธ ๊ณต๊ฐ„์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡MinT: Managed Infrastructure for Trโ€ฆDD-087
๐ŸฅˆMean Mode Screaming: Meanโ€”Varianceโ€ฆDD-088
๐Ÿฅ‰SenseNova-U1: Unifying Multimodal Uโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
4.MemPrivacy: Privacy-Preserving Persโ€ฆDD-090
5.Achieving Gold-Medal-Level Olympiadโ€ฆDD-091

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-05-17 | ๐Ÿค– GLM-4.7 Deep Dive