โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-054 PixelSmile: Toward Fine-Grained Facial Expression Editing

arXiv: 2603.25728 ๊ธฐ๊ด€: Fudan University Upvotes: 105 | Comments: 3 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 4


๋…ผ๋ฌธ ๋ฆฌ๋ทฐ: PixelSmile: Toward Fine-Grained Facial Expression Editing

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ์–ผ๊ตด ํ‘œ์ • ํŽธ์ง‘ ๋ชจ๋ธ๋“ค์€ ํ‘œ์ •์„ โ€˜ํ–‰๋ณตโ€™, โ€˜์Šฌํ””โ€™ ๊ฐ™์€ ๋”ฑ๋”ฑํ•˜๊ฒŒ ๊ตฌ๋ถ„๋œ ์ƒ์ž ์•ˆ์— ๋„ฃ์–ด์„œ ์ฒ˜๋ฆฌํ–ˆ๊ธฐ ๋•Œ๋ฌธ์—, ์„œ๋กœ ๋น„์Šทํ•œ ํ‘œ์ •(์˜ˆ: ๊ณตํฌ์™€ ๋†€๋žŒ)์„ ๊ตฌ๋ณ„ํ•˜์ง€ ๋ชปํ•˜๊ฑฐ๋‚˜ ํ‘œ์ •์„ ๋ฐ”๊ฟ€ ๋•Œ ์‚ฌ๋žŒ์˜ ์‹ ์›(identity)๊นŒ์ง€ ๋ณ€ํ˜•์‹œํ‚ค๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ํ‘œ์ •์„ ์—ฐ์†์ ์ธ ์ŠคํŽ™ํŠธ๋Ÿผ์œผ๋กœ ์ดํ•ดํ•˜๊ณ , ํ…์ŠคํŠธ ์ž ์žฌ ๊ณต๊ฐ„์—์„œ ์„ ํ˜•์ ์œผ๋กœ ๋ณด๊ฐ„(interpolation)ํ•˜์—ฌ ํ‘œ์ •์˜ ๊ฐ•๋„๋ฅผ ๋ฏธ์„ธํ•˜๊ฒŒ ์กฐ์ ˆํ•  ์ˆ˜ ์žˆ๋Š” โ€˜PixelSmileโ€™ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ์Šต๋‹ˆ๋‹ค.


2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ ๋กœ ์„ค๋ช…

์ด์ „์˜ AI ๋ชจ๋ธ์€ TV ๋ฆฌ๋ชจ์ปจ์˜ ์ฑ„๋„ ๋ฒ„ํŠผ์ฒ˜๋Ÿผ ์ž‘๋™ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฑ„๋„ 1๋ฒˆ์€ โ€˜์›ƒ์Œโ€™, ์ฑ„๋„ 2๋ฒˆ์€ โ€˜ํ™”๋‚จโ€™์ธ ์‹์ด์ฃ . ํ•˜์ง€๋งŒ ์šฐ๋ฆฌ๊ฐ€ ์‹ค์ƒํ™œ์—์„œ ๋А๋ผ๋Š” ๊ฐ์ •์€ ์ด๋ ‡๊ฒŒ ๋‹จ์ˆœํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. โ€˜์กฐ๊ธˆ ๋†€๋ž€ ํ‘œ์ •โ€™์ด๋‚˜ โ€˜ํ™”๊ฐ€ ๋‚˜๋ฉด์„œ๋„ ๋‹นํ™ฉํ•œ ํ‘œ์ •โ€™ ๊ฐ™์€ ๋ฏธ์„ธํ•œ ๋‰˜์•™์Šค๊ฐ€ ํ•„์š”ํ•˜์ฃ . PixelSmile์€ TV ์ฑ„๋„ ๋ฒ„ํŠผ ๋Œ€์‹  โ€˜๋ฐ๊ธฐ ์กฐ์ ˆ ์†์žก์ด(Dimmer)โ€˜๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ์šฉ์ž๋Š” โ€˜์ค‘๋ฆฝโ€™์—์„œ โ€˜์™„์ „ํ•œ ๋†€๋žŒโ€™ ์‚ฌ์ด๋ฅผ ์ž์œ ์ž์žฌ๋กœ ์˜ค๊ฐˆ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์‹ฌ์ง€์–ด ๊ทธ ์ด์ƒ์˜ ๊ฐ•๋„๋กœ ์กฐ์ ˆํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

์ด ๋ชจ๋ธ์€ ํฌ๊ฒŒ ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ๋‹จ๊ณ„๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.

์ฒซ์งธ, ํ…์ŠคํŠธ ์ž ์žฌ ๋ณด๊ฐ„(Textual Latent Interpolation) ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. AI๊ฐ€ โ€˜์ค‘๋ฆฝ์ธ ์–ผ๊ตดโ€™๊ณผ โ€˜์›ƒ๊ณ  ์žˆ๋Š” ์–ผ๊ตดโ€™์ด๋ผ๋Š” ๋ฌธ์žฅ์„ ์ดํ•ดํ•  ๋•Œ, ๊ทธ ์‚ฌ์ด์˜ ์ˆ˜ํ•™์  ๊ฑฐ๋ฆฌ์™€ ๋ฐฉํ–ฅ์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ๊ทธ ๋ฐฉํ–ฅ์„ ๋”ฐ๋ผ 10%๋งŒ ๊ฐ€์„œ๋Š” โ€˜์‚ด์ง ๋ฏธ์†Œโ€™, 50% ๊ฐ€์„œ๋Š” โ€˜ํ‰๋ฒ”ํ•œ ๋ฏธ์†Œโ€™๋ฅผ ๋งŒ๋“ค์–ด๋ƒ…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ถˆ์—ฐ์†์ ์ธ ๋‹จ๊ณ„๊ฐ€ ์•„๋‹Œ ์ž์—ฐ์Šค๋Ÿฌ์šด ์—ฐ์† ๋ณ€ํ™”๊ฐ€ ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค.

๋‘˜์งธ, **์™„์ „ ๋Œ€์นญ ๊ณต๋™ ํ•™์Šต(Fully Symmetric Joint Training)**์„ ํ†ตํ•ด ํ˜ผ๋ž€์„ ์ค„์ž…๋‹ˆ๋‹ค. ์„œ๋กœ ๋น„์Šทํ•ด์„œ ํ—ท๊ฐˆ๋ฆฌ๊ธฐ ์‰ฌ์šด ํ‘œ์ • ์Œ(์˜ˆ: ๊ณตํฌ-๋†€๋žŒ)์„ ์„œ๋กœ ๋ฐ˜๋Œ€ ๋ฐฉํ–ฅ์œผ๋กœ๋„ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. A์—์„œ B๋กœ ๊ฐ€๋Š” ๋ฒ•์„ ๋ฐฐ์šธ ๋•Œ ๋™์‹œ์— B์—์„œ A๋กœ ๊ฐ€๋Š” ๋ฒ•๋„ ํ•™์Šต์‹œ์ผœ, AI๊ฐ€ ๋‘ ๊ฐ์ •์˜ ๋ฏธ์„ธํ•œ ์ฐจ์ด๋ฅผ ์ •ํ™•ํžˆ ๊ตฌ๋ถ„ํ•˜๋„๋ก ๋งŒ๋“œ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์ˆ˜์‹๊ณผ ์•Œ๊ณ ๋ฆฌ์ฆ˜

์ด ๋…ผ๋ฌธ์˜ ์ˆ˜ํ•™์  ํ•ต์‹ฌ์€ ์กฐ๊ฑด ์ž„๋ฒ ๋”ฉ(embedding)์„ ์„ ํ˜•์ ์œผ๋กœ ์ œ์–ดํ•˜๋Š” ๋ฐ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ๋ณธ ์ค‘๋ฆฝ ํ”„๋กฌํ”„ํŠธ์˜ ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋ฅผ $e_{neu}$, ๋ชฉํ‘œ ํ‘œ์ • ํ”„๋กฌํ”„ํŠธ์˜ ์ž„๋ฒ ๋”ฉ์„ $e_{tgt}$๋ผ๊ณ  ํ•  ๋•Œ, ๊ทธ ์ฐจ์ด์ธ $\Delta e = e_{tgt} - e_{neu}$๋ฅผ โ€˜๊ฐ์ •์˜ ๋ฐฉํ–ฅ ๋ฒกํ„ฐโ€™๋กœ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค.

์ตœ์ข… ์กฐ๊ฑด ์ž„๋ฒ ๋”ฉ $e_{cond}(\alpha)$์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค. $$e_{cond}(\alpha) = e_{neu} + \alpha \cdot \Delta e, \quad \alpha \in [0,1]$$

์—ฌ๊ธฐ์„œ $\alpha$๋Š” ์šฐ๋ฆฌ๊ฐ€ ์กฐ์ ˆํ•˜๋Š” ์†์žก์ด์ž…๋‹ˆ๋‹ค. $\alpha=0$์ด๋ฉด ๋ณ€ํ™”๊ฐ€ ์—†๊ณ , $\alpha=1$์ด๋ฉด ๋ชฉํ‘œ ํ‘œ์ •์ด ๋˜๋ฉฐ, ๊ทธ ์‚ฌ์ด ๊ฐ’์€ ๋ฏธ์„ธํ•œ ์ค‘๊ฐ„ ๋‹จ๊ณ„๊ฐ€ ๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์€ ๋ถˆ์—ฐ์†์ ์ธ ๋ผ๋ฒจ ๋Œ€์‹  ์—ฐ์†์ ์ธ ํ๋ฆ„ ์†์—์„œ ํ‘œ์ •์„ ์ƒ์„ฑํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.


3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

ํ…Œ์ŠคํŠธ ๋ฒค์น˜๋งˆํฌ (FFE-Bench)

์ €์ž๋“ค์€ ๊ธฐ์กด ๋ฐ์ดํ„ฐ์…‹์˜ ๋ถ€์กฑํ•จ์„ ์ฑ„์šฐ๊ธฐ ์œ„ํ•ด ์ง์ ‘ FFE ๋ฐ์ดํ„ฐ์…‹๊ณผ FFE-Bench๋ผ๋Š” ํ‰๊ฐ€ ๊ธฐ์ค€์„ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” ๋„ค ๊ฐ€์ง€ ์ฃผ์š” ์ง€ํ‘œ๋กœ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค.

  1. ๊ตฌ์กฐ์  ํ˜ผ๋ž€(Structural Confusion): ๋น„์Šทํ•œ ํ‘œ์ •๋ผ๋ฆฌ ์–ผ๋งˆ๋‚˜ ํ—ท๊ฐˆ๋ฆฌ๋Š”๊ฐ€?
  2. ํŽธ์ง‘ ์ •ํ™•๋„(Editing Accuracy): ํ‘œ์ •์ด ์–ผ๋งˆ๋‚˜ ์˜๋„ํ•œ ๋Œ€๋กœ ๋ณ€ํ–ˆ๋Š”๊ฐ€?
  3. ์„ ํ˜• ์ œ์–ด ๊ฐ€๋Šฅ์„ฑ(Linear Controllability): ๊ฐ•๋„ ์กฐ์ ˆ์ด ์–ผ๋งˆ๋‚˜ ๋ถ€๋“œ๋Ÿฌ์šด ์ง์„ ์„ฑ์„ ๋ ๋Š”๊ฐ€?
  4. ์‹ ์› ๋ณด์กด(Identity Preservation): ํ‘œ์ •์„ ๋ฐ”๊ฟ”๋„ ์›๋ž˜ ์‚ฌ๋žŒ์ด ์œ ์ง€๋˜๋Š”๊ฐ€?

๊ธฐ์กด SOTA(State-of-the-art) ๋Œ€๋น„ ์„ฑ๋Šฅ

PixelSmile์€ ๊ธฐ์กด ์ตœ๊ณ  ์ˆ˜์ค€์˜ ๋ชจ๋ธ๋“ค์ธ IP-Adapter, ControlNet ๋“ฑ๊ณผ ๋น„๊ตํ•˜์—ฌ ์••๋„์ ์ธ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ โ€˜๊ตฌ์กฐ์  ํ˜ผ๋ž€โ€™ ์ง€ํ‘œ์—์„œ, ๊ธฐ์กด ๋ชจ๋ธ๋“ค์ด โ€˜๊ณตํฌโ€™๋ฅผ ์ƒ์„ฑํ•˜๋ ค ํ•  ๋•Œ ์ž๊พธ โ€˜๋†€๋žŒโ€™์˜ ํŠน์ง•์„ ์„ž์–ด ๋ฒ„๋ฆฌ๋Š” ์˜ค๋ฅ˜๋ฅผ ๋ฒ”ํ–ˆ๋˜ ๋ฐ˜๋ฉด, PixelSmile์€ ์ด๋Ÿฌํ•œ ์˜๋ฏธ์  ํ˜ผ์„ (Semantic Entanglement)์„ ํš๊ธฐ์ ์œผ๋กœ ์ค„์˜€์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ‘œ์ •์„ ๋ฐ”๊พธ๋Š” ๊ณผ์ •์—์„œ ์‚ฌ๋žŒ์˜ ์–ผ๊ตด ํŠน์ง•(identity)์ด ๋ณ€ํ•˜๋Š” ํ˜„์ƒ๋„ ๊ฐ€์žฅ ์ ๊ฒŒ ๋ฐœ์ƒํ•˜์—ฌ ๋†’์€ ์‹ ์› ๋ณด์กด ์ ์ˆ˜๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

๋‹จ์ˆœํžˆ ํ‘œ์ •์„ ๋ฐ”๊พธ๋Š” ๊ฒƒ์„ ๋„˜์–ด, ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋งŒ์œผ๋กœ ํ‘œ์ •์˜ ๊ฐ•๋„๋ฅผ 0%์—์„œ 100%๊นŒ์ง€, ์‹ฌ์ง€์–ด 120%๊นŒ์ง€(๊ณผ์žฅ๋œ ํ‘œ์ •) ์„ ํ˜•์ ์œผ๋กœ ์กฐ์ ˆํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ด ๊ฐ€์žฅ ์ธ์ƒ์ ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์˜ํ™”๋‚˜ ๊ฒŒ์ž„ ์บ๋ฆญํ„ฐ ์ œ์ž‘์—์„œ ์—ฐ๊ธฐ์˜ ๋””ํ…Œ์ผ์„ ์กฐ์ ˆํ•˜๋Š” ๋ฐ ๋งค์šฐ ์œ ์šฉํ•œ ํŠน์„ฑ์ž…๋‹ˆ๋‹ค.


4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„

ํ˜„์žฌ ๋ชจ๋ธ์€ ์ฃผ๋กœ ์ •๋ฉด ์–ผ๊ตด์ด๋‚˜ ๋ช…ํ™•ํ•˜๊ฒŒ ๋“œ๋Ÿฌ๋‚œ ์–ผ๊ตด์— ์ตœ์ ํ™”๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทน๋‹จ์ ์ธ ๊ฐ๋„์—์„œ ์ฐํžŒ ์–ผ๊ตด์ด๋‚˜ ์–ผ๊ตด์˜ ๋Œ€๋ถ€๋ถ„์ด ๊ฐ€๋ ค์ง„ ๊ฒฝ์šฐ์—๋Š” ๋ฏธ์„ธํ•œ ํ‘œ์ • ํŽธ์ง‘ ์„ฑ๋Šฅ์ด ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์—ฐ์†์ ์ธ ๊ฐ์ • ์ฃผ์„์„ ์‚ฌ๋žŒ์ด ์ง์ ‘ ๋‹ค๋Š” ๊ณผ์ •์—์„œ ์ฃผ๊ด€์ ์ธ ํŽธ์ฐจ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ๋„ ๋ฐ์ดํ„ฐ์…‹์˜ ํ•œ๊ณ„๋กœ ์–ธ๊ธ‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅํ•œ ์ 

ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด ์ •์ ์ธ ์ด๋ฏธ์ง€ ํŽธ์ง‘ ๊ธฐ์ˆ ์„ ์˜์ƒ(Video)์œผ๋กœ ํ™•์žฅํ•˜์—ฌ, ์‹œ๊ฐ„์˜ ํ๋ฆ„์— ๋”ฐ๋ผ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ํ‘œ์ •์ด ๋ณ€ํ•˜๋Š” ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋ชฉ์†Œ๋ฆฌ๋‚˜ ์Œ์„ฑ ์‹ ํ˜ธ์™€ ์—ฐ๋™ํ•˜์—ฌ ํ…์ŠคํŠธ ์ž…๋ ฅ ์—†์ด๋„ ํ‘œ์ •์„ ์ œ์–ดํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ(Multi-modal) ๋ฐฉ์‹์œผ๋กœ ๋ฐœ์ „ ๊ฐ€๋Šฅ์„ฑ์ด ํฝ๋‹ˆ๋‹ค.


5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์–ด๋””์— ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅ?

์ด ๊ธฐ์ˆ ์€ ํฌํ† ์ƒต์ด๋‚˜ ์Šค๋งˆํŠธํฐ ์‚ฌ์ง„ ํŽธ์ง‘ ์•ฑ ๊ฐ™์€ ์†Œ๋น„์ž์šฉ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ์ฆ‰์‹œ ์ ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ์šฉ์ž๊ฐ€ โ€œ์กฐ๊ธˆ ๋” ํ™”๋‚˜๊ฒŒโ€, โ€œ์•ฝ๊ฐ„ ์Šฌํ”„๊ฒŒโ€ ๊ฐ™์€ ๋ช…๋ น์„ ์Šฌ๋ผ์ด๋”๋กœ ์กฐ์ ˆํ•˜์—ฌ ์ž์—ฐ์Šค๋Ÿฌ์šด ์‚ฌ์ง„์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋ฉ”ํƒ€๋ฒ„์Šค ์•„๋ฐ”ํƒ€๋‚˜ ๊ฒŒ์ž„ NPC(Non-Player Character)์˜ ํ‘œ์ •์„ ์ œ์ž‘ํ•˜๋Š” ์‹œ๊ฐ„์„ ํš๊ธฐ์ ์œผ๋กœ ๋‹จ์ถ•์‹œ์ผœ, ๋” ํ’๋ถ€ํ•œ ๊ฐ์ • ์—ฐ์ถœ์ด ๊ฐ€๋Šฅํ•ด์งˆ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

PixelSmile์€ Flux์™€ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ํ™•์‚ฐ ๋ชจ๋ธ(MMDiT)์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฏ€๋กœ, ์ถ”๋ก ์— ์ƒ๋‹นํ•œ ๊ทธ๋ž˜ํ”ฝ ๋ฉ”๋ชจ๋ฆฌ(GPU VRAM)๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์ธ ์†Œ๋น„์ž์šฉ GPU๋ณด๋‹ค๋Š” ๊ณ ์‚ฌ์–‘ ์„œ๋ฒ„๊ธ‰ ํ™˜๊ฒฝ์—์„œ ์›ํ™œํ•˜๊ฒŒ ์ž‘๋™ํ•  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์œผ๋ฉฐ, ์‹ค์‹œ๊ฐ„ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ์ ์šฉํ•˜๋ ค๋ฉด ๋ชจ๋ธ์˜ ๊ฒฝ๋Ÿ‰ํ™”(Quantization) ๊ณผ์ •์ด ์ถ”๊ฐ€๋กœ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. ํ™•์‚ฐ ๋ชจ๋ธ(Diffusion Model): ๋…ธ์ด์ฆˆ๋ฅผ ์ ์ฐจ ์ œ๊ฑฐํ•˜์—ฌ ๊นจ๋—ํ•œ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ƒ์„ฑํ˜• AI์˜ ํ•ต์‹ฌ ์•„ํ‚คํ…์ฒ˜์ž…๋‹ˆ๋‹ค.
  2. ์ž ์žฌ ๊ณต๊ฐ„(Latent Space): ์ด๋ฏธ์ง€๋‚˜ ํ…์ŠคํŠธ๋ฅผ ์ปดํ“จํ„ฐ๊ฐ€ ์ดํ•ดํ•˜๊ธฐ ์‰ฌ์šด ์ˆซ์ž์˜ ์ง‘ํ•ฉ(๋ฒกํ„ฐ)์œผ๋กœ ์••์ถ•ํ•ด ๋†“์€ ์ถ”์ƒ์ ์ธ ๊ณต๊ฐ„์ž…๋‹ˆ๋‹ค.
  3. ์‹œ๋งจํ‹ฑ ์–ฝํž˜(Semantic Entanglement): ์„œ๋กœ ๋‹ค๋ฅธ ๊ฐœ๋…(์˜ˆ: ๊ณตํฌ์™€ ๋†€๋žŒ)์ด AI ๋‚ด๋ถ€์—์„œ ์ œ๋Œ€๋กœ ๋ถ„๋ฆฌ๋˜์ง€ ์•Š๊ณ  ์—‰์ผœ ์žˆ๋Š” ํ˜„์ƒ์„ ๋งํ•ฉ๋‹ˆ๋‹ค.
  4. LoRA(Low-Rank Adaptation): ๊ฑฐ๋Œ€ํ•œ AI ๋ชจ๋ธ ์ „์ฒด๋ฅผ ์žฌํ•™์Šต์‹œํ‚ค์ง€ ์•Š๊ณ , ์ ์€ ์–‘์˜ ๋ฐ์ดํ„ฐ๋กœ ํšจ์œจ์ ์œผ๋กœ ํŠน์ • ๊ธฐ๋Šฅ๋งŒ ํŠœ๋‹ํ•˜๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.
  5. ํ”Œ๋กœ์šฐ ๋งค์นญ(Flow Matching): ๋‘ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ ์‚ฌ์ด์˜ ํ™•๋ฅ  ๊ฒฝ๋กœ๋ฅผ ํ•™์Šตํ•˜์—ฌ ์ƒ˜ํ”Œ๋ง ์†๋„๋ฅผ ๋†’์ด๋Š” ์ƒ์„ฑ ๋ชจ๋ธ ํ•™์Šต ๋ฐฉ๋ฒ•์˜ ์ผ์ข…์ž…๋‹ˆ๋‹ค.
  6. MMDiT(Multi-Modal Diffusion Transformer): ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€๋ฅผ ํŠธ๋žœ์Šคํฌ๋จธ ๊ตฌ์กฐ ๋‚ด์—์„œ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ๋ถ„๋ฆฌํ•˜์—ฌ ๋‹ค๋ฃจ๋Š” ์ตœ์‹  ํ™•์‚ฐ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์ž…๋‹ˆ๋‹ค(์ฃผ๋กœ Flux ๋ชจ๋ธ์—์„œ ์‚ฌ์šฉ๋จ).
  7. ๋Œ€์กฐ ํ•™์Šต(Contrastive Learning): ์„œ๋กœ ๋น„์Šทํ•œ ๊ฒƒ์€ ๊ฐ€๊น๊ฒŒ, ๋‹ค๋ฅธ ๊ฒƒ์€ ๋ฉ€๊ฒŒ ๋ฐฐ์น˜ํ•˜์—ฌ ํ‘œํ˜„๋ ฅ์„ ๋†’์ด๋Š” ์ž๊ธฐ ์ง€๋„ ํ•™์Šต ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡MinerU-Diffusion: Rethinking Documeโ€ฆDD-051
๐ŸฅˆOmni-WorldBench: Towards a Compreheโ€ฆDD-052
๐Ÿฅ‰Speed by Simplicity: A Single-Streaโ€ฆDD-053
4.PixelSmile: Toward Fine-Grained Facโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
5.Astrolabe: Steering Forward-Processโ€ฆDD-055

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-03-29 | ๐Ÿค– GLM-4.7 Deep Dive