โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-084 Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation

arXiv: 2605.03849 ๊ธฐ๊ด€: FrameX-AI Upvotes: 117 | Comments: 2 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 3


Stream-R1 ๋…ผ๋ฌธ ์‹ฌ์ธต ๋ถ„์„


1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ์ฆ๋ฅ˜(Distillation) ๊ธฐ๋ฐ˜ ๋น„๋””์˜ค ์ƒ์„ฑ ๋ฐฉ์‹์€ ํ•™์ƒ ๋ชจ๋ธ์ด ๊ต์‚ฌ ๋ชจ๋ธ์˜ ๊ฒฐ๊ณผ๋ฅผ ๋ฌด์ฐจ๋ณ„์ ์œผ๋กœ ๋ชจ๋ฐฉํ•˜๊ฒŒ ํ•˜์—ฌ, ํ’ˆ์งˆ ํ–ฅ์ƒ์˜ ์ƒํ•œ์„ ์„ ์ œํ•œํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋ณด์ƒ ๋ชจ๋ธ(Reward Model)์„ ํ™œ์šฉํ•ด ๊ต์‚ฌ์˜ ๊ฒฐ๊ณผ ์ค‘ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ์ƒ˜ํ”Œ์€ ๋” ๋ฏฟ๊ณ , ๊ฐ ์ƒ˜ํ”Œ ๋‚ด์—์„œ ํ’ˆ์งˆ ๊ฐœ์„ ์ด ์‹œ๊ธ‰ํ•œ ์˜์—ญ์—๋งŒ ํ•™์Šต์„ ์ง‘์ค‘์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ŠคํŠธ๋ฆฌ๋ฐ ๋น„๋””์˜ค ์ƒ์„ฑ์˜ ํšจ์œจ์„ฑ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๊ธฐ์กด ์ตœ์ฒจ๋‹จ(SOTA) ๋ฐฉ๋ฒ•๋ก ๋ณด๋‹ค ์›”๋“ฑํžˆ ๋†’์€ ํ™”์งˆ๊ณผ ์•ˆ์ •์„ฑ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.


2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์€ โ€œ๊ณจ๊ณ ๋ฃจ ๋ฐฐ์šฐ์ง€ ๋ง๊ณ , ์ค‘์š”ํ•œ ๊ณณ์„ ์ง‘์ค‘์ ์œผ๋กœ ๋ฐฐ์›Œ๋ผโ€์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹์ด ์ตœ๊ณ ์˜ ๊ทธ๋ฆผ์„ ๊ทธ๋ฆฌ๋Š” ํ™”๊ฐ€(๊ต์‚ฌ ๋ชจ๋ธ)์˜ ๋ชจ๋“  ๋ถ“์ง“์„ ๋˜‘๊ฐ™์ด ์ค‘์š”ํ•˜๊ฒŒ ์—ฌ๊ธฐ๋ฉฐ ๋”ฐ๋ผ ํ•˜๊ฒŒ ํ–ˆ๋‹ค๋ฉด, Stream-R1์€ ํ™”๊ฐ€๊ฐ€ โ€œ์ด ๋ถ€๋ถ„์€ ์‹ค์ˆ˜ํ–ˆ์œผ๋‹ˆ ๋ฌด์‹œํ•˜๊ณ , ์ € ๋ถ€๋ถ„์€ ๋” ๋ฉ‹์ง€๊ฒŒ ๊ทธ๋ ธ์œผ๋‹ˆ ์ž˜ ๋ด๋‘ฌโ€๋ผ๊ณ  ํ”ผ๋“œ๋ฐฑ์„ ์ฃผ๋Š” ์ƒํ™ฉ๊ณผ ๋น„์Šทํ•ฉ๋‹ˆ๋‹ค.

์ผ์ƒ์ƒํ™œ ๋น„์œ : ์š”๋ฆฌ์‚ฌ ์ˆ˜์—…์œผ๋กœ ์ดํ•ดํ•˜๊ธฐ

์ˆ˜์Šต ์š”๋ฆฌ์‚ฌ(ํ•™์ƒ ๋ชจ๋ธ)๊ฐ€ ์Šคํƒ€ ์…ฐํ”„(๊ต์‚ฌ ๋ชจ๋ธ)์—๊ฒŒ ์š”๋ฆฌ๋ฅผ ๋ฐฐ์šฐ๋Š” ์ƒํ™ฉ์„ ์ƒ์ƒํ•ด ๋ณด์„ธ์š”. ๊ธฐ์กด ๋ฐฉ์‹์€ ์…ฐํ”„๊ฐ€ ๋งŒ๋“  ๋ชจ๋“  ์š”๋ฆฌ ์‹œ๋„๋ฅผ ๋™์ผํ•˜๊ฒŒ ์ค‘์š”ํ•˜๊ฒŒ ์—ฌ๊น๋‹ˆ๋‹ค. ์…ฐํ”„๊ฐ€ ์‹ค์ˆ˜๋กœ ์š”๋ฆฌ๋ฅผ ํƒœ์› ๊ฑฐ๋‚˜ ๋ง›์ด ์—†๋Š” ์š”๋ฆฌ๋ฅผ ๋งŒ๋“ค์—ˆ์–ด๋„ ์ˆ˜์Šต์ƒ์€ ๊ทธ๊ฑธ ๊ทธ๋Œ€๋กœ ๋ฐฐ์šฐ๋ ค๊ณ  ๋…ธ๋ ฅํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์™„์„ฑ๋œ ์š”๋ฆฌ์—์„œ ๋ง›์ด ์žˆ๋Š” ๋ถ€๋ถ„๊ณผ ๋ง›์ด ์—†๋Š” ๋ถ€๋ถ„์„ ๊ตฌ๋ถ„ํ•˜์ง€ ์•Š๊ณ  ์ „์ฒด๋ฅผ ๋˜‘๊ฐ™์ด ์—ฐ์Šตํ•ฉ๋‹ˆ๋‹ค.

Stream-R1 ๋ฐฉ์‹์€ ๋ฏธ์‹๊ฐ€ ํ‰๋ก ๊ฐ€(๋ณด์ƒ ๋ชจ๋ธ)๊ฐ€ ์˜†์—์„œ ์ง€์ผœ๋ณด๋ฉฐ ๋„์™€์ค๋‹ˆ๋‹ค. ์ฒซ์งธ, ํ‰๋ก ๊ฐ€๋Š” โ€œ์ด ์š”๋ฆฌ๋Š” ์…ฐํ”„์˜ ์‹ค๋ ฅ์ด ์ž˜ ๋ฐœํœ˜๋œ ๊ฒƒ์ด๋‹ˆ ์ •๋ง ์—ด์‹ฌํžˆ ๋”ฐ๋ผ ํ•˜์„ธ์š”(Inter-Reliability)โ€œ๋ผ๊ณ  ๋งํ•ฉ๋‹ˆ๋‹ค. ๋‘˜์งธ, ์š”๋ฆฌ ๋‚ด์—์„œ โ€œ์ด ์Šคํ…Œ์ดํฌ์˜ ์†Œ์Šค ๋ถ€๋ถ„์€ ์™„๋ฒฝํ•œ๋ฐ, ๊ณ ๊ธฐ ์œก๋ถ€๋ถ„์€ ๋œ ์ต์—ˆ์œผ๋‹ˆ ์—ฌ๊ธฐ์—๋งŒ ์ง‘์ค‘ํ•ด์„œ ์ˆ˜์ •ํ•˜์„ธ์š”(Intra-Perplexity)โ€œ๋ผ๊ณ  ๊ตฌ์ฒด์ ์ธ ๊ฐ€์ด๋“œ๋ฅผ ์ค๋‹ˆ๋‹ค. ์ˆ˜์Šต์ƒ์€ ์ด ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•ด ํ›จ์”ฌ ๋” ๋น ๋ฅด๊ณ  ๋ง›์žˆ๋Š” ์š”๋ฆฌ๋ฅผ ๋ฐฐ์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

์ด ๊ณผ์ •์€ ํฌ๊ฒŒ ๋‘ ๊ฐ€์ง€ ์ถ•์œผ๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ๋Š” โ€˜์ƒ˜ํ”Œ ๊ฐ„ ์‹ ๋ขฐ๋„(Inter-Reliability)โ€˜์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ์—ฌ๋Ÿฌ ๋น„๋””์˜ค ์ƒ˜ํ”Œ ์ค‘์—์„œ ๋ณด์ƒ ๋ชจ๋ธ์ด ์ ์ˆ˜๋ฅผ ๋†’๊ฒŒ ๋งค๊ธด, ์ฆ‰ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒฐ๊ณผ๋ฌผ์—๋Š” ํ•™์Šต ๊ฐ€์ค‘์น˜๋ฅผ ๋†’์—ฌ์„œ ๋”์šฑ ํ™•์‹คํ•˜๊ฒŒ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ๋‘ ๋ฒˆ์งธ๋Š” โ€˜์ƒ˜ํ”Œ ๋‚ด ๋‚œ์ด๋„(Intra-Perplexity)โ€˜์ž…๋‹ˆ๋‹ค. ํ•˜๋‚˜์˜ ๋น„๋””์˜ค ํ”„๋ ˆ์ž„ ์•ˆ์—์„œ๋„ ๋ชจ๋“  ํ”ฝ์…€์ด ๋˜‘๊ฐ™์ด ์ค‘์š”ํ•œ ๊ฒƒ์€ ์•„๋‹™๋‹ˆ๋‹ค. ๋ณด์ƒ ๋ชจ๋ธ์˜ ๊ธฐ์šธ๊ธฐ(Gradient)๋ฅผ ์—ญ์ „ํŒŒ์‹œ์ผœ, ์ ์ˆ˜๋ฅผ ๋†’์ด๋Š” ๋ฐ ๊ฐ€์žฅ ํฌ๊ฒŒ ๊ธฐ์—ฌํ•˜๋Š” ๋ถ€๋ถ„(์ฆ‰, ํ˜„์žฌ ํ’ˆ์งˆ์ด ๋‚ฎ์•„ ๊ฐœ์„ ์ด ํ•„์š”ํ•œ ๋ถ€๋ถ„)์„ ์ฐพ์•„๋ƒ…๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์†์‹ค ํ•จ์ˆ˜(Loss Function)๋ฅผ ํ†ตํ•ด ๊ทธ ๋ถ€๋ถ„์˜ ์ˆ˜์ • ๊ฐ•๋„๋ฅผ ๋†’์ž…๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜

๊ธฐ์กด์˜ ๋ถ„ํฌ ๋งค์นญ ์ฆ๋ฅ˜(DMD) ์†์‹ค ํ•จ์ˆ˜ $\mathcal{L}{DMD}$์— ๋‘ ๊ฐ€์ง€ ๊ฐ€์ค‘์น˜๋ฅผ ๊ณฑํ•˜๋Š” ํ˜•ํƒœ๋กœ ์ˆ˜์ •๋ฉ๋‹ˆ๋‹ค. $\mathcal{L}{\text{Stream-R1}} = \mathbf{W}{\text{inter}} \cdot (W{\text{intra}} \odot \mathcal{L}{DMD})$ ์—ฌ๊ธฐ์„œ $W{\text{inter}}$๋Š” ์Šค์นผ๋ผ ๊ฐ’์œผ๋กœ, ์ด ๋กค์•„์›ƒ(์ƒ˜ํ”Œ) ์ „์ฒด๊ฐ€ ์–ผ๋งˆ๋‚˜ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. $W_{\text{intra}}$๋Š” ๊ณต๊ฐ„(Spatial)๊ณผ ์‹œ๊ฐ„(Temporal) ์˜์—ญ์— ๋งต ํ˜•ํƒœ๋กœ ์ ์šฉ๋˜๋Š” ๊ฐ€์ค‘์น˜๋กœ, ์–ด๋А ํ”ฝ์…€์ด๋‚˜ ํ”„๋ ˆ์ž„์„ ์ง‘์ค‘์ ์œผ๋กœ ์ˆ˜์ •ํ•ด์•ผ ํ• ์ง€๋ฅผ ์ง€์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋“  ๊ณผ์ •์€ ๋‹จ์ผ ๋ณด์ƒ ๋ชจ๋ธ(Reward Model)์— ์˜ํ•ด ๊ตฌ๋™๋ฉ๋‹ˆ๋‹ค.


3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์–ด๋–ค ๋ฒค์น˜๋งˆํฌ์—์„œ ํ…Œ์ŠคํŠธํ–ˆ๋‚˜?

์—ฐ๊ตฌ์ง„์€ ๋น„๋””์˜ค ์ƒ์„ฑ ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•˜๋Š” ํ‘œ์ค€ ๋ฒค์น˜๋งˆํฌ์ธ VBench๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ 5์ดˆ ๊ธธ์ด์˜ ์งง์€ ๋น„๋””์˜ค์™€ ๋” ๊ธด ๋กฑ ๋น„๋””์˜ค ์ƒ์„ฑ์—์„œ์˜ ์„ฑ๋Šฅ์„ ๋ชจ๋‘ ์ธก์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ VLM(๋น„์ „-์–ธ์–ด ๋ชจ๋ธ) ๊ธฐ๋ฐ˜์˜ ํ‰๊ฐ€์™€ ์‹ค์ œ ์‚ฌ๋žŒ์˜ ์„ ํ˜ธ๋„ ์กฐ์‚ฌ๋ฅผ ๋ณ‘ํ–‰ํ•˜์—ฌ ๊ฐ๊ด€์„ฑ๊ณผ ์ฃผ๊ด€์  ๋งŒ์กฑ๋„๋ฅผ ๋ชจ๋‘ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด SOTA ๋Œ€๋น„ ์–ผ๋งˆ๋‚˜ ์ข‹์•„์กŒ๋‚˜?

Stream-R1์€ ๋น„๊ต๋œ ๋ชจ๋“  ๋ฐฉ๋ฒ•๋ก  ์ค‘ ๊ฐ€์žฅ ๋†’์€ VBench ์ ์ˆ˜๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ํฅ๋ฏธ๋กœ์šด ์ ์€, 14์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ๊ฑฐ๋Œ€ํ•œ ๊ต์‚ฌ ๋ชจ๋ธ(Wan2.1-T2V-14B)์กฐ์ฐจ ๋„˜์–ด์„œ๋Š” ์„ฑ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์งง์€ ๋น„๋””์˜ค ์ƒ์„ฑ์—์„œ๋Š” ๊ธฐ์กด ๊ฐ•์ž์ธ Reward Forcing๋ณด๋‹ค ์ „๋ฐ˜์ ์ธ ํ’ˆ์งˆ ์ ์ˆ˜๊ฐ€ ๋†’์•˜์œผ๋ฉฐ, ๊ธด ๋น„๋””์˜ค ์ƒ์„ฑ์—์„œ๋Š” ํ™”์งˆ ์ €ํ•˜(Drift)๊ฐ€ ๊ฐ€์žฅ ์ ๊ณ  ์‹œ๊ฐ„์  ์•ˆ์ •์„ฑ์ด ๋›ฐ์–ด๋‚œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

์‚ฌ๋žŒ ํ‰๊ฐ€์ž(Human Evaluation) ๋Œ€์ƒ ์กฐ์‚ฌ์—์„œ ์‹œ๊ฐ์  ํ’ˆ์งˆ(Visual Quality), ํ…์ŠคํŠธ ์ •๋ ฌ(Text Alignment), ๋™์  ํ•ฉ๋ฆฌ์„ฑ(Dynamic Reasonableness) ๋“ฑ 5๊ฐ€์ง€ ์ฐจ์› ๋ชจ๋‘์—์„œ ์••๋„์ ์ธ ์„ ํ˜ธ๋„๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋‹จ์ˆœํžˆ ์ˆ˜์น˜์ ์ธ ์ ์ˆ˜๋ฅผ ๋†’์ด๋Š” ๊ฒƒ์„ ๋„˜์–ด, ์‹ค์ œ ์‚ฌ๋žŒ์ด ๋ณด๊ธฐ์— ํ›จ์”ฌ ์ž์—ฐ์Šค๋Ÿฝ๊ณ  ๊ณ ํ’ˆ์งˆ์˜ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.


4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„

์ด ๋…ผ๋ฌธ์€ Stream-R1 ํ”„๋ ˆ์ž„์›Œํฌ ์ž์ฒด์˜ ๊ตฌ์กฐ์  ํ•œ๊ณ„๋ณด๋‹ค๋Š” ์˜์กดํ•˜๊ณ  ์žˆ๋Š” ์™ธ๋ถ€ ์š”์ธ์— ๋Œ€ํ•œ ํ•œ๊ณ„๋ฅผ ๋‚ดํฌํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ”๋กœ โ€˜๋ณด์ƒ ๋ชจ๋ธ(Reward Model)โ€˜์˜ ํ’ˆ์งˆ์— ์ „์ ์œผ๋กœ ์˜์กดํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๋ณด์ƒ ๋ชจ๋ธ์ด ํŠน์ • ์Šคํƒ€์ผ์ด๋‚˜ ํŽธํ–ฅ๋œ ๋‚ด์šฉ์„ ๋†’๊ฒŒ ํ‰๊ฐ€ํ•œ๋‹ค๋ฉด, Stream-R1์„ ํ†ตํ•ด ํ•™์Šต๋œ ์ƒ์„ฑ ๋ชจ๋ธ ์—ญ์‹œ ๊ทธ ํŽธํ–ฅ์„ ๊ทธ๋Œ€๋กœ ๋ฌผ๋ ค๋ฐ›๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅํ•œ ์ 

ํ˜„์žฌ๋Š” ์ฃผ์–ด์ง„ ๋ณด์ƒ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์ง€๋งŒ, ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด ๋ณด์ƒ ๋ชจ๋ธ ์ž์ฒด๋ฅผ ํ•™์Šต ๊ณผ์ • ์ค‘์— ๋™์ ์œผ๋กœ ๊ฐœ์„ ํ•˜๊ฑฐ๋‚˜, ์—ฌ๋Ÿฌ ๋ณด์ƒ ๋ชจ๋ธ์˜ ์‹ ํ˜ธ๋ฅผ ๋” ์ •๊ตํ•˜๊ฒŒ ๊ฒฐํ•ฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ํƒ์ƒ‰๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ˜„์žฌ๋Š” ์ฃผ๋กœ ์‹œ๊ฐ ํ’ˆ์งˆ๊ณผ ํ…์ŠคํŠธ ์ผ์น˜์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์œผ๋ฏ€๋กœ, ์˜ค๋””์˜ค ๋™๊ธฐํ™”๋‚˜ ๋ฌผ๋ฆฌ ๋ฒ•์น™ ์ค€์ˆ˜์™€ ๊ฐ™์€ ๋” ๋ณต์žกํ•œ ์ฐจ์›์œผ๋กœ ํ‰๊ฐ€ ๊ธฐ์ค€์„ ํ™•์žฅํ•˜๋Š” ๊ฒƒ๋„ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.


5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์–ด๋””์— ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅ?

์ด ๊ธฐ์ˆ ์€ ์‹ค์‹œ๊ฐ„ ์ŠคํŠธ๋ฆฌ๋ฐ ๋น„๋””์˜ค ์ƒ์„ฑ ์„œ๋น„์Šค์— ์ฆ‰์‹œ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‚ฌ์šฉ์ž๊ฐ€ ํ…์ŠคํŠธ๋ฅผ ์ž…๋ ฅํ•˜๋ฉด ์‹ค์‹œ๊ฐ„์œผ๋กœ ์˜์ƒ์„ ๋งŒ๋“ค์–ด์ฃผ๋Š” AI ์˜์ƒ ์ œ์ž‘ ๋„๊ตฌ๋‚˜, ๊ฐ€์ƒ ์œ ํŠœ๋ฒ„(AI ์•„๋ฐ”ํƒ€)๊ฐ€ ์ฆ‰์„์—์„œ ์˜์ƒ์„ ์ƒ์„ฑํ•˜๋Š” ์ƒํ™ฉ์— ๋งค์šฐ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ์˜ ์ถ”๊ฐ€ ๋น„์šฉ์ด ๋“ค์ง€ ์•Š์œผ๋ฏ€๋กœ ์„œ๋น„์Šค ์ œ๊ณต ์—…์ฒด์˜ ๋น„์šฉ ๋ถ€๋‹ด์„ ์ค„์ด๋ฉด์„œ๋„ ๊ณ ํ’ˆ์งˆ ์˜์ƒ์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค (GPU, ๋ฐ์ดํ„ฐ ๋“ฑ)

ํ•™์Šต ๊ณผ์ •์—์„œ๋Š” ์ƒ๋‹นํ•œ ์ปดํ“จํŒ… ํŒŒ์›Œ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์˜ ์‹คํ—˜ ์„ค์ •์„ ๋ณด๋ฉด A100 GPU 8๋Œ€๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์•ฝ 56์‹œ๊ฐ„ ๋™์•ˆ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ดˆ๊ธฐ ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•˜๊ฑฐ๋‚˜ ์ปค์Šคํ„ฐ๋งˆ์ด์ง•ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ƒ๋‹นํ•œ ๊ทœ๋ชจ์˜ GPU ํด๋Ÿฌ์Šคํ„ฐ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ํ•œ ๋ฒˆ ํ•™์Šต๋œ ๋ชจ๋ธ์€ ์ถ”๋ก  ์‹œ ๊ธฐ์กด ๋ชจ๋ธ๊ณผ ์œ ์‚ฌํ•œ ์ˆ˜์ค€์˜ ๋ฆฌ์†Œ์Šค๋งŒ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ, ์„œ๋น™ ํ™˜๊ฒฝ์—์„œ๋Š” ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.


6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. Diffusion Models (ํ™•์‚ฐ ๋ชจ๋ธ): ๋…ธ์ด์ฆˆ๊ฐ€ ์„ž์ธ ๋ฐ์ดํ„ฐ์—์„œ ์ ์ฐจ ์›๋ณธ ์ด๋ฏธ์ง€๋‚˜ ๋น„๋””์˜ค๋ฅผ ๋ณต์›ํ•ด ๋‚˜๊ฐ€๋Š” ์ƒ์„ฑ ๋ชจ๋ธ์˜ ์ผ์ข…์œผ๋กœ, ํ˜„์žฌ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์˜ ์ฃผ๋ฅ˜ ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.
  2. Knowledge Distillation (์ง€์‹ ์ฆ๋ฅ˜): ํฌ๊ณ  ๋ณต์žกํ•œ ๊ต์‚ฌ ๋ชจ๋ธ์˜ ์ง€์‹์„ ์ž‘๊ณ  ํšจ์œจ์ ์ธ ํ•™์ƒ ๋ชจ๋ธ๋กœ ์˜ฎ๊ฒจ, ํ•™์ƒ ๋ชจ๋ธ์ด ๊ต์‚ฌ์™€ ๋น„์Šทํ•œ ์„ฑ๋Šฅ์„ ๋‚ด์ง€๋งŒ ๋” ๋น ๋ฅด๊ฒŒ ์ž‘๋™ํ•˜๋„๋ก ๋งŒ๋“œ๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.
  3. Autoregressive (์ž๊ธฐํšŒ๊ท€): ์ด์ „์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์Œ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆœ์ฐจ์ ์œผ๋กœ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ํ…์ŠคํŠธ ์ƒ์„ฑ์ด๋‚˜ ์ŠคํŠธ๋ฆฌ๋ฐ ๋น„๋””์˜ค ์ƒ์„ฑ์— ์ฃผ๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  4. Reward Model (๋ณด์ƒ ๋ชจ๋ธ): ์ƒ์„ฑ๋œ ๊ฒฐ๊ณผ๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ข‹์€์ง€ ์ ์ˆ˜๋ฅผ ๋งค๊ธฐ๋Š” ๋ชจ๋ธ๋กœ, ์ฃผ๋กœ RLHF(์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™” ํ•™์Šต) ๋“ฑ์—์„œ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  5. KL Divergence (KL ๋ฐœ์‚ฐ): ๋‘ ํ™•๋ฅ  ๋ถ„ํฌ ์‚ฌ์ด์˜ ์ฐจ์ด๋ฅผ ์ธก์ •ํ•˜๋Š” ๊ฐ’์œผ๋กœ, ๋ถ„ํฌ ๋งค์นญ ์ฆ๋ฅ˜(DMD)์—์„œ ํ•™์ƒ ๋ชจ๋ธ์ด ๊ต์‚ฌ ๋ชจ๋ธ์˜ ๋ถ„ํฌ๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ๋”ฐ๋ผ๊ฐ€๊ณ  ์žˆ๋Š”์ง€ ํ‰๊ฐ€ํ•  ๋•Œ ์“ฐ์ž…๋‹ˆ๋‹ค.
  6. Backpropagation (์—ญ์ „ํŒŒ): ์‹ ๊ฒฝ๋ง ํ•™์Šต ์‹œ ์ถœ๋ ฅ์ธต์˜ ์˜ค์ฐจ๋ฅผ ์ž…๋ ฅ์ธต ๋ฐฉํ–ฅ์œผ๋กœ ์ „ํŒŒํ•˜์—ฌ ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ, ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ๊ทธ๋ผ๋””์–ธํŠธ ์‚ด๋ฆฌ์–ธ์‹œ(Saliency)๋ฅผ ๊ตฌํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡MolmoAct2: Action Reasoning Models โ€ฆDD-082
๐ŸฅˆFrom Context to Skills: Can Languagโ€ฆDD-083
๐Ÿฅ‰Stream-R1: Reliability-Perplexity Aโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
4.RLDX-1 Technical ReportDD-085
5.ARIS: Autonomous Research via Adverโ€ฆDD-086

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-05-10 | ๐Ÿค– GLM-4.7 Deep Dive