โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-104 Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding

arXiv: 2605.29707 ๊ธฐ๊ด€: Shanghai Jiao Tong University Upvotes: 140 | Comments: 3 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 3



๋…ผ๋ฌธ ๋ถ„์„: Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ์ถ”๋ก  ๊ธฐ๋ฒ•์€ ํ† ํฐ์„ ๋น ๋ฅด๊ฒŒ ์˜ˆ์ธกํ•˜๋ ค๋ฉด ์ •ํ™•๋„๊ฐ€ ๋–จ์–ด์ง€๊ณ , ์ •ํ™•๋„๋ฅผ ๋†’์ด๋ ค๋ฉด ์ˆœ์ฐจ์ ์ธ ์ฒ˜๋ฆฌ ๋•Œ๋ฌธ์— ์†๋„๊ฐ€ ๋А๋ ค์ง€๋Š” ๋”œ๋ ˆ๋งˆ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ์˜ ๋น ๋ฅธ ์†๋„์™€ ์ธ๊ณผ์  ๋ชจ๋ธ๋ง์˜ ์ •ํ™•ํ•จ์„ ๊ฒฐํ•ฉํ•˜์—ฌ, ๋ณ„๋„์˜ ์ถ”๊ฐ€ ๋น„์šฉ ์—†์ด๋„ ๋” ๊ธด ํ† ํฐ์„ ๋น ๋ฅด๊ฒŒ ์ƒ์„ฑํ•˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ์ธ Domino๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ์ถ”๋ก  ์†๋„๋ฅผ ํš๊ธฐ์ ์œผ๋กœ ๋†’์ด๋ฉด์„œ๋„ ์ƒ์„ฑ ํ’ˆ์งˆ์€ ์œ ์ง€ํ•˜๋Š” ๊ธธ์„ ์—ด์—ˆ๋‹ค๋Š” ์ ์—์„œ ํฐ ์˜์˜๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ : ์†Œ์„ค ์ง‘ํ•„์˜ ๋‘ ๋‹จ๊ณ„

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์„ โ€˜์†Œ์„ค์„ ์“ฐ๋Š” ๊ณผ์ •โ€™์— ๋น„์œ ํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์ธ ์–ธ์–ด ๋ชจ๋ธ์€ ์ž‘๊ฐ€๊ฐ€ ํ•œ ๋ฌธ์žฅ์„ ์“ฐ๊ณ , ๊ทธ ๋‹ค์Œ ๋ฌธ์žฅ์„ ์“ฐ๋Š” ์‹์œผ๋กœ ์•ž์˜ ๋‚ด์šฉ์„ ๋ณด๋ฉด์„œ ํ•˜๋‚˜ํ•˜๋‚˜ ์ง‘ํ•„ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹์€ ์ •ํ™•ํ•˜์ง€๋งŒ ์‹œ๊ฐ„์ด ์•„์ฃผ ์˜ค๋ž˜ ๊ฑธ๋ฆฝ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, ๊ธฐ์กด์˜ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ๋ฐฉ์‹์€ ์ดˆ์•ˆ ์ž‘์„ฑ์ž์—๊ฒŒ โ€œ์—ฌ๊ธฐ 10๋ฌธ์žฅ์„ ํ•œ ๋ฒˆ์— ์จ๋ดโ€๋ผ๊ณ  ์‹œํ‚ค๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์†๋„๋Š” ๋น ๋ฅด์ง€๋งŒ, ์•ž๋’ค ๋ฌธ๋งฅ์ด ์•ˆ ๋งž์•„ ์—‰๋šฑํ•œ ์ด์•ผ๊ธฐ๊ฐ€ ๋  ํ™•๋ฅ ์ด ๋†’์Šต๋‹ˆ๋‹ค.

Domino๋Š” ์ด ๋‘˜์„ ๊ฒฐํ•ฉํ•œ โ€˜์ง€๋Šฅํ˜• ํŽธ์ง‘ ํŒ€โ€™๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ๋จผ์ € ์ดˆ์•ˆ ์ž‘์„ฑ์ž๊ฐ€ ์ „์ฒด์ ์ธ ์ค„๊ฑฐ๋ฆฌ๋ฅผ ํœ˜๊ฐˆ๊ฒจ ์”๋‹ˆ๋‹ค. ์ดํ›„, ๊ต์ • ๋‹ด๋‹น์ž๊ฐ€ ๊ทธ ์ดˆ์•ˆ์„ ํ•œ ์ค„์”ฉ ์ฝ์–ด ๋‚ด๋ ค๊ฐ€๋ฉฐ, ๋ฐ”๋กœ ์•ž์˜ ๋ฌธ์žฅ๊ณผ ์ด์–ด์ง€๋„๋ก ๋‚ด์šฉ์„ ์•„์ฃผ ์‚ด์ง ์ˆ˜์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์ดˆ์•ˆ ์ž‘์„ฑ์ž์˜ ๋น ๋ฅธ ์†๋„์™€ ๊ต์ • ๋‹ด๋‹น์ž์˜ ๋ฌธ๋งฅ ํŒŒ์•… ๋Šฅ๋ ฅ์„ ๋™์‹œ์— ํ™œ์šฉํ•˜์—ฌ, ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•œ ์†Œ์„ค์„ ์™„์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

Domino๋Š” ํฌ๊ฒŒ ๋‘ ๊ฐ€์ง€ ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค.

์ฒซ ๋ฒˆ์งธ๋Š” ๋ณ‘๋ ฌ ๊ธฐ๊ณจ๊ฒฉ์ž…๋‹ˆ๋‹ค. ์ด ๋ถ€๋ถ„์€ ์ž…๋ ฅ๋œ ๋ฌธ๋งฅ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋ฏธ๋ž˜์— ๋‚˜์˜ฌ ํ† ํฐ๋“ค์„ ์ˆœ์„œ์— ์ƒ๊ด€์—†์ด ํ•œ๊บผ๋ฒˆ์— ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์น˜ ์—ฌ๋Ÿฌ ์žฅ์˜ ๊ทธ๋ฆผ์„ ๋™์‹œ์— ๊ทธ๋ ค๋†“๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ๋งค์šฐ ๋น ๋ฅด๊ฒŒ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด ๊ณผ์ •์—์„œ๋Š” ํ† ํฐ ๊ฐ„์˜ ์•ž๋’ค ์—ฐ๊ฒฐ ๊ณ ๋ฆฌ, ์ฆ‰ ์ธ๊ณผ ๊ด€๊ณ„๊ฐ€ ๋ฌด์‹œ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋‘ ๋ฒˆ์งธ๋Š” ๋„๋ฏธ๋…ธ ํ—ค๋“œ์ž…๋‹ˆ๋‹ค. ์ด ๊ฐ€๋ฒผ์šด ๋ชจ๋“ˆ์€ ๋ณ‘๋ ฌ ๊ธฐ๊ณจ๊ฒฉ์ด ๋งŒ๋“  ์ดˆ์•ˆ ํ† ํฐ๋“ค์„ ์ˆœ์ฐจ์ ์œผ๋กœ ์‚ดํŽด๋ด…๋‹ˆ๋‹ค. ๋ฐ”๋กœ ์ง์ „์— ์ƒ์„ฑ๋œ ํ† ํฐ์„ ์ฐธ๊ณ ํ•˜์—ฌ, ํ˜„์žฌ ํ† ํฐ์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๋ฏธ์„ธํ•˜๊ฒŒ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ์˜ ์†๋„๋Š” ์œ ์ง€ํ•˜๋ฉด์„œ๋„, ํ† ํฐ ๊ฐ„์˜ ์ž์—ฐ์Šค๋Ÿฌ์šด ํ๋ฆ„์„ ๋ณต์›ํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฐ ์ˆ˜์‹

๋„๋ฏธ๋…ธ์˜ ํ•ต์‹ฌ์€ โ€˜๋ณด์ •(Correction)โ€˜์ž…๋‹ˆ๋‹ค. ๋ณ‘๋ ฌ ๊ธฐ๊ณจ๊ฒฉ์ด ์˜ˆ์ธกํ•œ ๊ธฐ๋ณธ ๋กœ์ง“ ๊ฐ’์—, ๋„๋ฏธ๋…ธ ํ—ค๋“œ๊ฐ€ ๊ณ„์‚ฐํ•œ ๋ณด์ • ๊ฐ’์„ ๋”ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ตœ์ข… ์˜ˆ์ธก์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ตœ์ข… ํ† ํฐ์˜ ์˜ˆ์ธก ๋ถ„ํฌ๋Š” ๊ธฐ๋ณธ ๋กœ์ง“๊ณผ ๋ณด์ • ๋กœ์ง“์˜ ํ•ฉ์œผ๋กœ ๊ฒฐ์ •๋ฉ๋‹ˆ๋‹ค.

$$ l_i^{\text{final}} = l_i^{\text{base}} + c_i $$

์—ฌ๊ธฐ์„œ $l_i^{\text{base}}$๋Š” ๋ณ‘๋ ฌ ๊ธฐ๊ณจ๊ฒฉ์ด ๋น ๋ฅด๊ฒŒ ์˜ˆ์ธกํ•œ ๊ฐ’์ด๊ณ , $c_i$๋Š” ์ด์ „ ํ† ํฐ๋“ค์˜ ์ •๋ณด๋ฅผ ๋‹ด์•„ ๋„๋ฏธ๋…ธ ํ—ค๋“œ๊ฐ€ ๊ณ„์‚ฐํ•œ ์–‘๋… ๊ฐ’์ž…๋‹ˆ๋‹ค. ์ด ๋‘ ๊ฐ’์ด ํ•ฉ์ณ์ ธ ์ตœ์ข…์ ์œผ๋กœ ๋” ์ •ํ™•ํ•œ ํ† ํฐ์ด ์ƒ˜ํ”Œ๋ง๋ฉ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

๋ฒค์น˜๋งˆํฌ ๋ฐ ํ™˜๊ฒฝ

์—ฐ๊ตฌ์ง„์€ ์ˆ˜ํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” GSM8K ๋ฐ์ดํ„ฐ์…‹์„ ์ฃผ์š” ๋ฒค์น˜๋งˆํฌ๋กœ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ํƒ€๊ฒŸ ๋ชจ๋ธ๋กœ๋Š” Qwen3-8B๋ฅผ ํ™œ์šฉํ•˜์˜€์œผ๋ฉฐ, ์ถ”๋ก ์€ NVIDIA A100 GPU(์ปจํ…์ŠคํŠธ ๊ธธ์ด 1024) ํ™˜๊ฒฝ์—์„œ ์ˆ˜ํ–‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋น„๊ต ๋Œ€์ƒ์œผ๋กœ๋Š” ๊ธฐ์กด์˜ ๋ณ‘๋ ฌ ๊ธฐ๋ฐ˜ ๋ฐฉ์‹์ธ DFlash์™€ ์ž๊ธฐํšŒ๊ท€ ๊ธฐ๋ฐ˜ ๋ฐฉ์‹์ธ EAGLE-3๋ฅผ ์„ ์ •ํ–ˆ์Šต๋‹ˆ๋‹ค.

์„ฑ๋Šฅ ํ–ฅ์ƒ ์ˆ˜์น˜

์‹คํ—˜ ๊ฒฐ๊ณผ, ๋„๋ฏธ๋…ธ๋Š” ๊ธฐ์กด ๋ฐฉ์‹ ๋Œ€๋น„ ์›”๋“ฑํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ž๊ธฐํšŒ๊ท€ ๋ฐฉ์‹์ธ EAGLE-3์— ๋น„ํ•ด ์ถ”๋ก  ์ง€์—ฐ ์‹œ๊ฐ„์ด ํ›จ์”ฌ ์งง์œผ๋ฉด์„œ๋„, ๋ณ‘๋ ฌ ๋ฐฉ์‹์ธ DFlash๋ณด๋‹ค ํ›จ์”ฌ ๊ธด ์ˆ˜์šฉ ๊ธธ์ด๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ํƒ€๊ฒŸ ๋ชจ๋ธ์ด ํ•œ ๋ฒˆ์˜ ๊ฒ€์ฆ ๊ณผ์ •์—์„œ ๋ฐ›์•„๋“ค์ด๋Š” ํ† ํฐ์˜ ์ˆ˜๊ฐ€ ๋Š˜์–ด๋‚ฌ๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค. ์ข…ํ•ฉ์ ์ธ ์†๋„ ํ–ฅ์ƒ ํญ์ธ ์Šคํ”ผ๋“œ์—… ์ˆ˜์น˜์—์„œ๋„ ๋„๋ฏธ๋…ธ๋Š” ๋ชจ๋“  ๋น„๊ต๊ตฐ์„ ์••๋„ํ•˜๋ฉฐ, Qwen3-8B ๋ชจ๋ธ ๊ธฐ์ค€์œผ๋กœ ๊ธฐ์กด ์ž๊ธฐํšŒ๊ท€ ๋””์ฝ”๋”ฉ ๋Œ€๋น„ ์••๋„์ ์ธ ์ฒ˜๋ฆฌ ์†๋„ ๊ฐœ์„  ํšจ๊ณผ๋ฅผ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

๊ฐ€์žฅ ์ธ์ƒ์ ์ธ ์ ์€ ํ† ํฐ ์ˆ˜๋ฝ๋ฅ ๊ณผ ์ถ”๋ก  ์†๋„ ์‚ฌ์ด์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ํ•ด๊ฒฐํ–ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ์ˆ˜๋ฝ๋ฅ ์„ ๋†’์ด๋ ค๋ฉด ๋ชจ๋ธ ์—ฐ์‚ฐ ๋น„์šฉ์ด ๋Š˜์–ด๋‚˜๋Š”๋ฐ, ๋„๋ฏธ๋…ธ๋Š” ๊ฐ€๋ฒผ์šด ํ—ค๋“œ๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ๋งŒ์œผ๋กœ ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆผ 1์˜ ์ง€์—ฐ ์‹œ๊ฐ„ ๋ถ„์„์„ ๋ณด๋ฉด, ๋„๋ฏธ๋…ธ์˜ ๋„์ž…์œผ๋กœ ์ธํ•œ ์ถ”๊ฐ€ ์—ฐ์‚ฐ ๋น„์šฉ์€ ๋ฏธ๋ฏธํ•œ ๋ฐ˜๋ฉด, ๊ฒ€์ฆ ๋‹จ๊ณ„์—์„œ์˜ ํšจ์œจ์„ฑ์€ ํฌ๊ฒŒ ์ฆ๊ฐ€ํ•˜์—ฌ ์ „์ฒด์ ์ธ ์ฒ˜๋ฆฌ๋Ÿ‰์ด ๊ฐœ์„ ๋˜์—ˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„

์ €์ž๋“ค์€ ๋„๋ฏธ๋…ธ์˜ ํ•™์Šต ๊ณผ์ •์ด ๋‹จ์ˆœํ•˜์ง€ ์•Š๋‹ค๋Š” ์ ์„ ์ธ์ •ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๊ต์‚ฌ ๊ฐ•์š” ๊ธฐ๋ฐ˜์˜ ์ธ๊ณผ์  ์ธ์ฝ”๋”ฉ์„ ์•ˆ์ •์‹œํ‚ค๊ธฐ ์œ„ํ•ด ํŠน๋ณ„ํ•œ ์ปค๋ฆฌํ˜๋Ÿผ์„ ๋„์ž…ํ–ˆ๋Š”๋ฐ, ์ด ํ•™์Šต ๊ณผ์ •์ด ์ตœ์ ํ™”๋˜์ง€ ์•Š์œผ๋ฉด ์„ฑ๋Šฅ์ด ๋ณด์žฅ๋˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ˜„์žฌ ๊ตฌํ˜„์€ ํŠน์ • ์•„ํ‚คํ…์ฒ˜(DFlash ๋“ฑ)์— ์˜์กด์ ์ธ ๋ถ€๋ถ„์ด ์žˆ์–ด, ๋ชจ๋“  ๋ชจ๋ธ ๊ตฌ์กฐ์— ๋™์ผํ•˜๊ฒŒ ์ ์šฉํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ถ”๊ฐ€์ ์ธ ์กฐ์ •์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅํ•œ ์ 

ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ๋„๋ฏธ๋…ธ ํ—ค๋“œ์˜ ๊ตฌ์กฐ๋ฅผ ๋”์šฑ ๊ฒฝ๋Ÿ‰ํ™”ํ•˜๊ฑฐ๋‚˜, ๋‹ค์–‘ํ•œ ์ข…๋ฅ˜์˜ ํƒ€๊ฒŸ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์— ์ผ๋ฐ˜ํ™”๋  ์ˆ˜ ์žˆ๋Š”์ง€ ํƒ๊ตฌํ•  ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ˜„์žฌ๋Š” ํ…์ŠคํŠธ ์ƒ์„ฑ์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์ง€๋งŒ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ(์ด๋ฏธ์ง€-ํ…์ŠคํŠธ) ์ƒ์„ฑ๊ณผ ๊ฐ™์€ ๋” ๋ณต์žกํ•œ ๋„๋ฉ”์ธ์œผ๋กœ ํ™•์žฅํ•˜์—ฌ ๊ทธ ํšจ๊ณผ๋ฅผ ๊ฒ€์ฆํ•˜๋Š” ๊ฒƒ๋„ ํฅ๋ฏธ๋กœ์šด ๋ฐฉํ–ฅ์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ถ„์•ผ

์ด ๊ธฐ์ˆ ์€ LLM ์„œ๋น„์Šค๋ฅผ ์ œ๊ณตํ•˜๋Š” ๋ชจ๋“  ๋ถ„์•ผ์— ์ฆ‰์‹œ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ฑ—๋ด‡, ์ฝ”๋”ฉ ๋„์šฐ๋ฏธ, ๋ฌธ์„œ ์ž‘์„ฑ ๋น„์„œ์™€ ๊ฐ™์ด ์‹ค์‹œ๊ฐ„์œผ๋กœ ๋น ๋ฅธ ์‘๋‹ต ์†๋„๊ฐ€ ์ค‘์š”ํ•œ ์„œ๋น„์Šค์—์„œ ์‚ฌ์šฉ์ž ๊ฒฝํ—˜์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธด ๋ฌธ๋งฅ์„ ์ฒ˜๋ฆฌํ•ด์•ผ ํ•˜๋Š” RAG(๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ) ์‹œ์Šคํ…œ์ด๋‚˜ ๊ธด ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋ณด์กฐ ๋„๊ตฌ์—์„œ๋„ ๊ทธ ์ง„๊ฐ€๋ฅผ ๋ฐœํœ˜ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

๋„๋ฏธ๋…ธ๋ฅผ ์ ์šฉํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ํƒ€๊ฒŸ ๋ชจ๋ธ ์™ธ์— ๋ณ„๋„์˜ ์ž‘์€ ๋“œ๋ž˜ํ”„ํŠธ ๋ชจ๋ธ(Backbone)๊ณผ ๋„๋ฏธ๋…ธ ํ—ค๋“œ๋ฅผ ํ•™์Šต์‹œ์ผœ์•ผ ํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต์—๋Š” ์ƒ๋‹นํ•œ ์–‘์˜ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹์ด ํ•„์š”ํ•˜๋ฉฐ, GPU ๋ฆฌ์†Œ์Šค๋Š” ๋ชจ๋ธ ํฌ๊ธฐ์— ๋”ฐ๋ผ ๋‹ค๋ฅด์ง€๋งŒ ์ผ๋ฐ˜์ ์ธ ํŒŒ์ธํŠœ๋‹ ํ™˜๊ฒฝ๊ณผ ์œ ์‚ฌํ•œ ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค. ๋‹ค๋งŒ, ์ถ”๋ก  ์‹œ์—๋Š” ์ถ”๊ฐ€์ ์ธ ๋ชจ๋ธ์„ ๋กœ๋“œํ•ด์•ผ ํ•˜๋ฏ€๋กœ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ์•ฝ๊ฐ„ ์ฆ๊ฐ€ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์ „์ฒด ์ถ”๋ก  ์†๋„๊ฐ€ ๋นจ๋ผ์ง€๋ฏ€๋กœ ์ „์ฒด์ ์ธ ๋น„์šฉ ํšจ์œจ์€ ๋†’์•„์งˆ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • Speculative Decoding (์ถ”์ •์  ๋””์ฝ”๋”ฉ) ํฐ ๋ชจ๋ธ์ด ํ† ํฐ์„ ์ƒ์„ฑํ•˜๊ธฐ ์ „์— ์ž‘์€ ๋ชจ๋ธ์ด ๋ฏธ๋ฆฌ ํ›„๋ณด ํ† ํฐ๋“ค์„ ๋งŒ๋“ค์–ด ์ œ์•ˆํ•˜๊ณ , ํฐ ๋ชจ๋ธ์ด ์ด๋ฅผ ํ•œ ๋ฒˆ์— ๊ฒ€์ฆํ•˜์—ฌ ์†๋„๋ฅผ ๋†’์ด๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.

  • Autoregressive Modeling (์ž๊ธฐํšŒ๊ท€ ๋ชจ๋ธ๋ง) ์ด์ „์— ์ƒ์„ฑ๋œ ํ† ํฐ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์Œ ํ† ํฐ์„ ์ˆœ์ฐจ์ ์œผ๋กœ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, GPT ๊ณ„์—ด ๋ชจ๋ธ์ด ์‚ฌ์šฉํ•˜๋Š” ์ „ํ†ต์ ์ธ ์ƒ์„ฑ ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

  • Causal Dependency (์ธ๊ณผ์  ์˜์กด์„ฑ) ํ† ํฐ์˜ ์ƒ์„ฑ ์ˆœ์„œ๊ฐ€ ์ค‘์š”ํ•˜์—ฌ, ๋’ค์— ๋‚˜์˜ค๋Š” ํ† ํฐ์€ ์•ž์— ๋‚˜์˜จ ํ† ํฐ์˜ ์˜ํ–ฅ์„ ๋ฐ›์•„์•ผ๋งŒ ํ•œ๋‹ค๋Š” ์„ฑ์งˆ์ž…๋‹ˆ๋‹ค.

  • Parallel Drafting (๋ณ‘๋ ฌ ๋“œ๋ž˜ํ”„ํŒ…) ์—ฌ๋Ÿฌ ํ† ํฐ์„ ๋™์‹œ์— ์˜ˆ์ธกํ•˜์—ฌ ์ƒ์„ฑ ์†๋„๋ฅผ ๋†’์ด๋Š” ๋ฐฉ์‹์ด์ง€๋งŒ, ํ† ํฐ ๊ฐ„์˜ ์ธ๊ณผ์  ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

  • Logits (๋กœ์ง“) ๋ชจ๋ธ์ด ์ถœ๋ ฅํ•˜๋Š” ์›๋ณธ ์ ์ˆ˜ ๊ฐ’์œผ๋กœ, ์ด๋ฅผ ์†Œํ”„ํŠธ๋งฅ์Šค ํ•จ์ˆ˜์— ํ†ต๊ณผ์‹œํ‚ค๋ฉด ๊ฐ ํ† ํฐ์ด ์„ ํƒ๋  ํ™•๋ฅ ์ด ๋ฉ๋‹ˆ๋‹ค.

  • Teacher Forcing (๊ต์‚ฌ ๊ฐ•์š”) ๋ชจ๋ธ์ด ํ•™์Šตํ•  ๋•Œ, ์ด์ „ ๋‹จ๊ณ„์—์„œ ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ๊ฐ’์„ ์ž…๋ ฅ์œผ๋กœ ์“ฐ์ง€ ์•Š๊ณ , ์ •๋‹ต์ธ ๊ฐ’์„ ๊ฐ•์ œ๋กœ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต์‹œํ‚ค๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.

  • Latency (์ง€์—ฐ ์‹œ๊ฐ„) ์‚ฌ์šฉ์ž๊ฐ€ ์š”์ฒญ์„ ๋ณด๋‚ด๊ณ  ๊ฒฐ๊ณผ๋ฅผ ๋ฐ›๊ธฐ๊นŒ์ง€ ๊ฑธ๋ฆฌ๋Š” ์‹œ๊ฐ„์œผ๋กœ, ์ถ”๋ก  ์†๋„๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ค‘์š”ํ•œ ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค.


๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Crafter: A Multi-Agent Harness for โ€ฆDD-102
๐ŸฅˆOn the Scaling of PEFT: Towards Milโ€ฆDD-103
๐Ÿฅ‰Domino: Decoupling Causal Modeling โ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
4.COLLEAGUE.SKILL: Automated AI Skillโ€ฆDD-105
5.GrepSeek: Training Search Agents foโ€ฆDD-106

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-06-07 | ๐Ÿค– GLM-4.7 Deep Dive