โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-076 OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

arXiv: 2604.18486 ๊ธฐ๊ด€: Xiaomi Research Upvotes: 84 | Comments: 4 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 5



๋…ผ๋ฌธ ๋ถ„์„: OneVL (One-Step Latent Reasoning and Planning with Vision-Language Explanation)

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ์ž์œจ ์ฃผํ–‰ ๋ชจ๋ธ์€ ์ƒ๊ฐ์˜ ํ๋ฆ„(Chain-of-Thought, CoT)์„ ํ†ตํ•ด ๊ฒฐ์ •์„ ๋‚ด๋ฆด ๋•Œ ์ •ํ™•๋„๋Š” ๋†’์ง€๋งŒ, ํ† ํฐ์„ ํ•˜๋‚˜์”ฉ ์ƒ์„ฑํ•˜๋Š” ์ž๊ธฐํšŒ๊ท€(Autoregressive) ๋ฐฉ์‹ ๋•Œ๋ฌธ์— ์‹ค์‹œ๊ฐ„ ์šด์˜์— ํ•„์š”ํ•œ ์†๋„๋ฅผ ๋งž์ถ”๊ธฐ ์–ด๋ ต๋‹ค๋Š” ์น˜๋ช…์ ์ธ ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์–ธ์–ด์  ์„ค๋ช…๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋ฏธ๋ž˜์˜ ๋น„์ „(Visual) ์ •๋ณด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ์ด์ค‘ ๋ณด์กฐ ๋””์ฝ”๋”๋ฅผ ๋„์ž…ํ•˜์—ฌ, ์ถ”๋ก  ๊ณผ์ •์„ ์••์ถ•๋œ ์ž ์žฌ ๊ณต๊ฐ„(Latent Space)์œผ๋กœ ํšจ์œจํ™”ํ•จ์œผ๋กœ์จ ์ •ํ™•๋„๋Š” ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ์ถ”๋ก  ์†๋„๋ฅผ ํš๊ธฐ์ ์œผ๋กœ ๋‹จ์ถ•ํ•˜๋Š” ํ•ด๊ฒฐ์ฑ…์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€˜๋ฉดํ—ˆ ์‹œํ—˜์žฅ์˜ ์ดˆ๋ณด ์šด์ „์ž์™€ ๋ฒ ํ…Œ๋ž‘ ์šด์ „์žโ€™

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์„ ์ดํ•ดํ•˜๋ ค๋ฉด ์šด์ „์„ ๋ฐฐ์šฐ๋Š” ๊ณผ์ •์„ ๋– ์˜ฌ๋ฆฌ๋ฉด ๋ฉ๋‹ˆ๋‹ค.

  • ๊ธฐ์กด CoT ๋ฐฉ์‹ (๋ง ๋งŽ์€ ์ดˆ๋ณด): ์ดˆ๋ณด ์šด์ „์ž๋Š” ์šด์ „์„ ํ•  ๋•Œ๋งˆ๋‹ค ์ž…์œผ๋กœ ์ค‘์–ผ๊ฑฐ๋ฆฝ๋‹ˆ๋‹ค. โ€œ์•ž์— ์ฐจ๊ฐ€ ์žˆ์œผ๋‹ˆ ๋ธŒ๋ ˆ์ดํฌ๋ฅผ ๋ฐŸ๋Š”๋‹คโ€, โ€œ์‹ ํ˜ธ๋“ฑ์ด ํŒŒ๋ž€์ƒ‰์ด๋‹ˆ ๊ฐ€์†ํ•œ๋‹คโ€. ์ด๋ ‡๊ฒŒ ๋ชจ๋“  ๊ณผ์ •์„ ๋ง(ํ…์ŠคํŠธ)๋กœ ๋จผ์ € ํ’€์–ด๋‚ธ ๋’ค์— ํ–‰๋™์œผ๋กœ ์˜ฎ๊น๋‹ˆ๋‹ค. ์ƒ๊ฐ์„ ๊ผผ๊ผผํ•˜๊ฒŒ ํ•˜๋ฏ€๋กœ ์•ˆ์ „ํ•˜์ง€๋งŒ, ๋งค๋ฒˆ ๊ธด ๋ฌธ์žฅ์„ ๋งํ•ด์•ผ ํ•˜๋ฏ€๋กœ ๋ฐ˜์‘ ์†๋„๊ฐ€ ๋А๋ฆฝ๋‹ˆ๋‹ค.
  • ๊ธฐ์กด Latent CoT ๋ฐฉ์‹ (์•”๊ธฐ๋งŒ ํ•œ ์šด์ „์ž): ์–ด๋–ค ๋ชจ๋ธ์€ ๋ง์„ ์ค„์ด๊ณ  ๋จธ๋ฆฟ์†์œผ๋กœ๋งŒ ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด ์ƒ๊ฐ์ด ๋‹จ์ˆœํžˆ ๋‹จ์–ด๋ฅผ ๋‚˜์—ดํ•˜๋Š” ๊ฒƒ์„ ์š”์•ฝํ•œ ์ˆ˜์ค€์ด๋ผ๋ฉด, ์‹ค์ œ ๋„๋กœ์˜ ๋ฌผ๋ฆฌ์  ์ƒํ™ฉ(์ฐจ๊ฐ€ ๋ฏธ๋„๋Ÿฌ์ง€๊ฑฐ๋‚˜ ๊ฐ‘์ž๊ธฐ ํŠ€์–ด๋‚˜์˜ค๋Š” ๊ฒฝ์šฐ ๋“ฑ)์„ ์ œ๋Œ€๋กœ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•ด ์‚ฌ๊ณ ๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • OneVL ๋ฐฉ์‹ (์˜์ƒ์„ ๋ณด๋Š” ๋ฒ ํ…Œ๋ž‘): ๋ฒ ํ…Œ๋ž‘ ์šด์ „์ž๋Š” ์šด์ „ํ•  ๋•Œ ๋Š์ž„์—†์ด ๋จธ๋ฆฟ์†์œผ๋กœ โ€˜์˜์ƒโ€™์„ ๊ทธ๋ฆฝ๋‹ˆ๋‹ค. โ€œ์ง€๊ธˆ ํ•ธ๋“ค์„ ๊บพ์œผ๋ฉด 1์ดˆ ํ›„์— ์ฐจ๊ฐ€ ์ด๋Ÿฐ ์œ„์น˜์— ์žˆ๊ฒ ๊ตฌ๋‚˜โ€๋ผ๊ณ  ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ๋Œ๋ฆฌ๋Š” ๊ฒƒ์ด์ฃ . OneVL์€ ๋ชจ๋ธ์ด ๋‹จ์ˆœํžˆ ํ…์ŠคํŠธ๋กœ ์ƒ๊ฐํ•˜๋Š” ๊ฒƒ์„ ๊ฐ•์š”ํ•˜๋Š” ๋Œ€์‹ , ๋ฏธ๋ž˜์˜ ๋„๋กœ ์˜์ƒ(Visual World Model)์„ ๋จธ๋ฆฟ์†์— ๊ทธ๋ฆฌ๋„๋ก ํ›ˆ๋ จ์‹œํ‚ต๋‹ˆ๋‹ค. ๊ทธ๋ ‡๊ฒŒ ๋จธ๋ฆฟ์†์— ๊ทธ๋ ค์ง„ ์˜์ƒ๊ณผ ์–ธ์–ด์  ์˜๋„๋ฅผ ์••์ถ•๋œ ๊ธฐํ˜ธ(Latent Token) ํ•˜๋‚˜์— ๋‹ด์•„๋‚ด์–ด, ๋ง์„ ์•ˆ ํ•ด๋„ ์ฆ‰๊ฐ์ ์œผ๋กœ ์ตœ์ ์˜ ์ฃผํ–‰ ๊ฒฝ๋กœ๋ฅผ ํŒ๋‹จํ•˜๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

  1. ์ž…๋ ฅ: ํ˜„์žฌ ๋„๋กœ์˜ ์˜์ƒ๊ณผ ๋‚ด๋น„๊ฒŒ์ด์…˜ ๋ช…๋ น์–ด ๋“ฑ์„ ๋ชจ๋ธ์— ๋„ฃ์Šต๋‹ˆ๋‹ค.
  2. ์ž ์žฌ ํ† ํฐ ์ƒ์„ฑ: ๋ฉ”์ธ ๋ชจ๋ธ(VLM)์€ ์ƒ๊ฐ์„ ๊ธธ๊ฒŒ ๋Š˜์–ด๋†“์ง€ ์•Š๊ณ , ์•„์ฃผ ์ž‘์€ ํฌ๊ธฐ์˜ โ€˜๋น„๋ฐ€ ์•”ํ˜ธ(Latent Token)โ€˜๋ฅผ ๋ช‡ ๊ฐœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  3. ํ•™์Šต ์‹œ์ ์˜ ์ด์ค‘ ๊ฒ€์ฆ (Dual Auxiliary Decoders):
    • ์ด โ€˜๋น„๋ฐ€ ์•”ํ˜ธโ€™๊ฐ€ ์ง„์งœ ์ข‹์€ ์ƒ๊ฐ์ธ์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด ๋‘ ๋ช…์˜ ๊ฒ€ํ† ๊ด€์„ ๋‘ก๋‹ˆ๋‹ค.
    • ์–ธ์–ด ๊ฒ€ํ† ๊ด€: ์ด ์•”ํ˜ธ๋ฅผ ํ’€์–ด๋ณด์•˜์„ ๋•Œ, ์ƒ์‹์ ์ธ ์šด์ „ ์„ค๋ช…(ํ…์ŠคํŠธ CoT)์ด ๋‚˜์˜ค๋Š”์ง€ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค.
    • ๋น„์ „ ๊ฒ€ํ† ๊ด€: ์ด ์•”ํ˜ธ๋ฅผ ํ’€์–ด๋ณด์•˜์„ ๋•Œ, 0.5์ดˆ ํ˜น์€ 1์ดˆ ํ›„์˜ ๋„๋กœ ์˜์ƒ์ด ์ •ํ™•ํ•˜๊ฒŒ ๊ทธ๋ ค์ง€๋Š”์ง€ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค. ์ด๊ฒƒ์ด ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค. ๋‹จ์ˆœํ•œ ์–ธ์–ด์  ์š”์•ฝ์ด ์•„๋‹ˆ๋ผ, ๋ฌผ๋ฆฌ์  ์„ธ๊ณ„์˜ ์ธ๊ณผ์œจ์„ ์ดํ•ดํ•˜๊ณ  ์žˆ์Œ์„ ๊ฐ•์ œํ•ฉ๋‹ˆ๋‹ค.
  4. ์ถ”๋ก  ์‹œ์  (Inference):
    • ์‹ค์ œ ์šด์ „ํ•  ๋•Œ๋Š” ๊ฒ€ํ† ๊ด€๋“ค์„ ๋ชจ๋‘ ํ•ด๊ณ ํ•ฉ๋‹ˆ๋‹ค. ๋ฉ”์ธ ๋ชจ๋ธ์€ โ€˜๋น„๋ฐ€ ์•”ํ˜ธโ€™๋งŒ ์ƒ์„ฑํ•˜๊ณ , ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ฆ‰์‹œ ์ฃผํ–‰ ๊ฒฝ๋กœ๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ๊ธด ๋ฌธ์žฅ์„ ์ƒ์„ฑํ•  ํ•„์š”๊ฐ€ ์—†์œผ๋ฏ€๋กœ ์†๋„๊ฐ€ ๋งค์šฐ ๋น ๋ฆ…๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฐ ์ˆ˜์‹

์ด ๋…ผ๋ฌธ์˜ ์†์‹ค ํ•จ์ˆ˜(Loss Function)๋Š” ํฌ๊ฒŒ ๋‘ ๊ฐ€์ง€ ๋ณด์กฐ ํ•™์Šต ๋ชฉํ‘œ๋ฅผ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.

  • ์–ธ์–ด ์žฌ๊ตฌ์„ฑ ์†์‹ค ($L_l$): ์ž ์žฌ ํ† ํฐ $Z_l$์ด ์›๋ž˜์˜ Chain-of-Thought ํ…์ŠคํŠธ๋ฅผ ์ž˜ ๋ณต์›ํ•˜๋„๋ก ํ•˜๋Š” ์†์‹ค์ž…๋‹ˆ๋‹ค.
  • ๋น„์ „ ์„ธ๊ณ„ ๋ชจ๋ธ ์†์‹ค ($L_v$): ์ž ์žฌ ํ† ํฐ $Z_v$์ด ํ˜„์žฌ ํ”„๋ ˆ์ž„์„ ๋ฐ”ํƒ•์œผ๋กœ ๋ฏธ๋ž˜ ํ”„๋ ˆ์ž„($T_{y_v}$)์„ ์ •ํ™•ํžˆ ์˜ˆ์ธกํ•˜๋„๋ก ํ•˜๋Š” ์†์‹ค์ž…๋‹ˆ๋‹ค.

์ด ๋‘ ์†์‹ค์„ ํ†ตํ•ด ์ž ์žฌ ๊ณต๊ฐ„์ด ๋‹จ์ˆœํ•œ ์–ธ์–ด์  ์š”์•ฝ์„ ๋„˜์–ด, ๋ฌผ๋ฆฌ์  ์‚ฌ๋ฌผ์˜ ์›€์ง์ž„(Causal Dynamics)์„ ๋‚ดํฌํ•œ ๊ณต๊ฐ„์œผ๋กœ ๋ณ€ํ™”ํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด OneVL์˜ ์ˆ˜ํ•™์  ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

  • ์‚ฌ์šฉ๋œ ๋ฒค์น˜๋งˆํฌ: ๋…ผ๋ฌธ์—์„œ๋Š” ์ž์œจ ์ฃผํ–‰ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์Œ 4๊ฐ€์ง€ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.

    • NAVSIM: ๋Œ€๊ทœ๋ชจ ์‹ค์ œ ์ฃผํ–‰ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฒค์น˜๋งˆํฌ
    • ROADWork: ๊ณต์‚ฌ ๊ตฌ๊ฐ„ ๋“ฑ ์˜ˆ์™ธ์ ์ธ ์ƒํ™ฉ์ด ํฌํ•จ๋œ ๋„๋กœ ํ™˜๊ฒฝ
    • Impromptu: ๋™์ ์ด๊ณ  ์˜ˆ๊ธฐ์น˜ ๋ชปํ•œ ์žฅ์• ๋ฌผ์ด ์žˆ๋Š” ์ƒํ™ฉ
    • APR: ์ผ๋ฐ˜์ ์ธ ์ฃผํ–‰ ์‹œ๋‚˜๋ฆฌ์˜ค
  • ์„ฑ๊ณผ:

    • ์ •ํ™•๋„ ํšŒ๋ณต: ๊ธฐ์กด์˜ Latent CoT ๋ฐฉ์‹๋“ค์ด ํ…์ŠคํŠธ CoT์— ๋น„ํ•ด ์„ฑ๋Šฅ์ด ํ˜„์ €ํžˆ ๋–จ์–ด์ง€๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜์—ฌ, ๋ช…์‹œ์ ์ธ CoT๋ฅผ ์‚ฌ์šฉํ•œ ๋ชจ๋ธ๊ณผ ์œ ์‚ฌํ•˜๊ฑฐ๋‚˜ ๋” ์šฐ์ˆ˜ํ•œ ์ฃผํ–‰ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ROADWork์™€ ๊ฐ™์€ ๋ณต์žกํ•œ ํ™˜๊ฒฝ์—์„œ ๋ฏธ๋ž˜ ํ”„๋ ˆ์ž„ ์˜ˆ์ธก(Visual World Model)์ด ์ฃผํ–‰ ์ •ํ™•๋„๋ฅผ ํฌ๊ฒŒ ๋†’์ธ ๊ฒƒ์œผ๋กœ ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    • ์†๋„ ๊ฐœ์„ : ์ถ”๋ก  ์‹œ ๋””์ฝ”๋”๋ฅผ ์ œ๊ฑฐํ•˜๊ณ  ์ž ์žฌ ํ† ํฐ๋งŒ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ, ์ž๊ธฐํšŒ๊ท€์ ์œผ๋กœ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ธฐ์กด CoT ๋ฐฉ์‹๋ณด๋‹ค ์ง€์—ฐ ์‹œ๋„(Latency)๊ฐ€ ํš๊ธฐ์ ์œผ๋กœ ์ค„์–ด๋“ค์–ด ์‹ค์‹œ๊ฐ„ ์šด์˜์ด ๊ฐ€๋Šฅํ•ด์กŒ์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  • ํ•œ๊ณ„์ :

    • ํ›ˆ๋ จ์˜ ๋ณต์žก์„ฑ: ๋ฉ”์ธ ๋ชจ๋ธ ์™ธ์— ์–ธ์–ด์™€ ๋น„์ „์„ ์œ„ํ•œ ๋‘ ๊ฐœ์˜ ๋ณด์กฐ ๋””์ฝ”๋”๋ฅผ ํ•จ๊ป˜ ํ›ˆ๋ จ์‹œ์ผœ์•ผ ํ•˜๋ฏ€๋กœ, ๋ชจ๋ธ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ์ด ๋ณต์žกํ•˜๊ณ  ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋งŽ์ด ๋“ญ๋‹ˆ๋‹ค.
    • ์˜์ƒ ์˜ˆ์ธก์˜ ๋‚œ์ด๋„: ๋ฏธ๋ž˜ ํ”„๋ ˆ์ž„์„ ์ •ํ™•ํ•˜๊ฒŒ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ ์ž์ฒด๊ฐ€ ๋งค์šฐ ์–ด๋ ค์šด ์ž‘์—…์ด๋ฏ€๋กœ, ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•˜๊ฑฐ๋‚˜ ๋„ˆ๋ฌด ๋จผ ๋ฏธ๋ž˜๋ฅผ ์˜ˆ์ธกํ•˜๋ ค ํ•  ๋•Œ ์„ฑ๋Šฅ์ด ์ €ํ•˜๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ:

    • ๋” ํšจ์œจ์ ์ธ ์ž ์žฌ ํ‘œํ˜„ ํ•™์Šต ๋ฐฉ๋ฒ•์„ ์—ฐ๊ตฌํ•˜์—ฌ ๋ณด์กฐ ๋””์ฝ”๋”์˜ ๋ถ€๋‹ด์„ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๋‹จ์ˆœํžˆ ๋ฏธ๋ž˜ ํ”„๋ ˆ์ž„์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด, ๋” ์ถ”์ƒ์ ์ธ ๋ฌผ๋ฆฌ ๋ฒ•์น™์ด๋‚˜ ๊ฐ์ฒด ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ™•์žฅ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

  • ์ ์šฉ ๋ถ„์•ผ: ์‹ค์‹œ๊ฐ„ ๋ฐ˜์‘์ด ํ•„์ˆ˜์ ์ธ ์ž์œจ ์ฃผํ–‰ ์ž๋™์ฐจ(Autonomous Vehicles) ๋ฐ ๋กœ๋ด‡ ๋‚ด๋น„๊ฒŒ์ด์…˜ ์‹œ์Šคํ…œ์— ์ฆ‰์‹œ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์•ˆ์ „์„ฑ์„ ์œ„ํ•ด ์ถ”๋ก  ๊ณผ์ •์ด ํˆฌ๋ช…ํ•ด์•ผ ํ•˜์ง€๋งŒ(์–ธ์–ด ์„ค๋ช…), ์†๋„๊ฐ€ ์ค‘์š”ํ•œ ์ƒํ™ฉ์—์„œ ์ตœ์ ์˜ ์†”๋ฃจ์…˜์ž…๋‹ˆ๋‹ค.
  • ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค:
    • GPU: Qwen3-VL-4B์™€ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(VLM)์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ, ํ›ˆ๋ จ ์‹œ ๋‘ ๊ฐœ์˜ ์ถ”๊ฐ€ ๋””์ฝ”๋”๋ฅผ ๋Œ๋ ค์•ผ ํ•˜๋ฏ€๋กœ ๊ณ ์‚ฌ์–‘ GPU(A100 ์ด์ƒ) ํด๋Ÿฌ์Šคํ„ฐ ํ™˜๊ฒฝ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
    • ๋ฐ์ดํ„ฐ: ์˜์ƒ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋ฏธ๋ž˜ ํ”„๋ ˆ์ž„(Video) ๋ ˆ์ด๋ธ”๊ณผ ์šด์ „์— ๋Œ€ํ•œ ํ…์ŠคํŠธ ์„ค๋ช…(CoT)์ด ๋™์‹œ์— ์กด์žฌํ•˜๋Š” ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ ์„ธํŠธ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • VLA (Vision-Language-Action Model): ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ์ดํ•ดํ•˜๊ณ , ๊ทธ ๋ฐ”ํƒ•์œผ๋กœ ํ–‰๋™(์˜ˆ: ์ž๋™์ฐจ์˜ ์กฐํ–ฅ๊ฐ)์„ ๊ฒฐ์ •ํ•˜๋Š” AI ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  • CoT (Chain-of-Thought): ๋ชจ๋ธ์ด ๋‹ต์„ ๋ฐ”๋กœ ๋‚ด๋†“์ง€ ์•Š๊ณ , ์‚ฌ๋žŒ์ฒ˜๋Ÿผ ์ค‘๊ฐ„ ์ƒ๊ฐ ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์ณ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ์ถ”๋ก  ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
  • Latent Space (์ž ์žฌ ๊ณต๊ฐ„): ๋ฐ์ดํ„ฐ๋ฅผ ์••์ถ•ํ•˜์—ฌ ์ €์žฅํ•œ ์ถ”์ƒ์ ์ธ ๊ณต๊ฐ„์œผ๋กœ, ์‚ฌ๋žŒ์ด ์ง์ ‘ ํ•ด์„ํ•˜๊ธฐ๋Š” ์–ด๋ ต์ง€๋งŒ ์ปดํ“จํ„ฐ๊ฐ€ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • Autoregressive (์ž๊ธฐํšŒ๊ท€): ์ด์ „์— ์ƒ์„ฑํ•œ ํ† ํฐ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์Œ ํ† ํฐ์„ ์ˆœ์ฐจ์ ์œผ๋กœ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ์†๋„๊ฐ€ ๋А๋ฆฐ ๋‹จ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
  • World Model (์„ธ๊ณ„ ๋ชจ๋ธ): ํ™˜๊ฒฝ์˜ ์ƒํƒœ ๋ณ€ํ™”๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ๋กœ, ํ˜„์žฌ ์ƒํƒœ์—์„œ ์–ด๋–ค ํ–‰๋™์„ ์ทจํ–ˆ์„ ๋•Œ ๋ฏธ๋ž˜์— ์–ด๋–ค ์ผ์ด ์ผ์–ด๋‚ ์ง€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.
  • Fine-tuning: ์ด๋ฏธ ํ•™์Šต๋œ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์„ ํŠน์ • ์ž‘์—…์ด๋‚˜ ๋ฐ์ดํ„ฐ์— ๋งž์ถฐ ์ถ”๊ฐ€๋กœ ํ•™์Šต์‹œํ‚ค๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.
  • Decoder (๋””์ฝ”๋”): ์••์ถ•๋˜๊ฑฐ๋‚˜ ์ธ์ฝ”๋”ฉ๋œ ์ •๋ณด๋ฅผ ์›๋ž˜์˜ ์˜๋ฏธ ์žˆ๋Š” ๋ฐ์ดํ„ฐ(ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€ ๋“ฑ)๋กœ ๋ณต์›ํ•˜๋Š” ์‹ ๊ฒฝ๋ง ๋ถ€๋ถ„์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Tstars-Tryon 1.0: Robust and Realisโ€ฆDD-072
๐ŸฅˆLLaDA2.0-Uni: Unifying Multimodal Uโ€ฆDD-073
๐Ÿฅ‰AgentSPEX: An Agent SPecification aโ€ฆDD-074
4.Extending One-Step Image Generationโ€ฆDD-075
5.OneVL: One-Step Latent Reasoning anโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-04-26 | ๐Ÿค– GLM-4.7 Deep Dive