โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-076 OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation
arXiv: 2604.18486 ๊ธฐ๊ด: Xiaomi Research Upvotes: 84 | Comments: 4 ์์: ์ด๋ฒ ์ฃผ Top 5
๋ ผ๋ฌธ ๋ถ์: OneVL (One-Step Latent Reasoning and Planning with Vision-Language Explanation)
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ์์จ ์ฃผํ ๋ชจ๋ธ์ ์๊ฐ์ ํ๋ฆ(Chain-of-Thought, CoT)์ ํตํด ๊ฒฐ์ ์ ๋ด๋ฆด ๋ ์ ํ๋๋ ๋์ง๋ง, ํ ํฐ์ ํ๋์ฉ ์์ฑํ๋ ์๊ธฐํ๊ท(Autoregressive) ๋ฐฉ์ ๋๋ฌธ์ ์ค์๊ฐ ์ด์์ ํ์ํ ์๋๋ฅผ ๋ง์ถ๊ธฐ ์ด๋ ต๋ค๋ ์น๋ช ์ ์ธ ํ๊ณ๊ฐ ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ธ์ด์ ์ค๋ช ๋ฟ๋ง ์๋๋ผ ๋ฏธ๋์ ๋น์ (Visual) ์ ๋ณด๋ฅผ ์์ธกํ๋ ์ด์ค ๋ณด์กฐ ๋์ฝ๋๋ฅผ ๋์ ํ์ฌ, ์ถ๋ก ๊ณผ์ ์ ์์ถ๋ ์ ์ฌ ๊ณต๊ฐ(Latent Space)์ผ๋ก ํจ์จํํจ์ผ๋ก์จ ์ ํ๋๋ ์ ์งํ๋ฉด์๋ ์ถ๋ก ์๋๋ฅผ ํ๊ธฐ์ ์ผ๋ก ๋จ์ถํ๋ ํด๊ฒฐ์ฑ ์ ์ ์ํฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : โ๋ฉดํ ์ํ์ฅ์ ์ด๋ณด ์ด์ ์์ ๋ฒ ํ ๋ ์ด์ ์โ
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ์ดํดํ๋ ค๋ฉด ์ด์ ์ ๋ฐฐ์ฐ๋ ๊ณผ์ ์ ๋ ์ฌ๋ฆฌ๋ฉด ๋ฉ๋๋ค.
- ๊ธฐ์กด CoT ๋ฐฉ์ (๋ง ๋ง์ ์ด๋ณด): ์ด๋ณด ์ด์ ์๋ ์ด์ ์ ํ ๋๋ง๋ค ์ ์ผ๋ก ์ค์ผ๊ฑฐ๋ฆฝ๋๋ค. โ์์ ์ฐจ๊ฐ ์์ผ๋ ๋ธ๋ ์ดํฌ๋ฅผ ๋ฐ๋๋คโ, โ์ ํธ๋ฑ์ด ํ๋์์ด๋ ๊ฐ์ํ๋คโ. ์ด๋ ๊ฒ ๋ชจ๋ ๊ณผ์ ์ ๋ง(ํ ์คํธ)๋ก ๋จผ์ ํ์ด๋ธ ๋ค์ ํ๋์ผ๋ก ์ฎ๊น๋๋ค. ์๊ฐ์ ๊ผผ๊ผผํ๊ฒ ํ๋ฏ๋ก ์์ ํ์ง๋ง, ๋งค๋ฒ ๊ธด ๋ฌธ์ฅ์ ๋งํด์ผ ํ๋ฏ๋ก ๋ฐ์ ์๋๊ฐ ๋๋ฆฝ๋๋ค.
- ๊ธฐ์กด Latent CoT ๋ฐฉ์ (์๊ธฐ๋ง ํ ์ด์ ์): ์ด๋ค ๋ชจ๋ธ์ ๋ง์ ์ค์ด๊ณ ๋จธ๋ฆฟ์์ผ๋ก๋ง ์๊ฐํฉ๋๋ค. ํ์ง๋ง ์ด ์๊ฐ์ด ๋จ์ํ ๋จ์ด๋ฅผ ๋์ดํ๋ ๊ฒ์ ์์ฝํ ์์ค์ด๋ผ๋ฉด, ์ค์ ๋๋ก์ ๋ฌผ๋ฆฌ์ ์ํฉ(์ฐจ๊ฐ ๋ฏธ๋๋ฌ์ง๊ฑฐ๋ ๊ฐ์๊ธฐ ํ์ด๋์ค๋ ๊ฒฝ์ฐ ๋ฑ)์ ์ ๋๋ก ๋ฐ์ํ์ง ๋ชปํด ์ฌ๊ณ ๋ฅผ ๋ผ ์ ์์ต๋๋ค.
- OneVL ๋ฐฉ์ (์์์ ๋ณด๋ ๋ฒ ํ ๋): ๋ฒ ํ ๋ ์ด์ ์๋ ์ด์ ํ ๋ ๋์์์ด ๋จธ๋ฆฟ์์ผ๋ก โ์์โ์ ๊ทธ๋ฆฝ๋๋ค. โ์ง๊ธ ํธ๋ค์ ๊บพ์ผ๋ฉด 1์ด ํ์ ์ฐจ๊ฐ ์ด๋ฐ ์์น์ ์๊ฒ ๊ตฌ๋โ๋ผ๊ณ ์๋ฎฌ๋ ์ด์ ์ ๋๋ฆฌ๋ ๊ฒ์ด์ฃ . OneVL์ ๋ชจ๋ธ์ด ๋จ์ํ ํ ์คํธ๋ก ์๊ฐํ๋ ๊ฒ์ ๊ฐ์ํ๋ ๋์ , ๋ฏธ๋์ ๋๋ก ์์(Visual World Model)์ ๋จธ๋ฆฟ์์ ๊ทธ๋ฆฌ๋๋ก ํ๋ จ์ํต๋๋ค. ๊ทธ๋ ๊ฒ ๋จธ๋ฆฟ์์ ๊ทธ๋ ค์ง ์์๊ณผ ์ธ์ด์ ์๋๋ฅผ ์์ถ๋ ๊ธฐํธ(Latent Token) ํ๋์ ๋ด์๋ด์ด, ๋ง์ ์ ํด๋ ์ฆ๊ฐ์ ์ผ๋ก ์ต์ ์ ์ฃผํ ๊ฒฝ๋ก๋ฅผ ํ๋จํ๊ฒ ๋ง๋ญ๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
- ์ ๋ ฅ: ํ์ฌ ๋๋ก์ ์์๊ณผ ๋ด๋น๊ฒ์ด์ ๋ช ๋ น์ด ๋ฑ์ ๋ชจ๋ธ์ ๋ฃ์ต๋๋ค.
- ์ ์ฌ ํ ํฐ ์์ฑ: ๋ฉ์ธ ๋ชจ๋ธ(VLM)์ ์๊ฐ์ ๊ธธ๊ฒ ๋์ด๋์ง ์๊ณ , ์์ฃผ ์์ ํฌ๊ธฐ์ โ๋น๋ฐ ์ํธ(Latent Token)โ๋ฅผ ๋ช ๊ฐ ์์ฑํฉ๋๋ค.
- ํ์ต ์์ ์ ์ด์ค ๊ฒ์ฆ (Dual Auxiliary Decoders):
- ์ด โ๋น๋ฐ ์ํธโ๊ฐ ์ง์ง ์ข์ ์๊ฐ์ธ์ง ํ์ธํ๊ธฐ ์ํด ๋ ๋ช ์ ๊ฒํ ๊ด์ ๋ก๋๋ค.
- ์ธ์ด ๊ฒํ ๊ด: ์ด ์ํธ๋ฅผ ํ์ด๋ณด์์ ๋, ์์์ ์ธ ์ด์ ์ค๋ช (ํ ์คํธ CoT)์ด ๋์ค๋์ง ํ์ธํฉ๋๋ค.
- ๋น์ ๊ฒํ ๊ด: ์ด ์ํธ๋ฅผ ํ์ด๋ณด์์ ๋, 0.5์ด ํน์ 1์ด ํ์ ๋๋ก ์์์ด ์ ํํ๊ฒ ๊ทธ๋ ค์ง๋์ง ํ์ธํฉ๋๋ค. ์ด๊ฒ์ด ํต์ฌ์ ๋๋ค. ๋จ์ํ ์ธ์ด์ ์์ฝ์ด ์๋๋ผ, ๋ฌผ๋ฆฌ์ ์ธ๊ณ์ ์ธ๊ณผ์จ์ ์ดํดํ๊ณ ์์์ ๊ฐ์ ํฉ๋๋ค.
- ์ถ๋ก ์์ (Inference):
- ์ค์ ์ด์ ํ ๋๋ ๊ฒํ ๊ด๋ค์ ๋ชจ๋ ํด๊ณ ํฉ๋๋ค. ๋ฉ์ธ ๋ชจ๋ธ์ โ๋น๋ฐ ์ํธโ๋ง ์์ฑํ๊ณ , ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ฆ์ ์ฃผํ ๊ฒฝ๋ก๋ฅผ ์์ธกํฉ๋๋ค. ๊ธด ๋ฌธ์ฅ์ ์์ฑํ ํ์๊ฐ ์์ผ๋ฏ๋ก ์๋๊ฐ ๋งค์ฐ ๋น ๋ฆ ๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ ๋ฐ ์์
์ด ๋ ผ๋ฌธ์ ์์ค ํจ์(Loss Function)๋ ํฌ๊ฒ ๋ ๊ฐ์ง ๋ณด์กฐ ํ์ต ๋ชฉํ๋ฅผ ํฌํจํฉ๋๋ค.
- ์ธ์ด ์ฌ๊ตฌ์ฑ ์์ค ($L_l$): ์ ์ฌ ํ ํฐ $Z_l$์ด ์๋์ Chain-of-Thought ํ ์คํธ๋ฅผ ์ ๋ณต์ํ๋๋ก ํ๋ ์์ค์ ๋๋ค.
- ๋น์ ์ธ๊ณ ๋ชจ๋ธ ์์ค ($L_v$): ์ ์ฌ ํ ํฐ $Z_v$์ด ํ์ฌ ํ๋ ์์ ๋ฐํ์ผ๋ก ๋ฏธ๋ ํ๋ ์($T_{y_v}$)์ ์ ํํ ์์ธกํ๋๋ก ํ๋ ์์ค์ ๋๋ค.
์ด ๋ ์์ค์ ํตํด ์ ์ฌ ๊ณต๊ฐ์ด ๋จ์ํ ์ธ์ด์ ์์ฝ์ ๋์ด, ๋ฌผ๋ฆฌ์ ์ฌ๋ฌผ์ ์์ง์(Causal Dynamics)์ ๋ดํฌํ ๊ณต๊ฐ์ผ๋ก ๋ณํํ๊ฒ ๋ง๋๋ ๊ฒ์ด OneVL์ ์ํ์ ํต์ฌ์ ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
-
์ฌ์ฉ๋ ๋ฒค์น๋งํฌ: ๋ ผ๋ฌธ์์๋ ์์จ ์ฃผํ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด ๋ค์ 4๊ฐ์ง ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ฌ์ฉํ์ต๋๋ค.
- NAVSIM: ๋๊ท๋ชจ ์ค์ ์ฃผํ ์๋ฎฌ๋ ์ด์ ๋ฒค์น๋งํฌ
- ROADWork: ๊ณต์ฌ ๊ตฌ๊ฐ ๋ฑ ์์ธ์ ์ธ ์ํฉ์ด ํฌํจ๋ ๋๋ก ํ๊ฒฝ
- Impromptu: ๋์ ์ด๊ณ ์๊ธฐ์น ๋ชปํ ์ฅ์ ๋ฌผ์ด ์๋ ์ํฉ
- APR: ์ผ๋ฐ์ ์ธ ์ฃผํ ์๋๋ฆฌ์ค
-
์ฑ๊ณผ:
- ์ ํ๋ ํ๋ณต: ๊ธฐ์กด์ Latent CoT ๋ฐฉ์๋ค์ด ํ ์คํธ CoT์ ๋นํด ์ฑ๋ฅ์ด ํ์ ํ ๋จ์ด์ง๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ฌ, ๋ช ์์ ์ธ CoT๋ฅผ ์ฌ์ฉํ ๋ชจ๋ธ๊ณผ ์ ์ฌํ๊ฑฐ๋ ๋ ์ฐ์ํ ์ฃผํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ํนํ ROADWork์ ๊ฐ์ ๋ณต์กํ ํ๊ฒฝ์์ ๋ฏธ๋ ํ๋ ์ ์์ธก(Visual World Model)์ด ์ฃผํ ์ ํ๋๋ฅผ ํฌ๊ฒ ๋์ธ ๊ฒ์ผ๋ก ํ์ธ๋์์ต๋๋ค.
- ์๋ ๊ฐ์ : ์ถ๋ก ์ ๋์ฝ๋๋ฅผ ์ ๊ฑฐํ๊ณ ์ ์ฌ ํ ํฐ๋ง ์ฌ์ฉํ๋ฏ๋ก, ์๊ธฐํ๊ท์ ์ผ๋ก ํ ์คํธ๋ฅผ ์์ฑํ๋ ๊ธฐ์กด CoT ๋ฐฉ์๋ณด๋ค ์ง์ฐ ์๋(Latency)๊ฐ ํ๊ธฐ์ ์ผ๋ก ์ค์ด๋ค์ด ์ค์๊ฐ ์ด์์ด ๊ฐ๋ฅํด์ก์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
-
ํ๊ณ์ :
- ํ๋ จ์ ๋ณต์ก์ฑ: ๋ฉ์ธ ๋ชจ๋ธ ์ธ์ ์ธ์ด์ ๋น์ ์ ์ํ ๋ ๊ฐ์ ๋ณด์กฐ ๋์ฝ๋๋ฅผ ํจ๊ป ํ๋ จ์์ผ์ผ ํ๋ฏ๋ก, ๋ชจ๋ธ ํ์ต ํ์ดํ๋ผ์ธ์ด ๋ณต์กํ๊ณ ๊ณ์ฐ ๋น์ฉ์ด ๋ง์ด ๋ญ๋๋ค.
- ์์ ์์ธก์ ๋์ด๋: ๋ฏธ๋ ํ๋ ์์ ์ ํํ๊ฒ ์์ธกํ๋ ๊ฒ ์์ฒด๊ฐ ๋งค์ฐ ์ด๋ ค์ด ์์ ์ด๋ฏ๋ก, ํ์ต ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ๊ฑฐ๋ ๋๋ฌด ๋จผ ๋ฏธ๋๋ฅผ ์์ธกํ๋ ค ํ ๋ ์ฑ๋ฅ์ด ์ ํ๋ ์ ์์ต๋๋ค.
-
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ:
- ๋ ํจ์จ์ ์ธ ์ ์ฌ ํํ ํ์ต ๋ฐฉ๋ฒ์ ์ฐ๊ตฌํ์ฌ ๋ณด์กฐ ๋์ฝ๋์ ๋ถ๋ด์ ์ค์ผ ์ ์์ต๋๋ค.
- ๋จ์ํ ๋ฏธ๋ ํ๋ ์์ ์์ธกํ๋ ๊ฒ์ ๋์ด, ๋ ์ถ์์ ์ธ ๋ฌผ๋ฆฌ ๋ฒ์น์ด๋ ๊ฐ์ฒด ๊ฐ์ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ฅ๋ ์ ์์ต๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
- ์ ์ฉ ๋ถ์ผ: ์ค์๊ฐ ๋ฐ์์ด ํ์์ ์ธ ์์จ ์ฃผํ ์๋์ฐจ(Autonomous Vehicles) ๋ฐ ๋ก๋ด ๋ด๋น๊ฒ์ด์ ์์คํ ์ ์ฆ์ ์ ์ฉํ ์ ์์ต๋๋ค. ํนํ ์์ ์ฑ์ ์ํด ์ถ๋ก ๊ณผ์ ์ด ํฌ๋ช ํด์ผ ํ์ง๋ง(์ธ์ด ์ค๋ช ), ์๋๊ฐ ์ค์ํ ์ํฉ์์ ์ต์ ์ ์๋ฃจ์ ์ ๋๋ค.
- ํ์ํ ๋ฆฌ์์ค:
- GPU: Qwen3-VL-4B์ ๊ฐ์ ๋๊ท๋ชจ ๋น์ -์ธ์ด ๋ชจ๋ธ(VLM)์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ํ๋ จ ์ ๋ ๊ฐ์ ์ถ๊ฐ ๋์ฝ๋๋ฅผ ๋๋ ค์ผ ํ๋ฏ๋ก ๊ณ ์ฌ์ GPU(A100 ์ด์) ํด๋ฌ์คํฐ ํ๊ฒฝ์ด ํ์ํฉ๋๋ค.
- ๋ฐ์ดํฐ: ์์๋ฟ๋ง ์๋๋ผ ๋ฏธ๋ ํ๋ ์(Video) ๋ ์ด๋ธ๊ณผ ์ด์ ์ ๋ํ ํ ์คํธ ์ค๋ช (CoT)์ด ๋์์ ์กด์ฌํ๋ ๊ณ ํ์ง ๋ฐ์ดํฐ ์ธํธ๊ฐ ํ์ํฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- VLA (Vision-Language-Action Model): ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ์ดํดํ๊ณ , ๊ทธ ๋ฐํ์ผ๋ก ํ๋(์: ์๋์ฐจ์ ์กฐํฅ๊ฐ)์ ๊ฒฐ์ ํ๋ AI ๋ชจ๋ธ์ ๋๋ค.
- CoT (Chain-of-Thought): ๋ชจ๋ธ์ด ๋ต์ ๋ฐ๋ก ๋ด๋์ง ์๊ณ , ์ฌ๋์ฒ๋ผ ์ค๊ฐ ์๊ฐ ๋จ๊ณ๋ฅผ ๊ฑฐ์ณ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์ถ๋ก ๋ฐฉ์์ ๋๋ค.
- Latent Space (์ ์ฌ ๊ณต๊ฐ): ๋ฐ์ดํฐ๋ฅผ ์์ถํ์ฌ ์ ์ฅํ ์ถ์์ ์ธ ๊ณต๊ฐ์ผ๋ก, ์ฌ๋์ด ์ง์ ํด์ํ๊ธฐ๋ ์ด๋ ต์ง๋ง ์ปดํจํฐ๊ฐ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
- Autoregressive (์๊ธฐํ๊ท): ์ด์ ์ ์์ฑํ ํ ํฐ์ ๋ฐํ์ผ๋ก ๋ค์ ํ ํฐ์ ์์ฐจ์ ์ผ๋ก ์์ฑํ๋ ๋ฐฉ์์ผ๋ก, ์๋๊ฐ ๋๋ฆฐ ๋จ์ ์ด ์์ต๋๋ค.
- World Model (์ธ๊ณ ๋ชจ๋ธ): ํ๊ฒฝ์ ์ํ ๋ณํ๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ๋ก, ํ์ฌ ์ํ์์ ์ด๋ค ํ๋์ ์ทจํ์ ๋ ๋ฏธ๋์ ์ด๋ค ์ผ์ด ์ผ์ด๋ ์ง ์๋ฎฌ๋ ์ด์ ํ ์ ์๊ฒ ํด์ค๋๋ค.
- Fine-tuning: ์ด๋ฏธ ํ์ต๋ ๋๊ท๋ชจ ๋ชจ๋ธ์ ํน์ ์์ ์ด๋ ๋ฐ์ดํฐ์ ๋ง์ถฐ ์ถ๊ฐ๋ก ํ์ต์ํค๋ ๊ณผ์ ์ ๋๋ค.
- Decoder (๋์ฝ๋): ์์ถ๋๊ฑฐ๋ ์ธ์ฝ๋ฉ๋ ์ ๋ณด๋ฅผ ์๋์ ์๋ฏธ ์๋ ๋ฐ์ดํฐ(ํ ์คํธ, ์ด๋ฏธ์ง ๋ฑ)๋ก ๋ณต์ํ๋ ์ ๊ฒฝ๋ง ๋ถ๋ถ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Tstars-Tryon 1.0: Robust and Realisโฆ | DD-072 |
| ๐ฅ | LLaDA2.0-Uni: Unifying Multimodal Uโฆ | DD-073 |
| ๐ฅ | AgentSPEX: An Agent SPecification aโฆ | DD-074 |
| 4. | Extending One-Step Image Generationโฆ | DD-075 |
| 5. | OneVL: One-Step Latent Reasoning anโฆ | ๐ ํ์ฌ ๋ฌธ์ |
๐ ์์ฑ์ผ: 2026-04-26 | ๐ค GLM-4.7 Deep Dive