โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-042 Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders
arXiv: 2603.06569 ๊ธฐ๊ด: Tencent Upvotes: 104 | Comments: 4 ์์: ์ด๋ฒ ์ฃผ Top 2
์๋ ํ์ธ์, AI/ML ์ ๋ฌธ๊ฐ๋ก์ ์ด ํฅ๋ฏธ๋ก์ด ๋ ผ๋ฌธ์ ์ฌ๋ ์๊ฒ ๋ถ์ํด ๋๋ฆฌ๊ฒ ์ต๋๋ค. ์ฃผ๋์ด ๊ฐ๋ฐ์๋ถ๋ค๋ ์ง๊ด์ ์ผ๋ก ์ดํดํ์ค ์ ์๋๋ก ์ด๋ ค์ด ๊ฐ๋ ์ ์ผ์์ ์ธ ๋น์ ๋ก ํ์ด์ ์ค๋ช ํ๊ฒ ์ต๋๋ค.
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ์๊ฐ ์ธ์ด ๋ชจ๋ธ(VLM)๋ค์ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ๋ฌด์์ ํค์ฐ๋ ๋ฐฉ์์ผ๋ก ์ฑ๋ฅ์ ๋์ฌ์๊ธฐ ๋๋ฌธ์, ์ค๋งํธํฐ์ด๋ ๋ก๋ด ๊ฐ์ ์ ์ ๋ ฅ ๊ธฐ๊ธฐ์ ํ์ฌํ๊ธฐ์๋ ๋๋ฌด ๋ฌด๊ฒ๊ณ ๋๋ ธ์ต๋๋ค. ๋ํ, ์ด๋ฏธ์ง๋ฅผ ์ดํดํ๊ธฐ ์ํด ๋ฐ๋์ CLIP์ด๋ SigLIP์ฒ๋ผ ๋ณ๋๋ก ๊ฑฐ๋ํ ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ ํ์ต๋ ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํด์ผ ํ๋ค๋ ๊ณ ์ ๊ด๋ ์ด ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ๊ฑฐ๋ํ ์๊ฐ ์ธ์ฝ๋ ์์ด๋ ์ธ์ด ๋ชจ๋ธ(LLM) ๊ตฌ์กฐ ์์ฒด๋ฅผ ํ์ฉํ์ฌ ํจ์ฌ ๊ฐ๋ณ๊ณ ํจ์จ์ ์ธ ๋ชจ๋ธ(Penguin-VL)์ ๋ง๋ค ์ ์์์ ์ฆ๋ช ํ์ผ๋ฉฐ, ์ด๋ก์จ ๋ชจ๋ฐ์ผ ๊ธฐ๊ธฐ์์๋ ๊ฐ๋ ฅํ ๋ฉํฐ๋ชจ๋ฌ AI๋ฅผ ๋๋ฆด ์ ์๋ ๊ธธ์ ์ด์์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ ๋ก ์ค๋ช
๊ธฐ์กด VLM์ โ๋ฒ์ญ๊ฐโ๋ฅผ ๊ณ ์ฉํ โ์์ค๊ฐโ๋ผ๊ณ ์๊ฐํด ๋ณด์ธ์. ์์ค๊ฐ(LLM)๋ ๊ธ์ ์ ์ฐ์ง๋ง, ๊ทธ๋ฆผ์ ๋ณผ ์ค ๋ชจ๋ฆ ๋๋ค. ๊ทธ๋์ ๊ทธ๋ฆผ์ ํด์ํด ์ฃผ๋ ์ ๋ฌธ ๋ฒ์ญ๊ฐ(Vision Encoder, ์: CLIP)๋ฅผ ๋ณ๋๋ก ๊ณ ์ฉํฉ๋๋ค. ์ด ๋ฒ์ญ๊ฐ๋ ๊ณ ์ฉ ๋น์ฉ์ด ๋น์ธ๊ณ (ํฐ ํ๋ผ๋ฏธํฐ), ๊ทธ๋ฆผ๋ง ๋ด ์๋ ํ ์คํธ๋ฅผ ๋ฒ์ญํด ์ค๋๋ค.
๋ฐ๋ฉด, ์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ Penguin-VL์ โ์ธ๊ตญ์ด๋ฅผ ๊ณต๋ถํ ์ฒ์ฌ ์์ค๊ฐโ์ ๊ฐ์ต๋๋ค. ์ด ์์ค๊ฐ๋ ๋ณ๋์ ๋ฒ์ญ๊ฐ ์์ด, ์์ ์ด ๊ฐ์ง ์ธ์ด์ ์ง๋ฅ(LLM ๊ตฌ์กฐ)์ ํ์ฉํด ๊ทธ๋ฆผ์ ์ง์ ์ดํดํฉ๋๋ค. ๋ง์น ์ธ์ด์ ๊ตฌ์กฐ๋ฅผ ์ดํดํ๋ฏ ์ด๋ฏธ์ง์ ํจํด์ ๋ถ์ํ๊ธฐ ๋๋ฌธ์, ์ค๊ฐ์ ๋ฒ์ญ ๊ณผ์ ์ด ์์ด ํจ์ฌ ํจ์จ์ ์ด๊ณ ๋น ๋ฆ ๋๋ค. ์ฆ, โ๋๋ ์ธ์ด์ฒ๋ผ ์ดํดํ์โ๋ ์ ๊ทผ ๋ฐฉ์์ ๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
- ์ด๋ฏธ์ง ํจ์นํ: ์ด๋ฏธ์ง๋ฅผ ์์ ์กฐ๊ฐ์ผ๋ก ๋๋๋๋ค. ์ด๊ฒ์ ๋จ์ด(Token) ์ชผ๊ฐ๋ ๊ฒ๊ณผ ๋๊ฐ์ด ์ทจ๊ธํฉ๋๋ค.
- LLM ๊ธฐ๋ฐ ๋น์ ์ธ์ฝ๋ฉ: ์ฌ๊ธฐ์ ํต์ฌ์ด ๋์ต๋๋ค. ๊ธฐ์กด์ ๋ณ๋ ์ธ์ฝ๋ ๋์ , ์ธ์ด ๋ชจ๋ธ๊ณผ ์ ์ฌํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง ๋คํธ์ํฌ๊ฐ ์ด ์ด๋ฏธ์ง ์กฐ๊ฐ๋ค์ ์ฝ์ด๋ค์ ๋๋ค. ์ธ์ด ๋ชจ๋ธ์ด ๋ฌธ๋งฅ์ ํ์ ํ๋ฏ, ์ด ๋คํธ์ํฌ๋ ์ด๋ฏธ์ง์ ๊ณต๊ฐ์ , ์๊ฐ์ ๋ฌธ๋งฅ์ ํ์ ํฉ๋๋ค.
- ํ ํฐ ํตํฉ: ์ฒ๋ฆฌ๋ ์ด๋ฏธ์ง ์ ๋ณด๋ ํ ์คํธ ํ ํฐ๊ณผ ๋์ผํ ํ์์ผ๋ก ๋ณํ๋ฉ๋๋ค.
- ์ถ๋ก : ๋ฉ์ธ ์ธ์ด ๋ชจ๋ธ์ด ํ ์คํธ์ ์ด๋ฏธ์ง ์ ๋ณด๋ฅผ ํฉ์ณ์ ์ง๋ฌธ์ ๋ตํ๊ฑฐ๋ ์ง์๋ฅผ ์ํํฉ๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ์ฌ์ ํ์ต๋ ๋๊ท๋ชจ ๋์กฐ ํ์ต(Contrastive Learning) ๋ชจ๋ธ์ ์์กดํ์ง ์๊ณ , LLM์ ๊ฐ์ค์น๋ฅผ ์ด๊ธฐํ๋ ์ํคํ ์ฒ ์ค๊ณ์ ํ์ฉํ์ฌ ๋น์ ์ธ์ฝ๋๋ฅผ ๊ตฌ์ถํ๋ค๋ ์ ์ ๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ํ ์คํธ์ ์๊ฐ ์ ๋ณด๋ฅผ ๋ ๋ฐ์ ํ๊ฒ ํตํฉํ ์ ์์ผ๋ฉฐ, ํ๋ผ๋ฏธํฐ ์๋ฅผ ํ๊ธฐ์ ์ผ๋ก ์ค์ด๋ฉด์๋ ์ฑ๋ฅ์ ์ ์งํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ด๋ค ๋ฒค์น๋งํฌ์์ ํ ์คํธํ๋๊ฐ?
์ฐ๊ตฌ์ง์ ์ด๋ฏธ์ง ์ดํด(InfoVQA, ChartQA, DocVQA, MathVista ๋ฑ)์ ๊ธด ์์ ๋ฐ ์๊ฐ์ ์ถ๋ก (MVBench, LongVideoBench, ActivityNet QA ๋ฑ)์ ํฌํจํ ๋ค์ํ ๋ฒค์น๋งํฌ์์ ๋ชจ๋ธ์ ํ ์คํธํ์ต๋๋ค. ํนํ ์ ์ ์ธ ์ด๋ฏธ์ง๋ฟ๋ง ์๋๋ผ ์๊ฐ์ ํ๋ฆ์ด ์๋ ๋น๋์ค ์ดํด ๋ฅ๋ ฅ๋ ์ค์ ์ ์ผ๋ก ํ๊ฐํ์ต๋๋ค.
๊ธฐ์กด SOTA(State-of-the-art) ๋๋น ์ผ๋ง๋ ์ข์์ก๋๊ฐ?
์ ๊ณต๋ ๋ฐ์ดํฐ์ ๋ฐ๋ฅด๋ฉด, ์ฝ 20์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ(2B)๋ฅผ ๊ฐ์ง Penguin-2B ๋ชจ๋ธ์ ๊ฒฝ์ ๋ชจ๋ธ๋ค์ธ SmolVLM2-2.2B, InternVL-3.5-2B, Qwen3VL-2B๋ฅผ ๋๋ถ๋ถ์ ํญ๋ชฉ์์ ์์๊ฑฐ๋ ๋๋ฑํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์๋ฅผ ๋ค์ด, InfoVQA์์ Penguin-2B๋ 70.8์ ์ ๊ธฐ๋กํ์ฌ Qwen3VL-2B์ 65.9์ ์ด๋ InternVL-3.5-2B์ 61.7์ ๋ณด๋ค ํ์ ํ ๋์ ์ ์๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ๋ํ, LongVideoBench ๊ฐ์ ์ฅ๊ธฐ ์์ ์ดํด ๊ณผ์ ์์๋ 54.5์ ์ผ๋ก ๋ค๋ฅธ ๊ฒฝ์ ๋ชจ๋ธ๋ค(์ฝ 21~34์ ์์ค)์ ์๋์ ์ธ ๊ฒฉ์ฐจ๋ก ์ด๊ฒผ์ต๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
๊ฐ์ฅ ์ธ์์ ์ธ ์ ์ ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์์์๋ ๋ถ๊ตฌํ๊ณ , ํนํ ๋ณต์กํ ๋ฌธ์ ํด์(ChartQA)์ด๋ ์ํ์ ์๊ฐ ์ถ๋ก (MathVista)์์ ๊ฐ๋ ฅํ ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์๋ค๋ ์ ์ ๋๋ค. ์ด๋ โ๊ฑฐ๋ ๋ชจ๋ธ๋ง์ด ์ข์ ์ฑ๋ฅ์ ๋ธ๋คโ๋ ํต๋ ์ ๊นจ๊ณ , ํจ์จ์ ์ธ ์ํคํ ์ฒ ์ค๊ณ๊ฐ ์ผ๋ง๋ ์ค์ํ์ง๋ฅผ ์ฆ๋ช ํ์ต๋๋ค. ํนํ ์์ ์ฒ๋ฆฌ์์์ ์ฐ์ํ ์ฑ๋ฅ์ ๊ธฐ์กด ์ด๋ฏธ์ง ์์ฃผ ๋ชจ๋ธ๋ค์ ์ฝ์ ์ ๊ทน๋ณตํ์์ ์์ฌํฉ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ
๊ธฐ์ ๋ฆฌํฌํธ์ ์ฑ๊ฒฉ์ ๋ช ์์ ์ธ ํ๊ณ์ ํํ์ ์ ์ง๋ง, ์ฐ๊ตฌ ์ ๋ฐ์์ ์์๋๋ ํ๊ณ๋ ์ด์ํ ๋ชจ๋ธ(์: 1B ์ดํ)์ผ๋ก ๊ฐ์๋ก ๋ฐ์ํ๋ ์ฑ๋ฅ ์ ํ ๋ฌธ์ ์ ๋๋ค. ๋ํ, ๋งค์ฐ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ ๋ ๋ฐ์ํ ์ ์๋ ๊ณ์ฐ ๋ณต์ก๋์ ์ถ๋ก ์๋ ๊ฐ์ ํธ๋ ์ด๋์คํ๋ ์ฌ์ ํ ์ต์ ํ๊ฐ ํ์ํ ์์ญ์ผ๋ก ๋ณด์ ๋๋ค.
๊ฐ์ ๊ฐ๋ฅํ ์
ํฅํ ์ฐ๊ตฌ์์๋ ์ด LLM ๊ธฐ๋ฐ ๋น์ ์ธ์ฝ๋๋ฅผ ๋ ์์ ๊ท๋ชจ์ ๋ชจ๋ธ(1B ๋๋ 0.5B)๋ก ์์ถํ๋ฉด์๋ ์ฑ๋ฅ์ ์ ์งํ๋ ๊ธฐ์ ์ด ํ์ํ ๊ฒ์ ๋๋ค. ๋ํ, ํ์ฌ์ ์ฑ๋ฅ์ด ์ฃผ๋ก ์์ ๋ฒค์น๋งํฌ ์ ์๋ก ๋ํ๋ ์์ผ๋ฏ๋ก, ์ค์ ์ฌ์ฉ์ ๊ฒฝํ(๋ํ์ ์์ฐ์ค๋ฌ์, ๋ณต์กํ ์ง์ ์ํ ๋ฅ๋ ฅ ๋ฑ)์ ํฅ์์ํค๊ธฐ ์ํ ์ ์ฑ์ ์ฐ๊ตฌ์ ์จ๋๋ฐ์ด์ค ๋๋ฐ์ด์ค์์์ ์ค์๊ฐ ์ถ๋ก ์ต์ ํ๊ฐ ์ด์ด์ง ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด๋์ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๊น?
์ด ๋ชจ๋ธ์ ๋ชจ๋ฐ์ผ ๊ธฐ๊ธฐ๋ ์ฃ์ง(Edge) ๋๋ฐ์ด์ค์ ๋ด์ฅ๋๋ AI ์ด์์คํดํธ๋ก ๊ฐ์ฅ ์ ํฉํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ์ฉ์๊ฐ ์ค๋งํธํฐ ์นด๋ฉ๋ผ๋ก ๋ณต์กํ ์ฐจํธ๋ฅผ ์ฐ๊ฑฐ๋ ๊ธด ์์์ ์ดฌ์ํ์ ๋, ์ธํฐ๋ท ์ฐ๊ฒฐ ์์ด๋ ๊ธฐ๊ธฐ ์์ฒด์ ์ผ๋ก ์ด๋ฅผ ๋ถ์ํ๊ณ ์์ฝํด ์ฃผ๋ โ๋ก์ปฌ ์คํ๋ผ์ธ AIโ ์๋น์ค์ ์ฆ์ ํ์ฉํ ์ ์์ต๋๋ค. ๋ํ, ์๋ฒ ๋น์ฉ์ด ์ค์ํ ์คํํธ์ ์ ์๋ฒ ์ฌ์ด๋ ๋ชจ๋ธ๋ก๋ ๋น์ฉ ํจ์จ์ฑ ๋๋ฌธ์ ๋งค์ฐ ๋งค๋ ฅ์ ์ ๋๋ค.
ํ์ํ ๋ฆฌ์์ค
ํ์ต์ ์ํด์๋ ๊ณ ํ์ง์ ์ด๋ฏธ์ง-ํ ์คํธ ์ ๋ฐ์ดํฐ์ ๊ณผ ๋น๋์ค ๋ฐ์ดํฐ์ ์ด ๋๋์ผ๋ก ํ์ํฉ๋๋ค. ์ถ๋ก ๋จ๊ณ์์๋ ๋ชจ๋ธ์ด ์๊ธฐ ๋๋ฌธ์(2B~8B ํ๋ผ๋ฏธํฐ), ๊ณ ์ฑ๋ฅ ์๋น์์ฉ GPU(์: NVIDIA RTM 4090 ์์ค)๋ ๋ฌผ๋ก , ์ต์ ์ค๋งํธํฐ์ด๋ ํ๋ธ๋ฆฟ์ ๋ค์ด๊ฐ๋ NPU(Neural Processing Unit)์์๋ ์ถฉ๋ถํ ๊ตฌ๋ ๊ฐ๋ฅํ ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค. ํนํ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ์ ์ด ์คํธ๋ฆฌ๋ฐ ์๋น์ค๋ ์ค์๊ฐ ๋ก๋ด ์ ์ด์๋ ์ ๋ฆฌํฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- VLM(Vision Language Model): ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๋์์ ์ดํดํ๊ณ ์ฒ๋ฆฌํ ์ ์๋ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ ๋๋ค. (์: GPT-4V)
- LLM(Large Language Model): ๋๋์ ํ ์คํธ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋์ด ์์ฐ์ด ์์ฑ ๋ฐ ์ดํด์ ํนํ๋ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ ๋๋ค.
- ์ธ์ฝ๋(Encoder): ์ ๋ ฅ ๋ฐ์ดํฐ(์ด๋ฏธ์ง, ํ ์คํธ ๋ฑ)๋ฅผ ์ปดํจํฐ๊ฐ ์ดํดํ ์ ์๋ ์ซ์ ํํ์ ๋ฒกํฐ๋ก ๋ณํํ๋ ์ ๊ฒฝ๋ง์ ํ ๋ถ๋ถ์ ๋๋ค.
- CLIP(Contrastive Language-Image Pre-training): ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ ์ฐ๊ฒฐํ์ฌ ํ์ตํ ์คํAI์ ๋ชจ๋ธ๋ก, ๋๋ถ๋ถ์ VLM์ด ์ด๋ฏธ์ง ์ดํด๋ฅผ ์ํด ๊ธฐ๋ณธ์ผ๋ก ์ฌ์ฉํ๋ ์ธ์ฝ๋์ ๋๋ค.
- ํ ํฐ(Token): ํ ์คํธ๋ ์ด๋ฏธ์ง ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ AI๊ฐ ์ฒ๋ฆฌํ๊ธฐ ์ํด ์๊ฒ ์ชผ๊ฐ ๊ธฐ๋ณธ ๋จ์์ ๋๋ค.
- ๋ฒค์น๋งํฌ(Benchmark): AI ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํ ํ์คํ๋ ํ ์คํธ ์ธํธ์ ๋๋ค. (์: MMBench, VQAv2)
- ์ฃ์ง ์ปดํจํ (Edge Computing): ํด๋ผ์ฐ๋๊ฐ ์๋ ๋ฐ์ดํฐ๊ฐ ์์ฑ๋๋ ํ์ฅ(์ค๋งํธํฐ, ์ฌ๋ฌผ์ธํฐ๋ท ๊ธฐ๊ธฐ ๋ฑ)์์ ์ง์ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ์ปดํจํ ๋ฐฉ์์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Geometry-Guided Reinforcement Learnโฆ | DD-041 |
| ๐ฅ | Penguin-VL: Exploring the Efficiencโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | OpenClaw-RL: Train Any Agent Simplyโฆ | DD-043 |
| 4. | Lost in Stories: Consistency Bugs iโฆ | DD-044 |
| 5. | Holi-Spatial: Evolving Video Streamโฆ | DD-045 |
๐ ์์ฑ์ผ: 2026-03-15 | ๐ค GLM-4.7 Deep Dive