โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-063 Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding
arXiv: 2604.05015 ๊ธฐ๊ด: MME-Benchmarks Upvotes: 224 | Comments: 8 ์์: ์ด๋ฒ ์ฃผ Top 3
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๋น๋์ค ์ดํด ๋ฒค์น๋งํฌ๋ค์ ๋ฌธ์ ๊ฐ ๋๋ฌด ์ฝ๊ณ ๋จํธ์ ์ด๋ผ์, ๋ชจ๋ธ์ด ์์์ ์ง์ง๋ก ์ดํดํ๋์ง ์๋๋ฉด ๋จ์ํ ๋จ์ด๋ฅผ ๋ง์ถ๋ ์์ค(์ฐ๊ธฐ)์ธ์ง ๊ตฌ๋ณํ๊ธฐ ์ด๋ ต๋ค๋ ์น๋ช ์ ์ธ ํ๊ณ๊ฐ ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ 2025๋ ์ดํ์ ์ต์ ์์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๊ณ ์ฐ๊ด๋ ์ง๋ฌธ๋ค์ ๊ทธ๋ฃน์ผ๋ก ๋ฌถ์ด ๋ฌป๋ ์๋ก์ด ํ๊ฐ ๋ฐฉ์์ ๋์ ํ์ฌ, ์ธ๊ณต์ง๋ฅ์ โ๋ถํ๋ ค์ง ์ ์โ๋ฅผ ๊ฑท์ด๋ด๊ณ ์ค์ ๋น๋์ค ์ถ๋ก ๋ฅ๋ ฅ์ ์๊ฒฉํ๊ฒ ๊ฒ์ฆํ ์ ์๋ ๊ธฐ์ค์ ๋ง๋ จํ๋ค๋ ์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ์ํ ๊ฐ๋ ์ ํ ์คํธํ๋ ๊ณผ์ ๊ณผ ๋น์ทํฉ๋๋ค. ๊ธฐ์กด ๋ฐฉ์์ ๋จ์ํ โ์ด ์ํ์ ๋ถ์ ์ฐจ๊ฐ ๋์ค๋์?โ๋ผ๊ณ ๋ฌผ์์ง๋ง, ์ด ๋ ผ๋ฌธ์ โ์ฃผ์ธ๊ณต์ด ์ฐจ๋ฅผ ํ๊ธฐ ์ ์ด๋ค ๊ฐ์ ์ด์๋์? ๊ทธ ์ฐจ๊ฐ ์ฌ๊ณ ๊ฐ ๋ ํ ์ด๋ป๊ฒ ๋ณํ๋์?โ๋ผ๊ณ ์ฐ์์ ์ผ๋ก ๋ฌผ์ด๋ด ๋๋ค.
์ด ์์คํ ์ ์ด 3๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. 1๋จ๊ณ๋ ์๊ฐ์ ์ ๋ณด ์์ง ๋จ๊ณ๋ก, ์ํ ์ ํน์ ์ฅ๋ฉด์ ์ฌ๋ฌผ์ด๋ ์๊น์ ์ ํํ ๋ณด๋ ๋ฅ๋ ฅ์ ๊ฒ์ฌํฉ๋๋ค. 2๋จ๊ณ๋ ์๊ฐ์ ํ๋ฆ ํ์ ๋จ๊ณ๋ก, ์ฌ๊ฑด์ ์๋ค ๊ด๊ณ๋ ์์๊ฐ ๋ฐ๋์ง ์์๋์ง ํ์ธํฉ๋๋ค. ๋ง์ง๋ง 3๋จ๊ณ๋ ๋ณตํฉ์ ์ถ๋ก ๋จ๊ณ๋ก, ๋ฑ์ฅ์ธ๋ฌผ์ ์ฌํ์ ๊ด๊ณ๋ ๋ฌผ๋ฆฌ ๋ฒ์น ์๋ฐ ์ฌ๋ถ ๋ฑ ๊น์ด ์๋ ์ดํด๊ฐ ํ์ํ ์ง๋ฌธ์ ๋์ง๋๋ค.
๊ฐ์ฅ ๋ ์ฐฝ์ ์ธ ๋ถ๋ถ์ โ๊ทธ๋ฃน ๊ธฐ๋ฐ ๋น์ ํ ํ๊ฐ ์ ๋ตโ์ ๋๋ค. ์ด๋ ๋ฒ์ ์์ ์ฆ์ธ ์ฌ๋ฌธ์ ํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ์ง๋ฌธ A์ ๋ํด ๋ตํ๋ค๋ฉด, ์ง๋ฌธ B์ C์์ ๊ทธ ๋ต๊ณผ ๋ชจ์๋๋ ๋ง์ ํ๋ฉด ์ ๋ฉ๋๋ค. ๋จ์ํ ์ ๋ต์ ๋งํ๋ ๊ฒ๋ณด๋ค ๋ต๋ณ ๊ฐ์ ์ผ๊ด์ฑ๊ณผ ๋ ผ๋ฆฌ์ ํ๋น์ฑ์ด ์์ผ๋ฉด ๊ฐ์ ์ ์ฃผ๋ ๋ฐฉ์์ ํตํด ์ฐ์ฐํ ๋งํ๋ ๊ฒฝ์ฐ๋ฅผ ์์ฒ์ ์ผ๋ก ์ฐจ๋จํฉ๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ์ ์์์ด๋ผ๊ธฐ๋ณด๋ค๋ ํ๊ฐ ๋ก์ง์ ๊ฐ๊น์ต๋๋ค. ๋ชจ๋ธ์ด ๋ด๋์ ๋ต๋ณ๋ค์ ์งํฉ์ ๋ชจ๋ธ๋งํ์ฌ, ๋ต๋ณ ๊ฐ์ ์๋ฆฝ ๊ฐ๋ฅ์ฑ(Consistency)์ ์ํ์ ์ผ๋ก ๊ณ์ฐํฉ๋๋ค. ๋ง์ฝ ์ง๋ฌธ 1์์ โ๋จ์๊ฐ ๋จผ์ ๋๊ฐ๋คโ๊ณ ๋ตํ๋๋ฐ ์ง๋ฌธ 2์์ โ์ฌ์๊ฐ ๋จผ์ ๋์๋คโ๊ณ ๋ตํ๋ค๋ฉด, ๊ฐ๋ณ ์ ๋ต ์ฌ๋ถ์ ์๊ด์์ด ์ ์ฒด์ ์ธ ์ถ๋ก ์ ๋ขฐ๋ ์ ์๋ฅผ ํฌ๊ฒ ๋ฎ์ถ๋ ๋ฐฉ์์ ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ด ๋ ผ๋ฌธ์ ์๋ก์ด โVideo-MME-v2โ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ์ฌ ์คํ์ ์งํํ์ต๋๋ค. 2025๋ ์ดํ์ ๊ณต๊ฐ๋ ์์ 800๊ฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ๋ก ๋ฏธ๋ฆฌ ๋ณด์ง ๋ชปํ์์ ๋ณด์ฅํ๊ณ , 12๋ช ์ ํ๊ฐ์์ 50๋ช ์ ๊ฒ์์๊ฐ ์ด 3,300์๊ฐ์ ๋ค์ฌ ์ ๊ตํ๊ฒ ๋ง๋ ๋ฐ์ดํฐ์ ๋๋ค.
์คํ ๊ฒฐ๊ณผ, ๊ธฐ์กด ๋ฒค์น๋งํฌ์์ ์ต๊ณ ์ฑ๋ฅ(SOTA)์ ๊ธฐ๋กํ๋ ๋ชจ๋ธ๋ค๋ ์ด๋ฒ ํ ์คํธ์์๋ ์ ์๊ฐ ํฌ๊ฒ ํ๋ฝํ์ต๋๋ค. ํนํ ๋จ์ ์ ๋ต๋ฅ (Accuracy)์ ๋์ง๋ง, ์ฐ์์ ์ธ ์ง๋ฌธ์ ๋ํ ์ผ๊ด์ฑ์ ์๊ตฌํ๋ ๋น์ ํ ํ๊ฐ์์๋ ์ฑ๋ฅ ๊ธ๋ฝ์ด ๋๋๋ฌ์ก์ต๋๋ค. ์ด๋ ๊ธฐ์กด ๋ฆฌ๋๋ณด๋ ์ ์๊ฐ ๋ชจ๋ธ์ ์ง์ง ๋ฅ๋ ฅ๋ณด๋ค ๊ณผ๋ํ๊ฐ๋์ด ์์์์ ์์ฌํฉ๋๋ค.
๋ํ, Gemini๋ GPT-5์ ๊ฐ์ ์ต์ ๋ชจ๋ธ๋ค์ ํ ์คํธํ ๊ฒฐ๊ณผ, ์ ๋ ฅ ํ๋ ์ ์์ ์ ํ(API ์ ์ฝ)์ด ์ฑ๋ฅ์ ํฐ ์ํฅ์ ๋ฏธ์น๋ค๋ ๊ฒ์ ๋ฐํ๋์ต๋๋ค. ์๋ฅผ ๋ค์ด, 50ํ๋ ์๋ง ์ ๋ ฅ๋ฐ์ GPT-5๋ณด๋ค ๋ ๋ง์ ํ๋ ์์ ์ฒ๋ฆฌํ ๋ชจ๋ธ์ด ๋ณต์กํ ์๊ฐ์ ์ถ๋ก ์์ ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ ๋ฑ, ์ฅ๊ธฐ ์์ ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ ์ค์์ฑ์ ํ์ธํ์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๋ค์ ํ์ฌ์ ๋ฒค์น๋งํฌ๊ฐ ์์ง ์๋ฒฝํ์ง ์์์ ์ธ์ ํฉ๋๋ค. ๊ฐ์ฅ ํฐ ํ๊ณ๋ API ํธ์ถ ๋น์ฉ๊ณผ ์๋ ์ ์ฝ ๋๋ฌธ์ ์์ฃผ ๊ธด ์์(์: ์ํ ์ ํธ)์ ์์ ํ ํ ์คํธํ๊ธฐ ์ด๋ ต๋ค๋ ์ ์ ๋๋ค. ๋ฐ๋ผ์ ์ผ๋ถ ๋ชจ๋ธ์ ํ๋ ์ ์ํ๋ง ๊ณผ์ ์์ ์ ๋ณด๋ฅผ ์์ด ์ฑ๋ฅ์ด ์ ํ๊ฐ๋ ์ ์์ต๋๋ค.
๋ํ, ํ๊ฐ์ ์ ํ์ฑ์ ์ํด ์ฌ๋์ด ์ง์ ๊ฒ์ํ๋ ๋ฐฉ์์ ์ทจํ๋๋ฐ, ์ด๋ ๋ฐ์ดํฐ์ ๊ท๋ชจ๋ฅผ ํค์ฐ๋ ๋ฐ ๋ง๋ํ ๋น์ฉ์ด ๋ ๋ค๋ ๋จ์ ์ด ์์ต๋๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ์ฌ๋์ ๊ฐ์ ์ ์ต์ํํ๋ฉด์๋ ๊ณ ํ์ง์ ํ๊ฐ๊ฐ ๊ฐ๋ฅํ ์๋ํ๋ ํ๊ฐ ์์ด์ ํธ๋ฅผ ๊ฐ๋ฐํ๊ฑฐ๋, ์ค๋์ค(Audio) ์์๊ฐ ์๊ฐ์ ์ถ๋ก ์ ๋ฏธ์น๋ ์ํฅ์ ๋ ์ฌ์ธต์ ์ผ๋ก ๋ถ์ํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ฅ๋ ๊ฒ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด ๊ธฐ์ ๊ณผ ํ๊ฐ ๋ฐฉ์์ ๊ณ ํ์ง์ ๋น๋์ค ๊ฒ์ ์๋น์ค๋ ๋ชจ๋ํฐ๋ง ์์คํ ์ ๋ง๋๋ ๋ฐ ๋ฐ๋ก ์ ์ฉํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ณด์ CCTV ์์์ ๋ถ์ํด์ โ์ด ์ฌ๋์ด ๊ฐ๋ฐฉ์ ๋ค๊ณ ์์ ๋ด๋ ค๋๊ณ ๋๊ฐ๋๊ฐ?โ๋ฅผ ํ๋จํ ๋, ๋จ์ํ ์ฌ๋์ด ์๋์ง ์๋์ง๋ฅผ ๋์ด ์ฌ๊ฑด์ ์๊ฐ์ ์ธ๊ณผ๊ด๊ณ๋ฅผ ์ ํํ ํ์ ํด์ผ ํ๋ฏ๋ก ์ด ๋ ผ๋ฌธ์ 2, 3๋จ๊ณ ํ๊ฐ ๊ธฐ์ค์ด ํตํฉ๋๋ค.
์ค๋ฌด์ ์ ์ฉํ๋ ค๋ฉด ๊ธด ์์์ ์ค์๊ฐ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋ ๊ณ ์ฑ๋ฅ GPU(์: A100 ์ด์)์ ์ถฉ๋ถํ ๋ฉ๋ชจ๋ฆฌ๊ฐ ํ์ํฉ๋๋ค. ๋ํ, ๋ชจ๋ธ์ด ํ์ตํ ๋ ๋จ์ํ ์ ๋ต ๋งํ๊ธฐ๊ฐ ์๋๋ผ ์ถ๋ก ์ ๊ณผ์ ์ ํ์ตํ๋๋ก ์ ๋ํ๋ ๋ฐ์ดํฐ์ ๊ตฌ์ถ ๊ธฐ์ ์ด ์๊ตฌ๋ฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ๋น๋์ค ๋ฉํฐ๋ชจ๋ฌ ๋ํ ์ธ์ด ๋ชจ๋ธ (Video MLLM): ํ ์คํธ๋ฟ๋ง ์๋๋ผ ์ด๋ฏธ์ง๋ ๋น๋์ค๋ฅผ ์ ๋ ฅ๋ฐ์ ์ดํดํ๊ณ ์ถ๋ก ํ ์ ์๋ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ ์๋ฏธํฉ๋๋ค.
- ๋ฐ์ดํฐ ์ ์ถ (Data Leakage): ๋ชจ๋ธ์ ํ๊ฐํ ๋ ์ฌ์ฉํ๋ ํ ์คํธ ๋ฐ์ดํฐ๊ฐ ๋ชจ๋ธ์ด ์ด๋ฏธ ํ์ตํ๋ ๋ฐ์ดํฐ์ ์ ์ฌํ์ฌ, ์ค์ ๋ฅ๋ ฅ๋ณด๋ค ์ ์๊ฐ ๋๊ฒ ๋์ค๋ ํ์์ ๋งํฉ๋๋ค.
- ์๊ฐ์ ์ถ๋ก (Temporal Reasoning): ์ฌ๊ฑด์ ์ ํ ๊ด๊ณ, ์์ธ๊ณผ ๊ฒฐ๊ณผ, ์์ ๋ฑ ์๊ฐ์ ํ๋ฆ์ ๊ธฐ๋ฐํ ๋ ผ๋ฆฌ์ ์๊ฐ์ ํ๋ ๋ฅ๋ ฅ์ ๋๋ค.
- ์ ๋ก ์ท ์ถ๋ก (Zero-shot Inference): ๋ชจ๋ธ์ด ํน์ ์์ ์ ๋ํด ์ถ๊ฐ ํ์ต ์์ด ๋ฐ๋ก ์ํํ๋ ๋ฅ๋ ฅ์ ๋ปํ๋ฉฐ, ์ต์ LLM ํ๊ฐ์์ ์ฃผ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
- ํ๋ ์ ์ํ๋ง (Frame Sampling): ๋น๋์ค๋ ์๋ง์ ์ด๋ฏธ์ง(ํ๋ ์)์ ์ฐ์์ด๋ฏ๋ก, ์ด๋ฅผ ๋ชจ๋ ์ฒ๋ฆฌํ๊ธฐ ์ด๋ ค์ธ ๋ ์ค์ํ ์๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ๋ฝ์๋ด๋ ๊ธฐ์ ์ ๋๋ค.
- ์ธ๊ณผ ๊ด๊ณ (Causality): ๋จ์ํ A ๋ค์์ B๊ฐ ๋์๋ค๋ ์๊ด๊ด๊ณ๊ฐ ์๋๋ผ, A๊ฐ ์์ธ์ด ๋์ด B๊ฐ ์ผ์ด๋ฌ๋ค๋ ์ธ๊ณผ์ ์ฐ๊ฒฐ๊ณ ๋ฆฌ๋ฅผ ์ดํดํ๋ ๊ฐ๋ ์ ๋๋ค.
- ๋ฉํฐ๋ชจ๋ฌ ์์กด์ฑ (Multimodal Dependence): ๋น๋์ค๋ฅผ ์ดํดํ ๋ ํ๋ฉด(์์)๊ณผ ์๋ฆฌ(์ค๋์ค), ์๋ง(ํ ์คํธ) ๋ฑ ์๋ก ๋ค๋ฅธ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ์ฌ ์ข ํฉ์ ์ผ๋ก ํ๋จํด์ผ ํ๋ ์ฑ์ง์ ๋งํฉ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | GrandCode: Achieving Grandmaster Leโฆ | DD-061 |
| ๐ฅ | Adamโs Law: Textual Frequency Law oโฆ | DD-062 |
| ๐ฅ | Video-MME-v2: Towards the Next Stagโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 4. | InCoder-32B-Thinking: Industrial Coโฆ | DD-064 |
| 5. | SkillClaw: Let Skills Evolve Collecโฆ | DD-065 |
๐ ์์ฑ์ผ: 2026-04-12 | ๐ค GLM-4.7 Deep Dive