โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-063 Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

arXiv: 2604.05015 ๊ธฐ๊ด€: MME-Benchmarks Upvotes: 225 | Comments: 8 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 5


๋…ผ๋ฌธ ๋ฆฌ๋ทฐ: Video-MME-v2

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ๋น„๋””์˜ค ์ดํ•ด ๋ฒค์น˜๋งˆํฌ๋Š” ๋ชจ๋ธ์ด ๋‹จ์ˆœํžˆ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์•”๊ธฐํ•˜์—ฌ ์ ์ˆ˜๋ฅผ ๋†’์ด๋Š” ๋ฌธ์ œ๊ฐ€ ์‹ฌ๊ฐํ–ˆ์œผ๋ฉฐ, ์ด๋กœ ์ธํ•ด ๋ฆฌ๋”๋ณด๋“œ์˜ ์ ์ˆ˜์™€ ์‹ค์ œ ์„ฑ๋Šฅ ๊ฐ„์— ํฐ ๊ดด๋ฆฌ๊ฐ€ ์กด์žฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ 2025๋…„ ์ดํ›„์˜ ์ตœ์‹  ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ ์œ ์ถœ์„ ์ฐจ๋‹จํ•˜๊ณ , ๋‹จ์ˆœ ์ •๋‹ต ๋งžํžˆ๊ธฐ๋ฅผ ๋„˜์–ด ์ผ๊ด€์„ฑ๊ณผ ๋…ผ๋ฆฌ์  ์—ฐ๊ฒฐ๊ณ ๋ฆฌ๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์ƒˆ๋กœ์šด ํ‰๊ฐ€ ์ฒด๊ณ„๋ฅผ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋น„๋””์˜ค ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ์ด ์‹ค์ œ ๋ณต์žกํ•œ ํ˜„์‹ค ์„ธ๊ณ„์—์„œ ์–ผ๋งˆ๋‚˜ ๊ฒฌ๊ณ ํ•˜๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ํŒ๋‹จํ•˜๋Š” ์ค‘์š”ํ•œ ๊ธฐ์ค€์ด ๋ฉ๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ : ๋ฉด์ ‘ ์‹œํ—˜์˜ ์ง„ํ™”

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์„ ์ดํ•ดํ•˜๋ ค๋ฉด ๊ธฐ์กด์˜ ํ‰๊ฐ€ ๋ฐฉ์‹์„ โ€˜์•”๊ธฐ ๊ณผ๋ชฉ ์‹œํ—˜โ€™์œผ๋กœ, ์ƒˆ๋กœ์šด ๋ฐฉ์‹์„ โ€˜๊นŠ์ด ์žˆ๋Š” ๋ฉด์ ‘ ์‹œํ—˜โ€™์œผ๋กœ ์ƒ๊ฐํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ๋Š” ๋‹จ์ˆœํžˆ โ€œ์ด ๋™๋ฌผ์˜ ์ด๋ฆ„์€ ๋ฌด์—‡์ธ๊ฐ€?โ€ ๊ฐ™์€ ๋‹จํŽธ์ ์ธ ์งˆ๋ฌธ์„ ๋˜์ ธ ์ •๋‹ต๋งŒ ๋งžํžˆ๋ฉด ์ ์ˆ˜๋ฅผ ์คฌ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ•™์ƒ์ด ๋ชจ๋ฅด๊ณ ์„œ ์ฐ์–ด ๋งžํžˆ๊ฑฐ๋‚˜, ์ด๋ฏธ ๋ณธ ๋ฌธ์ œ์—ฌ์„œ ๋งžํž ๊ฐ€๋Šฅ์„ฑ์ด ์ปธ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, Video-MME-v2๋Š” ๋ฉด์ ‘๊ด€์ด ์—ฐ๊ด€ ์งˆ๋ฌธ์„ ๊ณ„์† ๋˜์ง€๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. โ€œ๋น„๊ฐ€ ์˜ค๊ณ  ์žˆ๋‚˜์š”?โ€๋ผ๊ณ  ๋ฌผ์€ ๋’ค, โ€œ๊ทธ๋ ‡๋‹ค๋ฉด ์ฃผ์ธ๊ณต์ด ์šฐ์‚ฐ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‚˜์š”?โ€, โ€œ์™œ ์šฐ์‚ฐ์„ ํŽด์ง€ ์•Š์•˜์„๊นŒ์š”?โ€๋ผ๊ณ  ์ด์–ด์ง€๋Š” ์งˆ๋ฌธ๋“ค์„ ํ†ตํ•ด ์‘๋‹ต์˜ ๋…ผ๋ฆฌ์  ์ผ๊ด€์„ฑ์„ ๊ฒ€์ฆํ•ฉ๋‹ˆ๋‹ค. ๋‹จ์ˆœํžˆ ์šฐ์‚ฐ์ด ์žˆ๋‹ค๊ณ  ๋‹ตํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋น„๊ฐ€ ์˜จ๋‹ค๋Š” ์ „์ œ์™€ ์—ฐ๊ฒฐ๋˜์–ด ๋‹ต๋ณ€ํ•ด์•ผ๋งŒ ์ ์ˆ˜๋ฅผ ๋ฐ›๋Š” ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ๋ฐฉ์‹

์ด ๋…ผ๋ฌธ์€ ๋ชจ๋ธ์˜ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์„ธ ๊ฐ€์ง€ ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋œ ๊ณ„๋‹จ(Hierarchy)์„ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค.

์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„์ธ Level 1(Visual Information Aggregation)์€ ๋ชจ๋ธ์ด ์˜์ƒ ์†์— ์žˆ๋Š” ์‚ฌ์‹ค๋“ค์„ ์ •ํ™•ํžˆ ํŒŒ์•…ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๋ด…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์˜์ƒ ์—ฌ๋Ÿฌ ๊ตฌ๊ฐ„์— ๊ฑธ์ณ ๋‚˜์˜ค๋Š” ์‚ฌ๊ณผ์˜ ๊ฐœ์ˆ˜๋ฅผ ์„ธ๊ฑฐ๋‚˜, ํŠน์ • ์ธ๋ฌผ์ด ์ž…์€ ์˜ท์˜ ์ƒ‰๊น”์„ ์‹๋ณ„ํ•˜๋Š” ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค. ์ด๊ฒƒ์€ ์˜์ƒ์˜ ํ”„๋ ˆ์ž„๋“ค์„ ํ›‘์–ด ํ•„์š”ํ•œ ์ •๋ณด๋ฅผ ๋ชจ์œผ๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค.

๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„์ธ Level 2(Temporal Dynamics)๋Š” ์‹œ๊ฐ„์˜ ํ๋ฆ„์— ๋”ฐ๋ฅธ ๋ณ€ํ™”๋ฅผ ์ดํ•ดํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ…Œ์ŠคํŠธํ•ฉ๋‹ˆ๋‹ค. โ€œ์š”๋ฆฌ์‚ฌ๊ฐ€ ์–‘ํŒŒ๋ฅผ ์ฌ ๋‹ค์Œ์— ํŒฌ์— ๋„ฃ์—ˆ๋Š”๊ฐ€?โ€์™€ ๊ฐ™์ด ์‚ฌ๊ฑด์˜ ์ˆœ์„œ๋‚˜ ์ธ๊ณผ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋‹จ์ˆœํžˆ ์–‘ํŒŒ์™€ ํŒฌ์ด ์žˆ๋Š”์ง€๊ฐ€ ์•„๋‹ˆ๋ผ, ์•ž๋’ค ์ƒํ™ฉ์„ ์—ฐ๊ฒฐํ•˜์—ฌ ๋™์ž‘์˜ ํ๋ฆ„์„ ์ฝ์–ด๋‚ด๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค.

์„ธ ๋ฒˆ์งธ ๋‹จ๊ณ„์ธ Level 3(Complex Reasoning)์€ ๊ฐ€์žฅ ์–ด๋ ค์šด ๋‹จ๊ณ„๋กœ, ๋ฌผ๋ฆฌ ๋ฒ•์น™์ด๋‚˜ ์‚ฌํšŒ์  ์ง€๋Šฅ์„ ํ•„์š”๋กœ ํ•˜๋Š” ๋ณตํ•ฉ์ ์ธ ์ถ”๋ก ์„ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค. ์˜์ƒ ์† ์ธ๋ฌผ์ด ์™œ ํŠน์ • ํ–‰๋™์„ ํ–ˆ๋Š”์ง€ ๊ทธ ๋™๊ธฐ๋ฅผ ์œ ์ถ”ํ•˜๊ฑฐ๋‚˜, ๋ณต์žกํ•œ ์ค„๊ฑฐ๋ฆฌ์˜ ๊ฒฐ๋ง์„ ์˜ˆ์ธกํ•˜๋Š” ๋“ฑ ์‹ค์ œ ์ธ๊ฐ„์ฒ˜๋Ÿผ ์ƒ๊ฐํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜: ๊ทธ๋ฃน ๊ธฐ๋ฐ˜ ๋น„์„ ํ˜• ํ‰๊ฐ€ ์ „๋žต

๊ฐ€์žฅ ํ˜์‹ ์ ์ธ ๋ถ€๋ถ„์€ ํ‰๊ฐ€ ์ ์ˆ˜๋ฅผ ๋งค๊ธฐ๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์—๋Š” ๋ฌธ์ œ๋‹น ์ •๋‹ต/์˜ค๋‹ต๋งŒ ๊ณ„์‚ฐํ–ˆ๋‹ค๋ฉด, ์ด ๋…ผ๋ฌธ์€ ์„œ๋กœ ์—ฐ๊ด€๋œ ์งˆ๋ฌธ๋“ค์˜ ๋ฌถ์Œ(Group)์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ๋งŒ์•ฝ ์—ฐ๊ด€๋œ ์งˆ๋ฌธ A์™€ B๊ฐ€ ์žˆ๋Š”๋ฐ, ๋…ผ๋ฆฌ์ ์œผ๋กœ A๊ฐ€ ์ฐธ์ด์–ด์•ผ B๊ฐ€ ์ฐธ์ด ๋˜๋Š” ๊ตฌ์กฐ๋ผ๋ฉด, ๋ชจ๋ธ์ด B๋ฅผ ๋งžํ˜”๋”๋ผ๋„ A๋ฅผ ํ‹€๋ ธ๋‹ค๋ฉด B์˜ ์ ์ˆ˜๋ฅผ ๊นŽ๊ฑฐ๋‚˜ ์ธ์ •ํ•˜์ง€ ์•Š๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ฆ‰, ์ฐ๊ธฐ๋กœ ๋งž์ถ”๊ฑฐ๋‚˜ ์šฐ์—ฐํžˆ ๋งž์ถ˜ ์ •๋‹ต์„ ๋ฐฉ์ง€ํ•˜๊ณ , ๋‹ต๋ณ€ ์ „์ฒด์˜ ์ผ๊ด€์„ฑ(Coherence)์„ ๊ฐ•์ œํ•˜์—ฌ ์ง„์งœ ์ดํ•ด๋ ฅ์„ ์ธก์ •ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์ด ๋…ผ๋ฌธ์˜ ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ์ฃผ๋กœ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์˜ ์—„๊ฒฉํ•จ๊ณผ ์ƒˆ๋กœ์šด ํ‰๊ฐ€ ๋ฐฉ์‹์ด ๊ฐ€์ ธ์˜ค๋Š” ์ˆœ์œ„ ๋ณ€ํ™”์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๋จผ์ €, ๋ฒค์น˜๋งˆํฌ์˜ ๊ฒฌ๊ณ ํ•จ์„ ์œ„ํ•ด 12๋ช…์˜ ํ‰๊ฐ€์ž์™€ 50๋ช…์˜ ๊ฒ€ํ† ์ž๊ฐ€ ์ด 3,300์‹œ๊ฐ„์ด ๋„˜๋Š” ์‹œ๊ฐ„์„ ํˆฌ์žํ•˜์—ฌ ๊ณ ํ’ˆ์งˆ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด 800๊ฐœ์˜ ์˜์ƒ์ด ์ˆ˜์ง‘๋˜์—ˆ์œผ๋ฉฐ, ๊ฐ ์˜์ƒ๋‹น 4๊ฐœ์˜ ์งˆ๋ฌธ๊ณผ 8๊ฐœ์˜ ์„ ํƒ์ง€๊ฐ€ ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ์˜ ๊ฐ€์žฅ ํฐ ํŠน์ง•์€ โ€˜์ตœ์‹ ์„ฑโ€™์ž…๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ์œ ์ถœ(Contamination)์„ ๋ง‰๊ธฐ ์œ„ํ•ด ์ „์ฒด ์˜์ƒ์˜ 80% ์ด์ƒ์ด 2025๋…„ ์ดํ›„์— ์ œ์ž‘๋œ ์ฝ˜ํ…์ธ ์ด๋ฉฐ, ๊ทธ์ค‘ 40%๋Š” 2025๋…„ 10์›” ์ดํ›„์˜ ๋ฐ์ดํ„ฐ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ํ˜„์žฌ ์กด์žฌํ•˜๋Š” ๋Œ€๋ถ€๋ถ„์˜ ๋ชจ๋ธ์ด ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ ์ ‘๊ทผํ•˜์ง€ ๋ชปํ–ˆ์„ ์˜์ƒ๋“ค์ด๋ผ๋Š” ๊ฒƒ์„ ๋ณด์žฅํ•˜๋ฉฐ, ๋‹จ์ˆœ ์•”๊ธฐ๊ฐ€ ์•„๋‹Œ ์‹ค์ œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์ธก์ •ํ•˜๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

๋˜ํ•œ, ์นดํ…Œ๊ณ ๋ฆฌ๋ณ„๋กœ ์Šคํฌ์ธ , ๋ผ์ดํ”„์Šคํƒ€์ผ, ์˜ˆ์ˆ , ์ง€์‹ ๋“ฑ 4๊ฐ€์ง€ ์ƒ์œ„ ๋„๋ฉ”์ธ๊ณผ 31๊ฐœ์˜ ์„ธ๋ถ€ ํ•˜์œ„ ์นดํ…Œ๊ณ ๋ฆฌ๋กœ ๋‚˜๋ˆ„์–ด ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์„ ํ™•๋ณดํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ€๋ถ„์—์„œ๋Š” Gemini๋‚˜ GPT-5 ๊ฐ™์€ ์ตœ์‹  ๋ชจ๋ธ๋“ค์ด ํ…Œ์ŠคํŠธ๋˜์—ˆ์œผ๋ฉฐ, ์ด๋“ค์€ ์ œํ•œ๋œ API ํ”„๋ ˆ์ž„ ์ˆ˜(์˜ˆ: GPT-5๋Š” 50 ํ”„๋ ˆ์ž„) ๋‚ด์—์„œ ์ž…๋ ฅ์„ ์ฒ˜๋ฆฌํ•ด์•ผ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์€ ์ด๋Ÿฌํ•œ ์—„๊ฒฉํ•œ ์กฐ๊ฑด ํ•˜์—์„œ ๋ชจ๋ธ๋“ค์ด ๊ธฐ์กด ๋ฐฉ์‹๋ณด๋‹ค ์ƒˆ๋กœ์šด ๊ทธ๋ฃน ๊ธฐ๋ฐ˜ ํ‰๊ฐ€์—์„œ ์ ์ˆ˜๊ฐ€ ๋‚ฎ์•„์ง€๊ฑฐ๋‚˜, ์‹ค์ œ ๋Šฅ๋ ฅ์— ๊ฐ€๊นŒ์šด ์ˆœ์œ„๊ฐ€ ์žฌ์ •๋ ฌ๋จ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ ๋ฒค์น˜๋งˆํฌ์˜ ์œ ํšจ์„ฑ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๋“ค์€ ๋…ผ๋ฌธ์—์„œ API ์ œ์•ฝ์œผ๋กœ ์ธํ•ด ์ผ๋ถ€ ์ตœ์‹  ๋ชจ๋ธ(์˜ˆ: Gemini, GPT-5)์„ ํ…Œ์ŠคํŠธํ•  ๋•Œ ํ”„๋ ˆ์ž„ ์ˆ˜๋ฅผ 60๊ฐœ๋‚˜ 50๊ฐœ๋กœ ์••์ถ•ํ•ด์•ผ ํ–ˆ์Œ์„ ์–ธ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ์˜์ƒ์˜ ๋ชจ๋“  ์„ธ๋ฐ€ํ•œ ๋ถ€๋ถ„์„ ๋ณด์ง€ ๋ชปํ•˜๊ณ  ์š”์•ฝ๋ณธ๋งŒ ๋ณด๊ณ  ๋‹ตํ•ด์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•˜๋ฉฐ, ๊ธด ์˜์ƒ(Long-context video)์— ๋Œ€ํ•œ ์™„์ „ํ•œ ์ดํ•ด ํ‰๊ฐ€์—๋Š” ์—ฌ์ „ํžˆ ๊ธฐ์ˆ ์  ํ•œ๊ณ„๊ฐ€ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์œผ๋กœ๋Š” ๋ชจ๋ธ์ด ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ํ”„๋ ˆ์ž„ ์ˆ˜ ์ œํ•œ์ด ํ•ด๊ฒฐ๋จ์— ๋”ฐ๋ผ, ๋” ๊ธด ์˜์ƒ๊ณผ ๋” ๋†’์€ ํ•ด์ƒ๋„๋ฅผ ํฌํ•จํ•œ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ™•์žฅํ•  ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ˜„์žฌ๋Š” ์ •๋‹ต์„ ์„ ํƒํ•˜๋Š” ๊ฐ๊ด€์‹ ์œ„์ฃผ์ด์ง€๋งŒ, ์ƒ์„ฑํ˜• ๋ชจ๋ธ์˜ ํŠน์„ฑ์„ ์‚ด๋ ค ์„œ์ˆ ํ˜• ๋‹ต๋ณ€์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ‰๊ฐ€ ์ „๋žต์„ ๋ฐœ์ „์‹œํ‚ค๋Š” ๊ฒƒ์ด ํ•„์š”ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์ด ๋ฒค์น˜๋งˆํฌ๋Š” AI ๊ฐœ๋ฐœ ํ˜„์žฅ์—์„œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๊ฒ€์ฆํ•˜๋Š” ํ‘œ์ค€ ์ ˆ์ฐจ๋กœ ์ฆ‰๊ฐ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๊ธˆ์œต ๊ฐ์‹œ๋‚˜ ๋ณด์•ˆ(CCTV) ๋ถ„์•ผ์—์„œ ๋‹จ์ˆœํžˆ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด, ์‚ฌ๊ฑด์˜ ์ „๋ง๊ณผ ์ธ๊ณผ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•ด์•ผ ํ•˜๋Š” ์‹œ์Šคํ…œ์„ ๊ฐœ๋ฐœํ•  ๋•Œ ์ด ํ‰๊ฐ€ ๊ธฐ์ค€์„ ํ™œ์šฉํ•˜๋ฉด ๋ชจ๋ธ์˜ ์‹ ๋ขฐ์„ฑ์„ ํฌ๊ฒŒ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋˜ํ•œ, ๋™์˜์ƒ ์ŠคํŠธ๋ฆฌ๋ฐ ํ”Œ๋žซํผ์ด๋‚˜ ๊ต์œก ์ฝ˜ํ…์ธ  ์ถ”์ฒœ ์‹œ์Šคํ…œ์„ ๊ตฌ์ถ•ํ•  ๋•Œ๋„ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค. ์˜์ƒ์˜ ๋‚ด์šฉ์„ ๊นŠ์ด ์žˆ๊ฒŒ ์ดํ•ดํ•˜์ง€ ๋ชปํ•˜๋ฉด ์—‰๋šฑํ•œ ์ถ”์ฒœ์„ ํ•˜๋Š”๋ฐ, ์ด ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ต๊ณผํ•œ ๋ชจ๋ธ์€ ์˜์ƒ์˜ ์ค„๊ฑฐ๋ฆฌ์™€ ๋งฅ๋ฝ์„ ์ •ํ™•ํžˆ ํŒŒ์•…ํ•˜์—ฌ ์‚ฌ์šฉ์ž์—๊ฒŒ ๋” ์ •๊ตํ•œ ์„œ๋น„์Šค๋ฅผ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ, ์ด ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ง์ ‘ ๊ตฌ๋™ํ•˜๋ ค๋ฉด ๊ณ ํ’ˆ์งˆ์˜ ์˜์ƒ ๋ฐ์ดํ„ฐ์™€ ์ธ๋ ฅ์ด ํˆฌ์ž…๋œ ์ •๋‹ต์ง€๊ฐ€ ํ•„์š”ํ•˜๋ฏ€๋กœ, ์ดˆ๊ธฐ ์„ธํŒ…์—๋Š” ์ƒ๋‹นํ•œ ๋ฆฌ์†Œ์Šค๊ฐ€ ํˆฌ์ž…๋˜์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • ๋น„๋””์˜ค ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(Video MLLM): ํ…์ŠคํŠธ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค, ๋น„๋””์˜ค ๋“ฑ ๋‹ค์–‘ํ•œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ ์œ ์ถœ(Data Contamination): ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ฌ ๋•Œ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์–ด, ๋ชจ๋ธ์ด ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”๋ก ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์ด๋ฏธ ๋ณธ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ์–ตํ•ด ๋‚ด์–ด ์ •๋‹ต์„ ๋งžํžˆ๋Š” ํ˜„์ƒ์ž…๋‹ˆ๋‹ค.
  • ์‹œ๊ฐ„์  ์ถ”๋ก (Temporal Reasoning): ๋‹จ์ˆœํžˆ ์ •์ ์ธ ์ด๋ฏธ์ง€๋ฅผ ๋ณด๋Š” ๊ฒƒ์„ ๋„˜์–ด, ์‹œ๊ฐ„์˜ ํ๋ฆ„์— ๋”ฐ๋ผ ์‚ฌ๊ฑด์ด ์–ด๋–ป๊ฒŒ ์ „๊ฐœ๋˜๊ณ  ์›์ธ๊ณผ ๊ฒฐ๊ณผ๊ฐ€ ๋ฌด์—‡์ธ์ง€๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๋Šฅ๋ ฅ์ž…๋‹ˆ๋‹ค.
  • ์ œ๋กœ์ƒท ํ•™์Šต(Zero-shot Learning): ๋ชจ๋ธ์ด ํŠน์ • ์ž‘์—…์— ๋Œ€ํ•œ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋ณธ ์  ์—†์ง€๋งŒ, ์‚ฌ์ „ ํ•™์Šต๋œ ์ง€์‹์„ ๋ฐ”ํƒ•์œผ๋กœ ์ƒˆ๋กœ์šด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
  • ์ ๋Œ€์  ์˜ต์…˜(Adversarial Options): ๋ชจ๋ธ์ด ํ•จ์ •์— ๋น ์ง€๊ธฐ ์‰ฌ์šด, ๊ฒ‰๋ณด๊ธฐ์—๋Š” ๊ทธ๋Ÿด์‹ธํ•˜์ง€๋งŒ ์˜ค๋‹ต์ธ ์„ ํƒ์ง€๋ฅผ ์˜๋„์ ์œผ๋กœ ๋งŒ๋“ค์–ด ๋ชจ๋ธ์˜ ์ดํ•ด๋„๋ฅผ ์—„๊ฒฉํ•˜๊ฒŒ ํ…Œ์ŠคํŠธํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
  • ์ผ๊ด€์„ฑ(Consistency): ๋ชจ๋ธ์ด ๋‹ต๋ณ€ํ•˜๋Š” ๊ณผ์ •์—์„œ ์•ž๋’ค ๋ฌธ๋งฅ์ด๋‚˜ ๋…ผ๋ฆฌ๊ฐ€ ์„œ๋กœ ๋ชจ์ˆœ๋˜์ง€ ์•Š๊ณ  ์ผ์น˜ํ•˜๋Š” ์„ฑ์งˆ์„ ๋งํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Adamโ€™s Law: Textual Frequency Law oโ€ฆDD-062
๐ŸฅˆGrandCode: Achieving Grandmaster Leโ€ฆDD-061
๐Ÿฅ‰Rethinking Generalization in Reasonโ€ฆDD-066
4.InCoder-32B-Thinking: Industrial Coโ€ฆDD-064
5.Video-MME-v2: Towards the Next Stagโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-04-12 | ๐Ÿค– GLM-4.7 Deep Dive