โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-046 Demystifing Video Reasoning
arXiv: 2603.16870 ๊ธฐ๊ด: SenseNova Upvotes: 346 | Comments: 5 ์์: ์ด๋ฒ ์ฃผ Top 1
Demystifying Video Reasoning (๋ ผ๋ฌธ ๋ฆฌ๋ทฐ)
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ด ์๊ฐ ์์๋๋ก ํ๋ ์(Frame)์ ์์ฑํ๋ฉด์ ์ด์ผ๊ธฐ๋ฅผ ํ์ด๋๊ฐ๋ โํ๋ ์ ์ฐ์(Chain-of-Frames)โ ๋ฐฉ์์ผ๋ก ์ถ๋ก ํ๋ค๊ณ ๋ฏฟ์ด์์ผ๋, ์ด ๊ตฌ์กฐ์ ์ธ ํ๊ณ๋ฅผ ๋ช ํํ ๋ฐํ๋์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋ชจ๋ธ์ ์ค์ ์ถ๋ก ๋ฉ์ปค๋์ฆ์ด ๋จ์ํ ์๊ฐ ์์๊ฐ ์๋๋ผ, ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๋ โ๋ํจ์ ๋จ๊ณ(Diffusion Steps)โ ๋ด์์ ์ผ์ด๋๋ค๋ โ๋จ๊ณ ์ฐ์(Chain-of-Steps)โ๋ผ๋ ํ๊ธฐ์ ์ธ ์ฌ์ค์ ๋ฐ๊ฒฌํ์ต๋๋ค. ์ด ๋ฐ๊ฒฌ์ ๋น๋์ค ๋ชจ๋ธ์ด ์ด๋ป๊ฒ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋์ง ๊ทธ ์๋ฆฌ๋ฅผ ๊ท๋ช ํจ์ผ๋ก์จ, ํฅํ ๋ ๊ฐ๋ ฅํ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ง ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ์ค๊ณํ๋ ๋ฐ ์ค์ํ ์ด์ ํ๊ฐ ๋ฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ โ๋๋ ์๋ ๋ฐฉ์โ์ด ์ฐ๋ฆฌ์ ์๊ฐ๊ณผ ๋ค๋ฅด๋ค๋ ์ ์ ๋๋ค. ๊ธฐ์กด์ ํต๋ ์ธ โํ๋ ์ ์ฐ์(Chain-of-Frames, CoF)โ๋ ๋ชจ๋ธ์ด ์ฐ๋ฆฌ๊ฐ ์ํ๋ฅผ ๋ณด๋ฏ์ด ์ฒซ ๋ฒ์งธ ์ฅ๋ฉด์ ๋ณด๊ณ , ๊ทธ ๋ค์ ์ฅ๋ฉด์ ๋ณด๋ฉฐ ์์ฐจ์ ์ผ๋ก ๊ฒฐ๋ก ์ ๋ด๋ฆฐ๋ค๊ณ ๊ฐ์ ํ์ต๋๋ค. ํ์ง๋ง ์ด ๋ ผ๋ฌธ์ ์ด๋ฅผ ๋ฐ๋ฐํ๋ฉฐ โ๋จ๊ณ ์ฐ์(Chain-of-Steps, CoS)โ๋ผ๋ ์๋ก์ด ๊ฐ๋ ์ ์ ์ํฉ๋๋ค.
์ผ์์ํ ๋น์ : ๋ฏธ๋ก ์ฐพ๊ธฐ ๊ทธ๋ฆผ ๊ทธ๋ฆฌ๊ธฐ
์ด๋ฅผ ์ดํดํ๊ธฐ ์ํด ํ๊ฐ๊ฐ ๋ฏธ๋ก ์ฐพ๊ธฐ ๊ทธ๋ฆผ์ ๊ทธ๋ฆฐ๋ค๊ณ ์์ํด ๋ด ์๋ค.
- ๊ธฐ์กด ์๊ฐ (CoF): ํ๊ฐ๊ฐ ์ผ์ชฝ๋ถํฐ ์์ํด์ ์ค๋ฅธ์ชฝ์ผ๋ก ์ด๋ํ๋ฉฐ ๋ถ์ ๋๋ ์์๋๋ก ๊ธธ์ ์ฐพ์๊ฐ๋ ๊ฒ์ ๋๋ค. ๋ง์ฝ ์ค๊ฐ์ ๊ธธ์ ์๋ชป ๊ทธ๋ฆฌ๋ฉด ๋๊น์ง ๊ฐ์ผ ์ ์ ์์ต๋๋ค.
- ์ด ๋ ผ๋ฌธ์ ๋ฐ๊ฒฌ (CoS): ํ๊ฐ๊ฐ ๋จผ์ ์ค์ผ์น๋ฅผ ํ ๋์ ๋๋ค. ์ฒ์์๋ ํ๋ฆฟํ๊ฒ ์ฌ๋ฌ ๊ฐ์ง ๊ฐ๋ฅํ ๊ธธ(ํ๋ณด ํด)์ ๋์์ ๊ฒน์ณ์ ๊ทธ๋ฆฝ๋๋ค. ์ฆ, โ์ด ๊ธธ์ผ ์๋ ์๊ณ , ์ ๊ธธ์ผ ์๋ ์๊ณ โ ํ๋ฉฐ ์ฌ๋ฌ ๊ฐ๋ฅ์ฑ์ ํ๋ฉด์ ํผ์ณ๋์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ๋ฆผ์ ๊นจ๋์ด ๋ค๋ฌ์ด ๊ฐ๋ ๊ณผ์ (๋๋ ธ์ด์ง ๋จ๊ณ)์์, ๋ง๋ค๋ฅธ ๊ธธ์ ์ง์ฐ๊ณ (Correction), ์ฌ๋ฐ๋ฅธ ๊ธธ๋ง ๋จ๊ฒจ ์ต์ข ์ ์ธ ๊ฒฐ๊ณผ๋ฌผ์ ์์ฑํฉ๋๋ค. ์ค์ํ ์ ์ โ๊ทธ๋ฆผ์ด ์์ฑ๋์ด๊ฐ๋ ์๊ฐโ์ด ๋ฐ๋ก ์ถ๋ก ์ด ์ผ์ด๋๋ ์๊ฐ์ด๋ผ๋ ๊ฒ์ ๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
๋ชจ๋ธ์ด ๋ฏธ๋ก๋ฅผ ํธ๋ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ์ด ์งํ๋ฉ๋๋ค.
- ์ด๊ธฐ ๋จ๊ณ(Initial Steps): ๋ชจ๋ธ์ ๋ ธ์ด์ฆ๊ฐ ์์ธ ์ํ์์ ๋ฏธ๋ก๋ฅผ ํต๊ณผํ ์ ์๋ ์๋ง์ ๊ฐ๋ฅํ ๊ฒฝ๋ก๋ฅผ ๋์์ ์์ํ๋ฉฐ ์์ฑํฉ๋๋ค. ์ด๋๋ ์๋ชป๋ ๊ธธ๋ ๋ง์ด ํฌํจ๋์ด ์์ต๋๋ค.
- ์ค๊ฐ ๋จ๊ณ(Middle Steps): ๋๋ ธ์ด์ง(Denoising)์ด ์งํ๋๋ฉด์ ๋ชจ๋ธ์ ํ๋ฅ ์ด ๋ฎ์ ๊ฒฝ๋ก, ์ฆ ๋ง๋ค๋ฅธ ๊ธธ์ด๋ ๋ ผ๋ฆฌ์ ์ผ๋ก ํ๋ฆฐ ๊ฒฝ๋ก๋ฅผ ์์ํ ์ง์๋ฒ๋ฆฝ๋๋ค(Pruning). ๋ง์น ํ๊ฐ๊ฐ ์ฐํ ์๊ตญ์ ์ง์ฐ๊ฐ๋ก ์ง์ฐ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค.
- ์ต์ข ๋จ๊ณ(Final Steps): ๋ ธ์ด์ฆ๊ฐ ๊ฑฐ์ ์ฌ๋ผ์ง ์์ ์๋ ์ค์ง ํ๋์ ์ ๋ต ๊ฒฝ๋ก๋ง ์ ๋ช ํ๊ฒ ๋จ๊ฒ ๋ฉ๋๋ค. ๋ชจ๋ธ์ ์ด ์ต์ข ๊ฒฐ๊ณผ๋ฅผ ์ถ๋ ฅํฉ๋๋ค.
์ด ๊ณผ์ ์์ ๋ชจ๋ธ์ ์์ ๊ธฐ์ต(Working Memory)์ ํ์ฉํด ์ค์ํ ์ ๋ณด๋ฅผ ์ ์งํ๊ณ , ์ค์ค๋ก ํ๋ฆฐ ๊ฒฝ๋ก๋ฅผ ์์ (Self-Correction)ํ๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค. ์ด ๋ชจ๋ ์ถ๋ก ์ ํ๋ ์์ด ๋์ด๊ฐ๋ ์๊ฐ์ด ์๋๋ผ, ํ๋์ ์ด๋ฏธ์ง๊ฐ ์ ๋ช ํด์ง๋ ๋ํจ์ ๋จ๊ณ(Timestep) ๋ด๋ถ์์ ๋ฐ์ํฉ๋๋ค.
ํต์ฌ ๋ฉ์ปค๋์ฆ
๋ ผ๋ฌธ์์ ์ ์ํ๋ ํต์ฌ์ ์ถ๋ก ๊ณผ์ ์ด ํ๋ ์ ์ถ์ด ์๋๋ผ ๋ํจ์ ๋จ๊ณ ์ถ์ ๋ฐ๋ผ ๋ฐ์ํ๋ค๋ ๊ฒ์ ๋๋ค. ์์์ ์ผ๋ก ํํํ์๋ฉด, ๋ชจ๋ธ์ ์ถ๋ก ่ฝๅ $R$์ ํ๋ ์ ์ธ๋ฑ์ค $i$๊ฐ ์๋, ๋๋ ธ์ด์ง ํ์์คํ $t$์ ๊ฐํ๊ฒ ์์กดํฉ๋๋ค.
$$ R \approx f(\text{Denoising Steps } t) \gg g(\text{Frames } i) $$
์ฆ, ๋ชจ๋ธ์ $t=1$์์ $t=T$๋ก ๊ฐ๋ ๊ณผ์ ์์ ๋ต์ ์ฐพ์๊ฐ๋ ๊ฒ์ด์ง, Frame 1์์ Frame 2๋ก ๋์ด๊ฐ๋ ๊ณผ์ ์์ ๋ต์ ์ฐพ๋ ๊ฒ์ด ์๋๋๋ค.
3. ์ค๏ฟฝ๏ฟฝํ ๊ฒฐ๊ณผ ๋ถ์
์ ์๋ค์ ๋น๋์ค ์ถ๋ก ๋ฐ์ดํฐ์ ๊ณผ ์คํ์์ค ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ํ์ฉํ์ฌ ์ด ๊ฐ์ค์ ๊ฒ์ฆํ์ต๋๋ค. ํนํ, ๋ชจ๋ธ์ ๋ด๋ถ ์ํ๋ฅผ ๋ค์ฌ๋ค๋ณด๋ ๋ถ์(Probing) ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ต๋๋ค.
- ํ ์คํธ ๋ฒค์น๋งํฌ: ์ฃผ๋ก ์๊ณต๊ฐ ์ถ๋ก ์ด ํ์ํ โ๋ฏธ๋ก ์ฐพ๊ธฐ(Maze)โ ๋ฌธ์ ์ NExT-QA์ ๊ฐ์ ๋น๋์ค ์ง์์๋ต ๋ฐ์ดํฐ์ ์ ํ์ฉํ์ต๋๋ค.
- CoS์ ์ฆ๋ช : ์ด๊ธฐ ๋๋ ธ์ด์ง ๋จ๊ณ์์ ๋ชจ๋ธ์ด ์์ฑํ ์ด๋ฏธ์ง๋ฅผ ๋ถ์ํ ๊ฒฐ๊ณผ, ๋ฏธ๋ก์ ์ ๋ต ๊ฒฝ๋ก๋ฟ๋ง ์๋๋ผ ์ค๋ต ๊ฒฝ๋ก๋ค๋ ๋์์ ํฌ๋ฏธํ๊ฒ ํํ๋์ด ์์์ ๋ฐ๊ฒฌํ์ต๋๋ค. ๋จ๊ณ๊ฐ ์งํ๋ ์๋ก ์ค๋ต ๊ฒฝ๋ก๋ ์ฌ๋ผ์ง๊ณ ์ ๋ต ๊ฒฝ๋ก๋ง ๋ช ํํด์ง๋ โ๊ฐ์ง์น๊ธฐ(Pruning)โ ํ์์ด ๊ด์ฐฐ๋์์ต๋๋ค.
- ์ฑ๊ณผ: ๊ธฐ์กด Chain-of-Frames(CoF) ๊ฐ์ค๊ณผ ๋ฌ๋ฆฌ, ๋ชจ๋ธ์ด ๋จ์ํ ์ ํ๋ ์์ ๋ณด๊ณ ๋ค์์ ๊ทธ๋ฆฌ๋ ๊ฒ์ด ์๋๋ผ, ๋๋ ธ์ด์ง ๊ณผ์ ์ ์ฒด๋ฅผ ๊ฑฐ์ณ โ๋ต์ ๋ฏธ๋ฆฌ ๊ณ์ฐโํ ๋ค์ ์ด๋ฅผ ๋น๋์ค๋ก ๊ตฌํํ๋ค๋ ์ฌ์ค์ ๋ฐํ๋์ต๋๋ค. ์ด๋ ๋ชจ๋ธ์ ์ถ๋ก ์ ํ๋๊ฐ ๋๋ ธ์ด์ง ์คํ ์์ ๊น์ ์ฐ๊ด์ด ์์์ ์์ฌํฉ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ํ๊ณ์ : ์ด ๋ ผ๋ฌธ์ ์ฃผ๋ก โํ์ํ์ ๋ถ์(Phenomenological Analysis)โ์ ์ง์คํ๊ณ ์์ต๋๋ค. ์ฆ, ๋ชจ๋ธ์ด ์ ์ด๋ฐ ๋ฐฉ์์ ํ์ตํ๊ฒ ๋์๋์ง, ์๋๋ฉด ๊ตฌ์กฐ์ ์ผ๋ก ๊ทธ๋ ๊ฒ ๋๋๋ก ๊ฐ์ ๋๋์ง์ ๋ํ ์ด๋ก ์ ์ํ์ ์ฆ๋ช ์ด ๋ถ์กฑํ ์ ์์ต๋๋ค. ๋ํ, ๋ชจ๋ ๋น๋์ค ๋ชจ๋ธ์ ์ด ๋ฉ์ปค๋์ฆ์ด ๋์ผํ๊ฒ ์ ์ฉ๋๋์ง๋ ๋ ๋ง์ ๋ชจ๋ธ์์์ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค.
- ํฅํ ์ฐ๊ตฌ: Chain-of-Steps(CoS) ๋ฉ์ปค๋์ฆ์ ์ ๊ทน์ ์ผ๋ก ํ์ฉํ์ฌ ์ถ๋ก ํจ์จ์ ๋์ด๋ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ถํ์ํ ๋๋ ธ์ด์ง ๋จ๊ณ๋ฅผ ๊ฑด๋๋ฐ์ด ์ถ๋ก ์๋๋ฅผ ๋์ด๊ฑฐ๋, ์ด๊ธฐ ๋จ๊ณ์์ ๋ ๋ค์ํ ํ๋ณด๋ฅผ ํ์ํ๋๋ก ์ ๋ํ์ฌ ์ฐฝ์์ ์ธ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ๊ฐํํ๋ ๋ฑ์ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ ์ ์์ต๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
- ์ ์ฉ ๋ถ์ผ: ์ด ๋ฐ๊ฒฌ์ ๋น๋์ค ์์ฑ๋ฟ๋ง ์๋๋ผ ๋ณต์กํ ์๊ฐ์ ์ถ๋ก ์ด ํ์ํ ๋ก๋ด ๊ณตํ(Robotics), ์์จ ์ฃผํ ์๋์ฐจ์ ์ํฉ ํ๋จ, ๋ณต์กํ ๊ฒ์ AI์ ์ ๋ต ์๋ฆฝ ๋ฑ์ ์ฆ์ ์ ์ฉํ ์ ์์ต๋๋ค. ํนํ, ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ๊ฐ์์ ๊ฒฝ๋ก๋ฅผ ํ์ํด์ผ ํ๋ ๋ฌธ์ ๋ค์ ๋งค์ฐ ์ ์ฉํฉ๋๋ค.
- ํ์ ๋ฆฌ์์ค: ๋๊ท๋ชจ ๋น๋์ค ๋ฐ์ดํฐ์ ๊ณผ ๊ณ ์ฌ์ GPU(A100 ์ด์)๊ฐ ํ์ํ์ฌ, ๊ฐ์ธ๋ณด๋ค๋ ์ฐ๊ตฌ์๋ ๋๊ธฐ์ R&D ์ผํฐ ์์ค์์์ ํ์ฉ์ ์ ํฉํฉ๋๋ค. ํ์ง๋ง โ์ถ๋ก ๊ณผ์ ์ ๋จ๊ณ์ ์ผ๋ก ๋ค๋ฌ๋๋คโ๋ ์์ด๋์ด๋ ๊ฒฝ๋ ๋ชจ๋ธ ์ต์ ํ์๋ ์์ฉ๋ ์ ์์ต๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- Diffusion Model (๋ํจ์ ๋ชจ๋ธ): ๋ฐ์ดํฐ์ ์ ์ง์ ์ผ๋ก ๋ ธ์ด์ฆ๋ฅผ ๋ํ๋ ๊ณผ์ ์ ํ์ตํ๋ค๊ฐ, ์ญ์ผ๋ก ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๋ฉฐ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ์์ฑ ๋ชจ๋ธ์ ๋๋ค.
- Denoising Steps (๋๋ ธ์ด์ง ๋จ๊ณ): ๋ํจ์ ๋ชจ๋ธ์ด ๋ ธ์ด์ฆ๊ฐ ์์ธ ์ด๋ฏธ์ง์์ ๋ ธ์ด์ฆ๋ฅผ ์กฐ๊ธ์ฉ ์ ๊ฑฐํ์ฌ ์๋ ์ ๋ช ํ ์ด๋ฏธ์ง๋ฅผ ๋ณต์ํด ๋๊ฐ๋ ์ผ๋ จ์ ํ์์ ๋๋ค.
- Chain-of-Thought (์ฌ๊ณ ์ ์ฌ์ฌ): ์ธ์ด ๋ชจ๋ธ์ด ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํ ๋ ์ค๊ฐ ๋จ๊ณ์ ๋ ผ๋ฆฌ๋ฅผ ๋จ๊ณ์ ์ผ๋ก ์ ์ด๊ฐ๋ฉฐ ๋ต์ ๋์ถํ๋ ๋ฐฉ์์ ๋๋ค.
- Spatiotemporal Consistency (์๊ณต๊ฐ์ ์ผ๊ด์ฑ): ๋น๋์ค์์ ์๊ฐ์ด ์ง๋๋ ๊ฐ์ฒด์ ๋ชจ์์ด๋ ์์น๊ฐ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์์ฐ์ค๋ฝ๊ฒ ์ด์ด์ง๋ ์ฑ์ง์ ๋๋ค.
- Probing (ํ๋ก๋น): ํ์ต๋ ์ ๊ฒฝ๋ง์ ์ค๊ฐ ์ธต(Layer)์ด๋ ํน์ ๋จ๊ณ์์ ์ด๋ค ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋์ง ๋ถ์ํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
- Working Memory (์์ ๊ธฐ์ต): ํ์ฌ ์ํ ์ค์ธ ์์ ์ ์ํด ์ ๋ณด๋ฅผ ์ผ์์ ์ผ๋ก ์ ์ฅํ๊ณ ์กฐ์ํ๋ ์ฌ๋ฆฌ์ ํน์ ์์คํ ์ ๊ธฐ์ต ๊ณต๊ฐ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Demystifing Video Reasoning | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | InCoder-32B: Code Foundation Model โฆ | DD-047 |
| ๐ฅ | AI Can Learn Scientific Taste | DD-048 |
| 4. | SocialOmni: Benchmarking Audio-Visuโฆ | DD-049 |
| 5. | MiroThinker-1.7 & H1: Towards Heavyโฆ | DD-050 |
๐ ์์ฑ์ผ: 2026-03-22 | ๐ค GLM-4.7 Deep Dive