โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-041 Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing
arXiv: 2603.03143 ๊ธฐ๊ด: AMAP-ML Upvotes: 136 | Comments: 6 ์์: ์ด๋ฒ ์ฃผ Top 1
๋ ผ๋ฌธ ๋ถ์: Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ 3D ์ฅ๋ฉด ํธ์ง ๊ธฐ์ ์ ๊ฐ๋ ฅํ 2D ํธ์ง ๋ชจ๋ธ์ ์ฌ์ฉํ๋๋ผ๋ ์ฌ๋ฌ ์์ ๊ฐ์ ์ผ๊ด์ฑ์ ์ ์งํ๋ ๋ฐ ์คํจํ๊ฑฐ๋, ํ์ต์ ์ํ ์ง์ด ์ง์ด์ง 3D ๋ฐ์ดํฐ์ ์ ๋ ๋ถ์กฑ์ผ๋ก ์ธํด ์ง๋ ํ์ต(Supervised Fine-tuning)์ ์ํํ๊ธฐ ์ด๋ ต๋ค๋ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๋ฅผ ๊ฐ์ง๊ณ ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ 3D ์ผ๊ด์ฑ์ ๊ฒ์ฆํ๋ ๊ฒ์ ๊ฐ๋ฅํ๋ค๋ ์ ์ ์ฐฉ์ํ์ฌ, ๋ณ๋์ ๋ฐ์ดํฐ์ ์์ด 3D ๊ธฐ๋ฐ ๋ชจ๋ธ(VGGT)์ ๋ณด์ ๋ชจ๋ธ๋ก ํ์ฉํด 2D ํธ์ง ๋ชจ๋ธ์ด ์ค์ค๋ก 3D ์ผ๊ด์ฑ์ ํ์ตํ๋๋ก ์ ๋ํ๋ ๊ฐํ ํ์ต ํ๋ ์์ํฌ(RL3DEdit)๋ฅผ ์ ์ํ์ฌ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : โ์ค๋ ฅ์ ์ข์ผ๋ 3D ๊ฐ๊ฐ์ด ์๋ ํ๊ฐ์ ๊ฐ๋ ๊ดโ
์ด ๋ ผ๋ฌธ์ ํต์ฌ ์ํฉ์ ํ ๋ช ์ ๋ฐ์ด๋ ํ๊ฐ(2D ํธ์ง ๋ชจ๋ธ)์ ๋น์ ํ ์ ์์ต๋๋ค. ์ด ํ๊ฐ๋ ์ฌ์ง์ ์ฃผ๋ฉด ๋ฒฝ์ ๋ฌธ์ ๊ทธ๋ ค ๋ฃ๋ ํ๋ฆฌํฐ๋ ๋งค์ฐ ๋ฐ์ด๋ฉ๋๋ค. ํ์ง๋ง ๋ฐฉ์ ์ฌ๋ฌ ๊ฐ๋์์ ์ฐ์ ์ฌ์ง 10์ฅ์ ๋์์ ์ค์ โ๊ฐ๋๋ง๋ค ๋ฌธ ์์น๊ฐ ๋ฑ ๋ง๊ฒ ๊ทธ๋ ค์ ธ ์์ด์ผ ํดโ๋ผ๊ณ ํ๋ฉด, ํ๊ฐ๋ ๊ฐ ์ฌ์ง์ ๋ฐ๋ก ๋ณด๊ธฐ ๋๋ฌธ์ ๋ฌธ์ ์์น๊ฐ ์ ๊ฐ๊ฐ์ธ ์๋ง์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ง๋ญ๋๋ค. ์ด๊ฒ์ด ๊ธฐ์กด 2D ๋ชจ๋ธ์ด ๊ฐ์ง ๋ค์์ ๋ถ์ผ์น(Multi-view Inconsistency) ๋ฌธ์ ์ ๋๋ค.
๊ธฐ์กด ๋ฐฉ์(์ง๋ ํ์ต)์ โ์ ๋ต์ด ๊ทธ๋ ค์ง 3D ์ฌ์ง 1๋ง ์ฅโ์ ๋ณด์ฌ์ฃผ๋ฉฐ ๊ฐ๋ฅด์น๋ ค ํ์ง๋ง, ๊ทธ๋ฐ ์๋ฃ๋ ๊ตฌํ๊ธฐ๊ฐ ๋ถ๊ฐ๋ฅํฉ๋๋ค. ์ด ๋ ผ๋ฌธ์ ํด๊ฒฐ์ฑ ์ โ์๊ฒฉํ ๊ฐ๋ ๊ด(VGGT)โ์ ๊ณ ์ฉํ๋ ๊ฒ์ ๋๋ค. ๊ฐ๋ ๊ด์ ๊ทธ๋ฆผ ์ค๋ ฅ์ ์์ง๋ง, 3D ๊ธฐํํ์ ๊ตฌ์กฐ๋ฅผ ๋ถ์ํ์ฌ โ์ด ๊ฐ๋์ ๋ฌธ๊ณผ ์ ๊ฐ๋์ ๋ฌธ์ด ๊ณต๊ฐ์ ์ผ๋ก ์ฐ๊ฒฐ๋์ง ์์๋คโ๊ณ ์ ํํ ์ง์ ํ ์ ์์ต๋๋ค. ํ๊ฐ๋ ์ฌ๋ฌ ๋ฒ ์๋๋ฅผ ํด์ ๊ทธ๋ฆผ์ ๊ทธ๋ฆฌ๊ณ , ๊ฐ๋ ๊ด์ ์ ์(๋ณด์)๋ฅผ ๋ฐ์ผ๋ฉฐ ์์ ์ ๊ทธ๋ฆผ ์คํ์ผ์ ์์ ํด ๋๊ฐ๋๋ค. ๊ฒฐ๊ตญ ํ๊ฐ๋ ์ ๋ต์ง๋ฅผ ๋ณด์ง ์์๋ ๊ฐ๋ ๊ด์ ํผ๋๋ฐฑ๋ง์ผ๋ก 3D ๊ณต๊ฐ์์ ๋ง์ด ๋๋ ๊ทธ๋ฆผ์ ๊ทธ๋ฆฌ๋ ๋ฒ์ ํฐ๋ํ๊ฒ ๋ฉ๋๋ค.
๋จ๊ณ๋ณ ๋์ ๋ฐฉ์
1๋จ๊ณ: ๋ ๋๋ง ๋ฐ ํธ์ง ์๋ ๋จผ์ ํธ์งํ๊ณ ์ ํ๋ 3D ์์ฐ์ 9๊ฐ(M=9)์ ์๋ก ๋ค๋ฅธ ์์ ์์ ๋ ๋๋งํฉ๋๋ค. ์ด ์ด๋ฏธ์ง๋ค์ 2D ํธ์ง ๋ชจ๋ธ์ ์ ๋ ฅํ์ฌ ํธ์ง์ ์๋ํฉ๋๋ค. ์ด๋ ํ๋ฅ ์ ์์(SDE)๋ฅผ ์ถ๊ฐํด ๊ฐ์ ์ ๋ ฅ์ด๋ผ๋ ์กฐ๊ธ์ฉ ๋ค๋ฅธ ๊ฒฐ๊ณผ๋ฌผ์ด ๋์ค๋๋ก 16๋ฒ(Group Size=16) ์๋ํฉ๋๋ค.
2๋จ๊ณ: 3D ์ผ๊ด์ฑ ๊ฒ์ฆ (๋ณด์ ๊ณ์ฐ) ๋์จ 16์ธํธ์ ๊ฒฐ๊ณผ๋ฌผ๋ค์ 3D ๊ธฐ์ด ๋ชจ๋ธ์ธ VGGT์ ๋ฃ์ต๋๋ค. VGGT๋ ๊ฒฐ๊ณผ๋ฌผ๋ค์ ๋ถ์ํด ๋ค ๊ฐ์ง ํญ๋ชฉ์ ์ ์๋ฅผ ๋งค๊น๋๋ค. ๊น์ด ์ผ๊ด์ฑ, ์์ธ(Pose) ์ค์ฐจ, ์ถ์ (Tracking) ์ ํ๋, ๊ทธ๋ฆฌ๊ณ ํธ์ง ํ์ง์ ๋๋ค. ์ด ์ ์๋ค์ด ํฉ์ณ์ ธ ์ต์ข ๋ณด์์ด ๋ฉ๋๋ค.
3๋จ๊ณ: ๋ชจ๋ธ ์ต์ ํ (GRPO) ๊ณ์ฐ๋ ๋ณด์ ์ ์๋ฅผ ๋ฐํ์ผ๋ก GRPO(Group Relative Policy Optimization) ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํด 2D ํธ์ง ๋ชจ๋ธ์ ์ ๋ฐ์ดํธํฉ๋๋ค. ์ ์๊ฐ ๋์๋ ์๋๋ค์ ํจํด์ ๋ฐ๋ฅด๋๋ก ๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ์กฐ์ ํฉ๋๋ค. ์ด ๊ณผ์ ์ ๋ฐ๋ณตํ๋ฉฐ ๋ชจ๋ธ์ ๋จ ํ ๋ฒ์ ์ถ๋ก ์ผ๋ก๋ ์ฌ๋ฌ ์์ ์ด ์ผ์น๋ ๊ฒฐ๊ณผ๋ฌผ์ ๋ด๋์ ์ ์๊ฒ ๋ฉ๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ (GRPO ์ ์ฉ)
์ด ๋ ผ๋ฌธ์ ์ผ๋ฐ์ ์ธ ์ ์ฑ ๊ทธ๋ผ๋์ธํธ๊ฐ ์๋๋ผ GRPO๋ฅผ ์ฌ์ฉํ์ฌ ํจ์จ์ฑ์ ๋์์ต๋๋ค. ์์ $A^i = (R^i - \text{mean}({R^j})) / \text{std}({R^j})$๋ ๊ทธ๋ฃน ๋ด์ ๋ค๋ฅธ ๊ฒฐ๊ณผ๋ฌผ๋ค๊ณผ ๋น๊ตํ์ฌ ํ์ฌ ๊ฒฐ๊ณผ๊ฐ ์๋์ ์ผ๋ก ์ผ๋ง๋ ์ข์์ง๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์ฆ, ์ ๋์ ์ธ ์ ์๊ฐ ์ค์ํ ๊ฒ์ด ์๋๋ผ ๊ฐ์ ์กฐ๊ฑด์์ ์๋ํ ๋ค๋ฅธ ๊ฒฐ๊ณผ๋ฌผ๋ณด๋ค ๋ 3D ์ผ๊ด์ฑ์ด ์ ์ง์ผ์ก๋์ง๊ฐ ํ์ต์ ํต์ฌ ์ ํธ๊ฐ ๋ฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
ํ ์คํธ ๋ฒค์น๋งํฌ
์ฐ๊ตฌ์ง์ IN2N, BlendedMVS, Mip-NeRF360 ๋ฐ์ดํฐ์ ์์ ์ด 8๊ฐ์ ์ฅ๋ฉด์ ์ ์ ํ์ฌ ์คํ์ ์งํํ์ต๋๋ค. 3D ๋น์ ๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ์ ๋๋ฆฌ ์ฌ์ฉ๋๋ ์ด ๋ฐ์ดํฐ์ ๋ค์ ๋ณต์กํ ๊ธฐํํ์ ๊ตฌ์กฐ์ ๋ค์ํ ํ ์ค์ฒ๋ฅผ ํฌํจํ๊ณ ์์ด ํธ์ง ์ผ๊ด์ฑ์ ๊ฒ์ฆํ๊ธฐ์ ์ ํฉํฉ๋๋ค. ์ด 70๊ฐ์ ํธ์ง ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํ์ฌ 1,319๊ฐ์ ํ์ต ์ํ์ ๊ตฌ์ฑํ์ต๋๋ค.
๊ธฐ์กด SOTA(State-of-the-art) ๋๋น ์ฑ๋ฅ
๊ธฐ์กด ์คํ ์์ค ์ต์์ ๋ฐฉ๋ฒ๋ก ์ธ DGE, EditSplat, GaussCtrl๊ณผ ๋น๊ต ๋ถ์์ ์ํํ์ต๋๋ค. ํนํ ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ด ์ฃผ๋ก ์ฌ์ฉํ๋ InstructPix2Pix ๋์ ์ต์ ๋ชจ๋ธ์ธ FLUX-Kontext๋ฅผ ๋ฐฑ๋ณธ์ผ๋ก ์ฌ์ฉํ์ฌ ์ฌ๊ตฌํํ ๋ค ์ฑ๋ฅ์ ์ธก์ ํ์ต๋๋ค. ๋ ผ๋ฌธ์ ์ ์๋ ๊ตฌ์ฒด์ ์ธ ์์น ํ ์ด๋ธ์ ๋ฐ์ท๋ณธ์ ํฌํจ๋์ง ์์์ผ๋, ์ ์ฑ์ , ์ ๋์ ์ผ๋ก ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ๋ค์ด ๊ฒช๋ โ๊ธฐํํ์ ๋ณํ ์ ๊นจ์ง ํ์โ์ด๋ โํ๋ฆฟํ ์ํฐํฉํธโ ๋ฌธ์ ๋ฅผ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ํ๋ค๊ณ ๋ณด๊ณ ํ๊ณ ์์ต๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
ํ์ต ํจ์จ์ฑ ์ธก๋ฉด์์ ๊ตฌ์ฒด์ ์ธ ์ค์ ์ ์ ์ํ์ต๋๋ค. ์ด์ ์ฐ๊ตฌ์ธ Flow-GRPO๊ฐ 6-step ์ถ๋ก ์ ์ฌ์ฉํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, 3D ์ผ๊ด์ฑ์ ์ํด ๋ ๋์ ์ด๋ฏธ์ง ์ถฉ์ค๋๊ฐ ํ์ํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๊ณ 12-step ์ถ๋ก ์ค์ ์ ์ฑํํ์ต๋๋ค. ๋ํ NVIDIA RTX A6000 GPU ํ๋๋ก ์ฝ 42์๊ฐ ๋์ ํ์ต์ ์งํํ์ฌ ์ถฉ๋ถํ ์ค๋ฌด์ ์ธ ์์ค์ ํ์ต ์๊ฐ์ ๊ธฐ๋กํ์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ๋จ์ผ ํจ์ค(One-pass) ์ถ๋ก ๋ง์ผ๋ก๋ ๊ณ ํ์ง์ 3D ํธ์ง์ด ๊ฐ๋ฅํจ์ ์ ์ฆํ์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ ๋ฐ ์์์ ํ๊ณ
์ด ๋ ผ๋ฌธ์ ์ฃผ๋ก ํ์ต ๋ฐฉ๋ฒ๋ก ๊ณผ ์ ์ฑ์ ์ธ ๊ฐ์ ์ ์ด์ ์ ๋ง์ถ๊ณ ์์ด, ์ ๋์ ์งํ(PSNR, LPIPS ๋ฑ)์ ๋ํ ์์ธํ ๋ถ์์ด ์ ๊ณต๋ ํ ์คํธ ๋ด์ ๋ถ์กฑํฉ๋๋ค. ๋ํ ๋ณด์ ๋ชจ๋ธ์ธ VGGT์ ์ฌ์ ์ง์(Prior)์ ์์กดํ๊ธฐ ๋๋ฌธ์, VGGT๊ฐ ์์ง ๋ชปํ๋ ๋งค์ฐ ์์ํ ๋๋ฉ์ธ์ด๋ ๊ทน๋จ์ ์ธ ๊ธฐํํ์ ๋ณํ์ ๋ํด์๋ ๋ณด์ ์ ํธ๊ฐ ์ ํํ์ง ์์ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค.
๊ฐ์ ๊ฐ๋ฅ์ฑ ๋ฐ ํฅํ ์ฐ๊ตฌ
ํฅํ ์ฐ๊ตฌ์์๋ ๋ ๋ค์ํ ๋๋ฉ์ธ์ 3D ์ฅ๋ฉด์ ๋ํด ์ผ๋ฐํํ ์ ์๋ ๋ณด์ ๋ชจ๋ธ์ ํ๊ตฌํ๊ฑฐ๋, ํ์ฌ 42์๊ฐ์ด ์์๋๋ ํ์ต ์๊ฐ์ ๋ ๋จ์ถํ์ฌ ์ค์๊ฐ ํธ์ง ํ์ดํ๋ผ์ธ์ ํตํฉํ๋ ๋ฐฉํฅ์ด ๊ณ ๋ ค๋ ์ ์์ต๋๋ค. ๋ํ ํ์ฌ 9๊ฐ์ ์์ (M=9)์ ๊ณ ์ ์ผ๋ก ์ฌ์ฉํ๋๋ฐ, ์ด๋ฅผ ๋์ ์ผ๋ก ์กฐ์ ํ์ฌ ๊ณ์ฐ ๋น์ฉ์ ์ค์ด๋ ์ฐ๊ตฌ๋ ๊ฐ๋ฅํ ๊ฒ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ ์ฉ ๊ฐ๋ฅ ๋ถ์ผ
์ด ๊ธฐ์ ์ ์ฆ์ AR/VR ์ฝํ ์ธ ์ ์ ํด, ๋ฉํ๋ฒ์ค ํ๋ซํผ, ๊ทธ๋ฆฌ๊ณ 3D ๊ฒ์ ๊ฐ๋ฐ ํ์ดํ๋ผ์ธ์ ์ ์ฉ๋ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ด๋ฏธ ์กด์ฌํ๋ 3D ๊ฒ์ ๋งต์ ๋ถ์๊ธฐ๋ฅผ โ๊ฒจ์ธโ๋ก ๋ฐ๊พธ๊ฑฐ๋ ํน์ ์ค๋ธ์ ํธ๋ฅผ ๋ค๋ฅธ ํํ๋ก ๊ต์ฒดํด์ผ ํ ๋, ๊ฐ๋๋ง๋ค ๊นจ์ง์ง ์๋ ์ผ๊ด๋ ํ ์ค์ฒ๋ฅผ ์๋์ผ๋ก ์์ฑํด์ฃผ๋ ๊ฐ๋ ฅํ ๊ธฐ๋ฅ์ ์ ๊ณตํ ์ ์์ต๋๋ค. ์ ์ ์๊ฑฐ๋ ๋ถ์ผ์์๋ ์ฌ์ฉ์๊ฐ ์ ํ ์์์ด๋ ์ฌ์ง์ ์ปค์คํฐ๋ง์ด์งํ ๋ 3D๋ก ๋ณด์ฌ์ฃผ๋ ๊ฒฝํ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ํ ์ ์์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค
์ด ๋ฐฉ์์ ๋์ ํ๋ ค๋ฉด ๊ณ ์ฌ์์ GPU(NVIDIA RTX A6000๊ธ ์ด์)๊ฐ ํ์์ ์ด๋ฉฐ, 3D Gaussian Splatting(3DGS) ๋ ๋๋ง ํ์ดํ๋ผ์ธ๊ณผ FLUX์ ๊ฐ์ ๋๊ท๋ชจ 2D ๋ํจ์ ๋ชจ๋ธ์ ๋์์ ์ด์ํ ์ ์๋ ์ธํ๋ผ๊ฐ ํ์ํฉ๋๋ค. ๋ํ LoRA(Low-Rank Adaptation)๋ฅผ ํตํด ํ์ธ ํ๋์ ์งํํ๋ฏ๋ก, ๋ง์ถคํ ํธ์ง ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํ ์ถฉ๋ถํ ๋ฐ์ดํฐ์ ๊ตฌ์ถ ๋ฅ๋ ฅ๋ ์๊ตฌ๋ฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
-
3D Gaussian Splatting (3DGS) ํฌ์ธํธ ํด๋ผ์ฐ๋์ ๊ฐ ์ ์ 3D ๊ฐ์ฐ์์์ผ๋ก ํํํ์ฌ ๋งค์ฐ ๋น ๋ฅด๊ฒ ๊ณ ํ์ง์ 3D ์ฅ๋ฉด์ ๋ ๋๋งํ๋ ์ต์ ํํ ๊ธฐ์ ์ ๋๋ค.
-
Diffusion Model (๋ํจ์ ๋ชจ๋ธ) ๋ ธ์ด์ฆ์์ ์ ์ฐจ ์ํ๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํด ๋๊ฐ๋ ์์ฑํ AI ๋ชจ๋ธ๋ก, ํ ์คํธ ํ๋กฌํํธ๋ฅผ ํตํด ์ด๋ฏธ์ง๋ฅผ ํธ์งํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
-
Reinforcement Learning (๊ฐํ ํ์ต) ์์ด์ ํธ๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ๋ณด์์ ์ต๋ํํ๋ ๋ฐฉํฅ์ผ๋ก ํ๋์ ํ์ตํ๋ ๊ธฐ๊ณํ์ต์ ํ ์ข ๋ฅ์ ๋๋ค.
-
Multi-view Consistency (๋ค์์ ์ผ๊ด์ฑ) 3D ์ฅ๋ฉด์ ์ฌ๋ฌ ๊ฐ๋์์ ์ดฌ์ํ๊ฑฐ๋ ๋ ๋๋งํ ๋, ๋ชจ๋ ์์ ์์ ๋ฌผ์ฒด์ ๋ชจ์, ์์น, ์กฐ๋ช ๋ฑ์ด ๋ ผ๋ฆฌ์ ์ผ๋ก ์ผ์นํด์ผ ํ๋ ์ฑ์ง์ ๋๋ค.
-
Policy Gradient / GRPO ๊ฐํ ํ์ต์์ ์ ์ฑ (Policy)์ ์ง์ ์ต์ ํํ๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, GRPO๋ ๊ทธ๋ฃน ๋ด ์ํ๋ค์ ์๋์ ์ผ๋ก ๋น๊ตํ์ฌ ๋ถ์ฐ์ ์ค์ด๊ณ ํจ์จ์ ๋์ธ ๋ฐฉ์์ ๋๋ค.
-
LoRA (Low-Rank Adaptation) ๊ฑฐ๋ํ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ์ ์ฒด ํ๋ผ๋ฏธํฐ๋ฅผ ํ๋ํ๋ ๋์ , ์ ์ ์์ ์ถ๊ฐ ํ๋ผ๋ฏธํฐ๋ง ํ์ต์์ผ ํจ์จ์ ์ผ๋ก ๋ชจ๋ธ์ ์ปค์คํฐ๋ง์ด์งํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
-
VGGT ๋๋์ ์ค์ ๋ฐ์ดํฐ๋ก ํ์ต๋ 3D ๊ธฐ์ด ๋ชจ๋ธ๋ก, ์ด ๋ ผ๋ฌธ์์๋ ํธ์ง๋ ์ด๋ฏธ์ง์ 3D ๊ธฐํํ์ ์ ํ๋๋ฅผ ํ๋จํ๋ ์ฌํ(๋ณด์ ๋ชจ๋ธ) ์ญํ ์ ํฉ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Geometry-Guided Reinforcement Learnโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | Penguin-VL: Exploring the Efficiencโฆ | DD-042 |
| ๐ฅ | OpenClaw-RL: Train Any Agent Simplyโฆ | DD-043 |
| 4. | Lost in Stories: Consistency Bugs iโฆ | DD-044 |
| 5. | Holi-Spatial: Evolving Video Streamโฆ | DD-045 |
๐ ์์ฑ์ผ: 2026-03-15 | ๐ค GLM-4.7 Deep Dive