๐ Weekly AI Paper Digest
๊ธฐ๊ฐ: 2026-03-09 ~ 2026-03-14 ์ ์ : ์ด๋ฒ ์ฃผ ๊ฐ์ฅ ์ฃผ๋ชฉ๋ฐ์ ๋ ผ๋ฌธ Top 5
๐ ์ด๋ฒ ์ฃผ Top 5
| ์์ | ๋ ผ๋ฌธ | โฌ๏ธ | Deep Dive |
|---|---|---|---|
| ๐ฅ | Geometry-Guided Reinforcement Learning fโฆ | 136 | DD-041 |
| ๐ฅ | Penguin-VL: Exploring the Efficiency Limโฆ | 104 | DD-042 |
| ๐ฅ | OpenClaw-RL: Train Any Agent Simply by Tโฆ | 90 | DD-043 |
| 4. | Lost in Stories: Consistency Bugs in Lonโฆ | 81 | DD-044 |
| 5. | Holi-Spatial: Evolving Video Streams intโฆ | 77 | DD-045 |
๐ ์ด๋ฒ ์ฃผ ํธ๋ ๋
ํต์ฌ ํค์๋
- 3D ๊ณต๊ฐ ์ง๋ฅ (Spatial Intelligence): ๋น๋์ค ์คํธ๋ฆผ์ ํ์ฉํ ๋๊ท๋ชจ 3D ๋ฐ์ดํฐ ๊ตฌ์ถ๊ณผ 3D ์ฅ๋ฉด ํธ์ง์ ์ ํฉ์ฑ ํ๋ณด
- ์์ฑ ๊ฒฐ๊ณผ์ ์ผ๊ด์ฑ (Consistency): 3D ๋ค์์ ํธ์ง๊ณผ ์ฅ๋ฌธ ์คํ ๋ฆฌ ์์ฑ์์ ๋ฐ์ํ๋ ๋ชจ์ ํด๊ฒฐ ๋ฐ ์ผ๊ด์ฑ ์ ์ง
- ์์ด์ ํธ ์จ๋ผ์ธ ํ์ต (Agentic Online RL): ์ฌ์ฉ์ ๋ํ๋ ๋๊ตฌ ๊ฒฐ๊ณผ ๋ฑ โ๋ค์ ์ํ ์ ํธโ๋ฅผ ์ค์๊ฐ ํ์ต ๋ฐ์ดํฐ๋ก ํ์ฉ
- ๊ฒฝ๋ํ๋ VLM (Efficient VLM): ๊ฑฐ๋ ๋น์ ์ธ์ฝ๋ ์์กด์ฑ์ ์ค์ด๊ณ ๋ชจ๋ฐ์ผ/์ฃ์ง ๋๋ฐ์ด์ค ๋ฐฐ์น๋ฅผ ๊ณ ๋ คํ ์ํ ๋ชจ๋ธ ๊ฐ๋ฐ
- LLM ๊ธฐ๋ฐ ๋น์ ์ฒ๋ฆฌ: ๊ธฐ์กด์ ๋์กฐ ํ์ต ๊ธฐ๋ฐ ๋น์ ์ธ์ฝ๋๋ฅผ ๋์ฒดํ๋ LLM ์ํคํ ์ฒ ๊ธฐ๋ฐ์ ์๊ฐ ์ดํด ๋ฐฉ์ ํ์
๊ณตํต ์ฃผ์
์ด๋ฒ ์ฃผ ๋ ผ๋ฌธ๋ค์ ์์ฑํ AI๊ฐ ๋จ์ํ โ๊ฑฐ๋ํด์ง๋ ๊ฒโ์์ ๋ฒ์ด๋, ์ค์ ํ๊ฒฝ์์์ ๊ตฌ์ฒด์ ์ธ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉํฅ์ผ๋ก ์งํํ๊ณ ์์์ ๋ณด์ฌ์ค๋๋ค. ํนํ 3D ๊ณต๊ฐ ์ดํด์ ์์ด์ ํธ์ ์ค์๊ฐ ํ์ต, ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ธ์ ๊ฒฝ๋ํ๋ฅผ ํตํด **์ ํฉ์ฑ(Consistency)๊ณผ ํจ์จ์ฑ(Efficiency)**์ ๊ทน๋ํํ๋ ๋ฐ ์ฃผ๋ ฅํ๊ณ ์์ผ๋ฉฐ, 2D ๋น์ ์ด๋ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ 3D๋ ์ธํฐ๋ํฐ๋ธํ ๊ฒฝํ์ผ๋ก ํ์ฅํ๋ ค๋ ์๋๊ฐ ๋๋๋ฌ์ง๋๋ค.
์ฃผ๋ชฉํ ์
๊ฐ์ฅ ๋์ ๋๋ ์ ์ ๊ฐํ ํ์ต(Reinforcement Learning)์ ํ์ฉ ๋ฒ์๊ฐ ํ๋๋๊ณ ์๋ค๋ ๊ฒ์ ๋๋ค. 3D ์ฅ๋ฉด์ ํธ์งํ ๋ ๊ธฐํํ์ ์ ์ฝ ์กฐ๊ฑด์ ๋ณด์ ์ ํธ๋ก ํ์ฉํ๊ฑฐ๋(Paper 1), ์์ด์ ํธ๊ฐ ๋ํ ๊ณผ์ ์์ ๋ฐ์ํ๋ ๋ชจ๋ ์ํ ๋ณํ๋ฅผ ์ฆ๊ฐ์ ์ธ ํ์ต ๊ธฐํ๋ก ์ผ๋(Paper 3) ๋ฑ RL์ด ์์ฑ ๋ฐ ์ ์ด ์์ ์ ์ ๋ฐ๋๋ฅผ ๋์ด๋ ํต์ฌ ๋๊ตฌ๋ก ๋ ์ค๋ฅด๊ณ ์์ต๋๋ค. ๋ํ, ์น์์ ๋ฌด์ํ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก 3D ๊ณต๊ฐ ์ง๋ฅ์ผ๋ก ๋ณํํ๋ ค๋(Paper 5) ์๋๋ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํฉ๋๋ค.
์ค๋ฌด ์์ฌ์
๊ฐ๋ฐ์์ ์ฐ๊ตฌ์๋ ๊ฑฐ๋ ํ๋ผ๋ฏธํฐ ์ค์ผ์ผ๋ง๋ณด๋ค๋ ํน์ ๋๋ฉ์ธ(3D, ๋ชจ๋ฐ์ผ, ๋กฑํ ์คํธ)์ ๊ตฌ์กฐ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ ์ํคํ ์ฒ์ ์ฃผ๋ชฉํด์ผ ํฉ๋๋ค. ํนํ ์จ๋๋ฐ์ด์ค AI ์๋น์ค๋ฅผ ๊ณํํ๋ค๋ฉด ๊ฑฐ๋ ๋น์ ์ธ์ฝ๋ ์์ด๋ ์ฑ๋ฅ์ ๋ผ ์ ์๋ ๊ฒฝ๋ํ๋ VLM ์ค๊ณ(Paper 2)๊ฐ ํ์์ ์ด๋ฉฐ, ์์ด์ ํธ๋ฅผ ๊ฐ๋ฐํ ๋๋ ์ฌ์ฉ์์์ ์ํธ์์ฉ ์์ฒด๋ฅผ ๋ชจ๋ธ ์ฑ์ฅ์ ์ํ ํต์ฌ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ผ๋ก ์ค๊ณ(Paper 3)ํ๋ ์ ๋ต์ด ํ์ํฉ๋๋ค.
๐ ๋ ผ๋ฌธ๋ณ ์์ฝ
๐ฅ 1. Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing
arXiv: 2603.03143 | โฌ๏ธ 136 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
3d-editingreinforcement-learningmulti-view-consistencyflux3d-gaussian-splattingvggtrlhfcomputer-vision
3D ์ฅ๋ฉด ํธ์ง์ ์ํด ๊ธฐ์กด์ ์ง๋ ํ์ต(SFT) ๋ฐฉ์์ด ๊ฐ์ง ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ , ๊ธฐํํ์ ๊ฒ์ฆ์ด ๊ฐ๋ฅํ๋ค๋ ์ ์ ์ฐฉ์ํ์ฌ ๊ฐํ ํ์ต(RL)๊ณผ 3D ๊ธฐ๋ฐ ๋ชจ๋ธ(VGGT)์ ๊ฒฐํฉํด ๋ค์ค ์์ ์ผ๊ด์ฑ์ ํ๋ณดํ ํ๊ธฐ์ ์ธ ํ๋ ์์ํฌ์ ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 2. Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders
arXiv: 2603.06569 | โฌ๏ธ 104 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
vision-language-modelefficiencyllm-based-encoderedge-aimultimodal-learningcompact-modelmobile-ai
์ด ๋ ผ๋ฌธ์ ๊ฑฐ๋ํ ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ์ ์์กดํ์ง ์๊ณ , ์ธ์ด ๋ชจ๋ธ ๊ธฐ๋ฐ์ ๋น์ ์ธ์ฝ๋(LLM-based Vision Encoder)๋ฅผ ๋์ ํ์ฌ ํจ์จ์ฑ์ ๊ทนํ์ ํ๊ตฌํจ์ผ๋ก์จ ๋ชจ๋ฐ์ผ ๋ฐ ์ฃ์ง ๋๋ฐ์ด์ค์์ ์ค์ ๋ฐฐํฌ๊ฐ ๊ฐ๋ฅํ ์ํ ๊ณ ํ์ง ๋น์ ์ธ์ด ๋ชจ๋ธ์ ๊ตฌํํ๋ค๋ ์ ์์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 3. OpenClaw-RL: Train Any Agent Simply by Talking
arXiv: 2603.10165 | โฌ๏ธ 90 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
rlhfagentic-rlonline-learningllm-agentsprmsglangmodel-optimization
๊ธฐ์กด AI ์์ด์ ํธ๊ฐ ๋ฒ๋ฆฌ๊ณ ์๋ ๋ชจ๋ ์ํธ์์ฉ์ ๊ฒฐ๊ณผ(๋ค์ ์ํ ์ ํธ)๋ฅผ ์ค์๊ฐ ํ์ต ๋ฐ์ดํฐ๋ก ๋ณํํ์ฌ, ๋ํ, ์ฝ๋ฉ, GUI ์ ์ด ๋ฑ ์๋ก ๋ค๋ฅธ ํ๊ฒฝ์ ํ๋์ ํตํฉ๋ ๊ฐํ ํ์ต ๋ฃจํ๋ก ํ์ต์ํค๋ ํ์ ์ ์ธ ํ๋ ์์ํฌ์ ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
4. 4. Lost in Stories: Consistency Bugs in Long Story Generation by LLMs
arXiv: 2603.05890 | โฌ๏ธ 81 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
story-generationconsistency-benchmarkllm-evaluationlong-contextautomated-checkernlphallucination
์ด์ฅํ(long-form) ์คํ ๋ฆฌ ์์ฑ ๊ณผ์ ์์ LLM(Large Language Model)์ด ์์ ์ด ์ค์ ํ ์ฌ์ค์ด๋ ์ธ๊ณ๊ด์ ์์ด๋ฒ๋ฆฌ๋ โ์ผ๊ด์ฑ ๋ถ์ฌโ ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ ์ํ๊ณ , ์ด๋ฅผ ์ ๋์ ์ผ๋ก ํ๊ฐํ ์ ์๋ ์ต์ด์ ๋ฒค์น๋งํฌ(ConStory-Bench)์ ์๋ํ๋ ํ๊ฐ ํ์ดํ๋ผ์ธ(ConStory-Checker)์ ์ ์ํ๋ค๋ ์ ์์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
5. 5. Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence
arXiv: 2603.07660 | โฌ๏ธ 77 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
spatial-intelligence3d-reconstructiongaussian-splattingautomated-pipelinedataset-generationvlmcomputer-vision3d-vision
์ด ๋ ผ๋ฌธ์ ์ธ๊ฐ์ ๊ฐ์ ์์ด ์์ ๋น๋์ค(Raw Video)๋ฅผ ๋๊ท๋ชจ์ ์ ๋ฐํ 3D ๊ณต๊ฐ ๋ฐ์ดํฐ์ ์ผ๋ก ์๋ ๋ณํํ์ฌ, ๊ณต๊ฐ ์ง๋ฅ ๋ชจ๋ธ ํ์ต์ ์ํ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ๊ทผ๋ณธ์ ์ผ๋ก ํด๊ฒฐํ๊ธฐ ๋๋ฌธ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ ์์ฑ์ผ: 2026-03-15 | ๐ค GLM-4.7 Weekly Digest