๐ Weekly AI Paper Digest
๊ธฐ๊ฐ: 2026-04-13 ~ 2026-04-18 ์ ์ : ์ด๋ฒ ์ฃผ ๊ฐ์ฅ ์ฃผ๋ชฉ๋ฐ์ ๋ ผ๋ฌธ Top 5
๐ ์ด๋ฒ ์ฃผ Top 5
| ์์ | ๋ ผ๋ฌธ | โฌ๏ธ | Deep Dive |
|---|---|---|---|
| ๐ฅ | WildDet3D: Scaling Promptable 3D Detectiโฆ | 238 | DD-067 |
| ๐ฅ | Seedance 2.0: Advancing Video Generationโฆ | 136 | DD-068 |
| ๐ฅ | The Past Is Not Past: Memory-Enhanced Dyโฆ | 135 | DD-069 |
| 4. | ClawGUI: A Unified Framework for Traininโฆ | 134 | DD-070 |
| 5. | QuanBench+: A Unified Multi-Framework Beโฆ | 121 | DD-071 |
๐ ์ด๋ฒ ์ฃผ ํธ๋ ๋
ํต์ฌ ํค์๋
- ์คํ์ด์ ์ธํ ๋ฆฌ์ ์ค (Spatial Intelligence): ๋จ์ผ ์ด๋ฏธ์ง๋ก 3D ๊ณต๊ฐ์ ์ดํดํ๊ณ ๊ฐ์ฒด๋ฅผ ๊ฐ์งํ๋ฉฐ, ์คํ ์๋ ํ๊ฒฝ์์ ํ๋กฌํํธ๋ฅผ ํตํด ์๋ํ๋ ๊ธฐ์ .
- ๋ค์ดํฐ๋ธ ๋ฉํฐ๋ชจ๋ฌ ์์ฑ (Native Multi-modal Generation): ํ ์คํธ, ์ด๋ฏธ์ง๋ฟ๋ง ์๋๋ผ ์ค๋์ค์ ๋น๋์ค๋ฅผ ํตํฉ์ ์ผ๋ก ์์ฑํ๊ณ ๋ณต์กํ ์ธ๊ณ๋ฅผ ๋ชจ๋ธ๋งํ๋ ์ํคํ ์ฒ.
- GUI ์์ด์ ํธ ์ธํ๋ผ (GUI Agent Infrastructure): API๊ฐ ์๋ ์๊ฐ์ ์ธํฐํ์ด์ค๋ฅผ ํตํด ์ํํธ์จ์ด๋ฅผ ์ ์ดํ๋ ์์ด์ ํธ๋ฅผ ํ์ต ๋ฐ ํ๊ฐํ๊ธฐ ์ํ ํตํฉ ํ๋ ์์ํฌ.
- ๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฐ ๊ฐํ ํ์ต (Memory-Enhanced RL): ๊ณผ๊ฑฐ์ ์คํจ ํจํด์ ๊ธฐ์ตํ์ฌ ๋ณด์์ ๋์ ์ผ๋ก ์กฐ์ ํ๊ณ ์ ์ฑ ์ ๋ค์์ฑ์ ํ๋ณดํ๋ LLM ํ์ต ๋ฐฉ๋ฒ.
- ์ ๋ฌธ ๋ถ์ผ ๋ฒค์น๋งํน (Specialized Benchmarking): ์์ ์ปดํจํ ๊ณผ ๊ฐ์ ํน์ ๋๋ฉ์ธ์์์ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ์ ๋ค์ค ํ๋ ์์ํฌ์ ๊ฑธ์ณ ํ๊ฐํ๋ ์ฒ๋.
๊ณตํต ์ฃผ์
์ด๋ฒ ์ฃผ ๋ ผ๋ฌธ๋ค์ AI๊ฐ ํ ์คํธ๋ ์ด๋ฏธ์ง๋ฅผ ๋์ด 3D ๊ณต๊ฐ, ๋น๋์ค, ์ค๋์ค, GUI ํ๊ฒฝ ๋ฑ ๋์ฑ ๋ณต์กํ๊ณ ์ค์ ์ ์ธ ์ธ๊ณ(World)๋ฅผ ์ดํดํ๊ณ ์ํธ์์ฉํ๋ ค๋ ์๋๋ฅผ ๋ณด์ฌ์ค๋๋ค. ๋จ์ํ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ ๊ฒ์ ๋์ด, ์์ด์ ํธ์ ํ๋ จ ์ธํ๋ผ๋ฅผ ๊ตฌ์ถํ๊ฑฐ๋ ๊ฐํ ํ์ต์ ๋ณด์ ๋ฉ์ปค๋์ฆ์ ๊ฐ์ ํ๋ ๋ฑ **โ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ทน๋ํํ๊ธฐ ์ํ ์์คํ ์ ์ด๊ณ ์๊ณ ๋ฆฌ์ฆ์ ์ธ ๊ณ ๋ํโ**์ ์ง์คํ๊ณ ์์ต๋๋ค. ๋ํ, ์์ ์ฝ๋ ์์ฑ๊ณผ ๊ฐ์ด ํน์ํ ๋ถ์ผ์์์ LLM ํ์ฉ ๊ฐ๋ฅ์ฑ์ ๊ฒ์ฆํ๋ ๊ธฐ์ค ๋ง๋ จ์ ์ค์์ฑ์ด ๊ฐ์กฐ๋์์ต๋๋ค.
์ฃผ๋ชฉํ ์
ํนํ ํฅ๋ฏธ๋ก์ด ์ ์ WildDet3D๊ฐ NLP๋ 2D ๋น์ ์์ ์ฃผ๋ก ์ฌ์ฉ๋๋ โํ๋กฌํํธ(Promptable)โ ๊ฐ๋ ์ 3D ๊ฐ์ฒด ๊ฐ์ง๋ก ํ์ฅํ์ฌ, ์ ์๋์ง ์์ ์คํ ์๋ ํ๊ฒฝ์์๋ ์ ์ฐํ๊ฒ ์๋ํ๋๋ก ์ค๊ณํ๋ค๋ ๊ฒ์ ๋๋ค. ๋ํ ClawGUI๋ ๋ชจ๋ธ๋ง ๋ฅ๋ ฅ ์์ฒด๋ณด๋ค๋ ์์ด์ ํธ ์ฐ๊ตฌ์ ๋ณ๋ชฉ์ด ๋๋ โ์ ์ฒด ์คํ ์ธํ๋ผโ ๋ถ์ฌ๋ฅผ ํด๊ฒฐํ์ฌ, ์ค์ ์ํํธ์จ์ด๋ฅผ ์๋ํํ๋ ๋จ๊ณ๋ก ๋์๊ฐ๊ธฐ ์ํ ๋ฐํ์ ๋ง๋ จํ๋ค๋ ์ ์์ ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค.
์ค๋ฌด ์์ฌ์
๊ฐ๋ฐ์์ ์ฐ๊ตฌ์๋ ์ด์ ํ ์คํธ ์ค์ฌ์ LLM ๊ฐ๋ฐ์ ๋์ด ๋น์ -์ธ์ด-์ค๋์ค๊ฐ ํตํฉ๋ ๋ฉํฐ๋ชจ๋ฌ ์์ฑ ๋ชจ๋ธ์ ์ํคํ ์ฒ๋ฅผ ์ดํดํด์ผ ํ ์์ ์ ์์ต๋๋ค. ๋ํ, ์์ด์ ํธ๋ฅผ ๊ฐ๋ฐํ ๋๋ ๋ชจ๋ธ์ ์ง๋ฅ๋ฟ๋ง ์๋๋ผ ์ค์ ์ ํ๋ฆฌ์ผ์ด์ ๊ณผ ์ํธ์์ฉํ ์ ์๋ ํ์ต ๋ฐ ํ๊ฐ ํ๊ฒฝ(Infrastructure) ๊ตฌ์ถ์ด ํต์ฌ ์ฑ๊ณต ์์๊ฐ ๋ ๊ฒ์์ ์ธ์งํด์ผ ํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก, ๊ฐํ ํ์ต์ ์ ์ฉํ ๋ ๊ณผ๊ฑฐ ์คํจ ๊ธฐ๋ก์ ํ์ฉํ ๋ฐ์ดํฐ ์ค์ฌ์ ๋ณด์ ์ค๊ณ๊ฐ ๋ชจ๋ธ์ ํ์ง์ ๋์ด๋ ๋ฐ ์ค์ํ ์ญํ ์ ํ ์ ์์์ ๊ณ ๋ คํด์ผ ํฉ๋๋ค.
๐ ๋ ผ๋ฌธ๋ณ ์์ฝ
๐ฅ 1. WildDet3D: Scaling Promptable 3D Detection in the Wild
arXiv: 2604.08626 | โฌ๏ธ 238 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
ai-paperml
์ด ๋ ผ๋ฌธ์ ๋จ์ ์ด๋ฏธ์ง์์ ํ ์คํธ๋ ํด๋ฆญ๊ณผ ๊ฐ์ ๋ค์ํ ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํด, ํ์ต๋์ง ์์ ๊ฐ์ฒด๊น์ง ์ค์ ํ๊ฒฝ(In the Wild)์์ 3D๋ก ๊ฐ์งํ ์ ์๋ ์ต์ด์ ํตํฉ ๊ธฐํํ ์ธ์ ์ํคํ ์ฒ๋ฅผ ์ ์ํ์ฌ ๊ฐ๋ฐฉํ ์ธ๊ณ์์์ ๊ณต๊ฐ ์ง๋ฅ์ ํ์ฅํ๋ค๋ ์ ์ ์ค์ํ ์๋ฏธ๊ฐ ์์ต๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 2. Seedance 2.0: Advancing Video Generation for World Complexity
arXiv: 2604.14148 | โฌ๏ธ 136 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
video-generationdiffusion-transformerworld-modelingtemporal-consistencyseedancegenerative-aicomputer-vision
์ด ๋ ผ๋ฌธ์ ๋จ์ํ ํ๋ คํจ์ ๋์ด, ๋ฌผ๋ฆฌ ๋ฒ์น๊ณผ ๋ณต์กํ ์ํธ์์ฉ์ด ๋ค์์ธ ์ค์ ์ธ๊ณ์ โ๋ณต์ก์ฑ(World Complexity)โ์ ๋ชจ๋ธ๋งํ์ฌ ์์ฑํ ๋์์์ ํ์ค๊ฐ๊ณผ ๋ ผ๋ฆฌ์ ์ผ๊ด์ฑ์ ํ๊ธฐ์ ์ผ๋ก ๋์ธ ๋ฐ์ ๊ทธ ์ค์์ฑ์ด ์์ต๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 3. The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping
arXiv: 2604.11297 | โฌ๏ธ 135 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
llmreinforcement-learningreward-shapingexplorationclusteringmemory-systemreasoning
๊ฐํ ํ์ต์ ์ ์ฉํ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(Large Language Models)์ด ํ์ต ๊ณผ์ ์์ ํน์ ํ๋์๋ง ๊ณ ์ฐฉํ๋๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๊ณผ๊ฑฐ์ ์ค๋ฅ ํจํด์ ๊ธฐ์ตํ๊ณ ์ด๋ฅผ ๋์ ์ผ๋ก ๋ณด์ ์ค๊ณ์ ๋ฐ์ํ๋ ๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค๋ ์ ์์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
4. 4. ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents
arXiv: 2604.11784 | โฌ๏ธ 134 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
gui-agentreinforcement-learningautomationframeworkmobile-worldmllmdeploymentevaluation
์ด ๋ ผ๋ฌธ์ GUI ์์ด์ ํธ ๊ฐ๋ฐ์ ๊ฐ์ฅ ํฐ ๋ณ๋ชฉ์ด์๋ ์ธํ๋ผ ๋ถ์ฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ฌ, ํ๋ จ๋ถํฐ ํ๊ฐ ๊ทธ๋ฆฌ๊ณ ์ค์ ๋ฐฐํฌ๊น์ง๋ฅผ ํ๋์ ํ์์ ์ํํ ์ ์๋ ์ต์ด์ ํตํฉํ ์คํ์์ค ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํจ์ผ๋ก์จ ์ค์ ๊ธฐ๊ธฐ์์ ์๋ํ๋ ์ ๋ขฐํ ์ ์๋ AI ์๋ํ์ ๊ธธ์ ์ด์๋ค๋ ์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
5. 5. QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation
arXiv: 2604.08570 | โฌ๏ธ 121 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
quantum-computingllm-benchmarkcode-generationqiskitpennylanecirqevaluation-metrickl-divergence
์ด ๋ ผ๋ฌธ์ด ์ค์ํ ์ด์ ๋ ๋จ์ผ ํ๋ ์์ํฌ์ ๊ตญํ๋์ง ์๊ณ Qiskit, PennyLane, Cirq๋ฅผ ๋ชจ๋ ์์ฐ๋ฅด๋ ํตํฉ ๋ฒค์น๋งํฌ(QuanBench+)๋ฅผ ํตํด ์ธ์ด ๋ชจ๋ธ์ ์์ํ ์์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ ์ ์๋ ์ต์ด์ ํ์คํ๋ ์งํ๋ฅผ ์ ์ํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ ์์ฑ์ผ: 2026-04-19 | ๐ค GLM-4.7 Weekly Digest