๐ Weekly AI Paper Digest
๊ธฐ๊ฐ: 2026-05-25 ~ 2026-05-30 ์ ์ : ์ด๋ฒ ์ฃผ ๊ฐ์ฅ ์ฃผ๋ชฉ๋ฐ์ ๋ ผ๋ฌธ Top 5
๐ ์ด๋ฒ ์ฃผ Top 5
| ์์ | ๋ ผ๋ฌธ | โฌ๏ธ | Deep Dive |
|---|---|---|---|
| ๐ฅ | Gamma-World: Generative Multi-Agent Worlโฆ | 404 | DD-097 |
| ๐ฅ | SkillOpt: Executive Strategy for Self-Evโฆ | 207 | DD-098 |
| ๐ฅ | DVAO: Dynamic Variance-adaptive Advantagโฆ | 132 | DD-099 |
| 4. | LocateAnything: Fast and High-Quality Viโฆ | 127 | DD-100 |
| 5. | AgentDoG 1.5: A Lightweight and Scalableโฆ | 120 | DD-101 |
๐ ์ด๋ฒ ์ฃผ ํธ๋ ๋
ํต์ฌ ํค์๋
- ๋ฉํฐ ์์ด์ ํธ ์์คํ (Multi-Agent Systems): ๋จ์ผ ์์ด์ ํธ๋ฅผ ๋์ด ์ฌ๋ฌ ์์ด์ ํธ๊ฐ ์ํธ์์ฉํ๊ฑฐ๋ ๊ณต์ ํ๊ฒฝ์์ ๋์์ ํ๋ํ๋ ๋ณต์กํ ์๋ฎฌ๋ ์ด์ ๋ฐ ์ธ๊ณ ๋ชจ๋ธ๋ง.
- ์๊ธฐ ์งํ ์์ด์ ํธ (Self-Evolving Agents): ์ฌ๋์ ๊ฐ์ ์์ด ์์ด์ ํธ๊ฐ ์์ ์ ์คํฌ(Skill)์ ์ธ๋ถ ๊ฐ์ค์น์ฒ๋ผ ์ต์ ํํ์ฌ ์ค์ค๋ก ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฉ์ปค๋์ฆ.
- ํจ์จ์ ์ ๋ ฌ ๋ฐ ์ต์ ํ (Efficient Alignment & Optimization): ๋ค์ค ๋ณด์(Multi-reward) ํ๊ฒฝ์์์ ๊ฐํ ํ์ต ์ ๋ ฌ, ๊ฒฝ๋ํ๋ ์์ ํ๋ ์์ํฌ, ๋ณ๋ ฌ ๋์ฝ๋ฉ์ ํตํ ์ถ๋ก ์๋ ํฅ์.
๊ณตํต ์ฃผ์
์ด๋ฒ ์ฃผ ๋ ผ๋ฌธ๋ค์ ๋จ์ผ ์์ด์ ํธ์ ํ๊ณ๋ฅผ ๋์ด์ ๋ณตํฉ์ ์ด๊ณ ์ญ๋์ ์ธ ์์ด์ ํธ ์ํ๊ณ์ ๊ทธ ํต์ ๋ฐฉ์์ ์ง์คํ๊ณ ์์ต๋๋ค. ๋จ์ํ ์ง์ ์ํ์ ๋์ด, ์์ด์ ํธ๊ฐ ๋ณต์กํ ํ๊ฒฝ(๋ฉํฐ ์์ด์ ํธ)์์ ์ํธ์์ฉํ๊ฑฐ๋ ์ค์ค๋ก ํ์ต(์๊ธฐ ์งํ)ํ ์ ์๋ ๋ฅ๋ ฅ์ ๊ฐ์ถ๋๋ก ์ค๊ณํ๋ ๋์์, ์ด๋ฌํ ๊ณ ๊ธฐ๋ฅ ์์ด์ ํธ๋ฅผ ์์ ํ๊ณ ํจ์จ์ ์ผ๋ก ์ ์ดํ๊ธฐ ์ํ ์๊ณ ๋ฆฌ์ฆ(์ ๋ ฌ, ์ต์ ํ, ์์ ํ๋ ์์ํฌ)์ด ํจ๊ป ์ ์๋๊ณ ์์ต๋๋ค.
์ฃผ๋ชฉํ ์
**โGamma-Worldโ**์ **โSkillOptโ**๋ ์์ด์ ํธ๋ฅผ ๋จ์ํ ์คํ ๋๊ตฌ๊ฐ ์๋, ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ์ค์ค๋ก ๋ด๋ถ ์ํ(์คํฌ)๋ฅผ ์ต์ ํํ๋ โํ์ต ์ฃผ์ฒดโ๋ก ์ ์ํ๊ณ ์๋ค๋ ์ ์ด ํฅ๋ฏธ๋กญ์ต๋๋ค. ๋ํ **โLocateAnythingโ**์ด๋ **โAgentDoG 1.5โ**์์ ๋ณด๋ฏ์ด, ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋์ด๋ ๊ฒ๋ฟ๋ง ์๋๋ผ ๋ณ๋ ฌ ์ฒ๋ฆฌ๋ ๊ฒฝ๋ํ๋ฅผ ํตํด ์ค์ ์ค๋ฌด ํ๊ฒฝ์์์ ์๋์ ๋ณด์์ฑ์ ํ๋ณดํ๋ ค๋ ๊ธฐ์ ์ ์๋๊ฐ ๋๋๋ฌ์ง๋๋ค.
์ค๋ฌด ์์ฌ์
๊ฐ๋ฐ์์ ์ฐ๊ตฌ์๋ ์ด์ LLM์ ํ์ฉํ ๋จ์ผ ์ฑ๋ด ๊ฐ๋ฐ์ ๋์ด ๋ฉํฐ ์์ด์ ํธ ๊ฐ์ ํ๋ ฅ ๋ฐ ๊ฒฝ์ ์๋๋ฆฌ์ค๋ฅผ ์ค๊ณํ ์ค๋น๋ฅผ ํด์ผ ํฉ๋๋ค. ๋ํ, ์์ด์ ํธ์ ์ฑ๋ฅ์ ๊ทน๋ํํ๊ธฐ ์ํด ํ๋กฌํํธ ์์ง๋์ด๋ง๋ฟ๋ง ์๋๋ผ ๊ฐํ ํ์ต ๊ธฐ๋ฐ์ ์ ๋ ฌ ๊ธฐ๋ฒ(DVAO ๋ฑ)๊ณผ ์๊ธฐ ์ต์ ํ ๋ฃจํ๋ฅผ ๋ชจ๋ธ ๊ฐ๋ฐ ํ์ดํ๋ผ์ธ์ ์ ๊ทน ๋์ ํด์ผ ํ๋ฉฐ, ๋ฐฐํฌ ์ **์ถ๋ก ์๋(๋ณ๋ ฌ ๋์ฝ๋ฉ)์ ์์ ์ฑ(Alignment Framework)**์ ๊ฒ์ฆํ๋ ํ๋ก์ธ์ค๊ฐ ํ์์ ์ด ๋์์ต๋๋ค.
๐ ๋ ผ๋ฌธ๋ณ ์์ฝ
๐ฅ 1. Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players
arXiv: 2605.28816 | โฌ๏ธ 404 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
world-modelmulti-agentdiffusion-transformersimplex-ropevideo-generationsimulationefficient-architecture
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 2. SkillOpt: Executive Strategy for Self-Evolving Agent Skills
arXiv: 2605.23904 | โฌ๏ธ 207 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
skilloptllm-agenttext-optimizationself-evolvingprompt-optimizationreinforcement-learningnlp
์ด ๋ ผ๋ฌธ์ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ์์ ํ์ง ์๊ณ ๋ ํ ์คํธ ํํ์ โ์คํฌ(Skill)โ์ ๋ง์น ์ ๊ฒฝ๋ง์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ต์ ํํ๋ฏ ์์ ์ ์ด๊ณ ์ง์์ ์ผ๋ก ๋ฐ์ ์ํฌ ์ ์๋ ์ต์ด์ ์ต์ ํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค๋ ์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 3. DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning
arXiv: 2605.25604 | โฌ๏ธ 132 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
llmrlhfgrpomulti-rewardoptimizationalignmentdavoreasoning
DVAO๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ๊ฐํ ํ์ต ์ ๋ ฌ ๊ณผ์ ์์ ์ฌ๋ฌ ๊ฐ์ง ๋ณด์(Multi-reward)์ ๋์์ ์ต์ ํํ ๋ ๋ฐ์ํ๋ ํ์ต ๋ถ์์ ์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ถ์ฐ(Variance)์ ๋์ ์ผ๋ก ์กฐ์ ํ์ฌ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ์์ ์ ์ด๊ณ ํจ์จ์ ์ธ ์ต์ ํ๋ฅผ ์ํํ๋ค๋ ์ ์์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
4. 4. LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding
arXiv: 2605.27365 | โฌ๏ธ 127 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
vlmobject-detectiongroundingparallel-decodingcomputer-visionefficiencytransformer
๊ธฐ์กด์ ์์ฐจ์ ํ ํฐ ์์ฑ ๋ฐฉ์์ด ๊ฐ์ง ์๋์ ์ ํ๋์ ํ๊ณ๋ฅผ, ๋ฐ์ด๋ฉ ๋ฐ์ค(Bounding Box)๋ฅผ ํ๋์ ๋จ์๋ก ํ ๋ฒ์ ํด์ํ๋ ๋ณ๋ ฌ ๋์ฝ๋ฉ(Parallel Decoding) ๊ธฐ๋ฒ์ ํตํด ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ํ์ฌ ์ค์๊ฐ ๋น์ -์ธ์ด ๋ชจ๋ธ์ ์ค์ฉํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ ๋๋ฌธ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
5. 5. AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security
arXiv: 2605.29801 | โฌ๏ธ 120 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
agent-safetyalignmentlightweight-modelsdata-purificationtrajectory-analysisrlhfguardrails
์ต์ ์คํ ์๋ AI ์์ด์ ํธ(OpenClaw ๋ฑ)์ ๋ณด์ ์ํ์ ํด๊ฒฐํ๊ธฐ ์ํด, ๋จ 1,000๊ฐ์ ์ ์ ๋ฐ์ดํฐ๋ก๋ ์ต์์ ํ์ํ ๋ชจ๋ธ(Closed-source model)๊ณผ ๋๋ฑํ ์ฑ๋ฅ์ ๋ด๋ ๊ฒฝ๋ํ๋ ์ ๋ ฌ ํ๋ ์์ํฌ์ธ AgentDoG 1.5๋ฅผ ์ ์ํ์ฌ ์์ ํ๊ณ ํ์ฅ ๊ฐ๋ฅํ ์์ด์ ํธ ์ํ๊ณ๋ฅผ ๊ตฌ์ถํ๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ ์์ฑ์ผ: 2026-05-31 | ๐ค GLM-4.7 Weekly Digest