๐ Weekly AI Paper Digest
๊ธฐ๊ฐ: 2026-05-04 ~ 2026-05-09 ์ ์ : ์ด๋ฒ ์ฃผ ๊ฐ์ฅ ์ฃผ๋ชฉ๋ฐ์ ๋ ผ๋ฌธ Top 5
๐ ์ด๋ฒ ์ฃผ Top 5
| ์์ | ๋ ผ๋ฌธ | โฌ๏ธ | Deep Dive |
|---|---|---|---|
| ๐ฅ | MolmoAct2: Action Reasoning Models for Rโฆ | 266 | DD-082 |
| ๐ฅ | From Context to Skills: Can Language Modโฆ | 145 | DD-083 |
| ๐ฅ | Stream-R1: Reliability-Perplexity Aware โฆ | 117 | DD-084 |
| 4. | RLDX-1 Technical Report | 101 | DD-085 |
| 5. | ARIS: Autonomous Research via Adversariaโฆ | 99 | DD-086 |
๐ ์ด๋ฒ ์ฃผ ํธ๋ ๋
ํต์ฌ ํค์๋
- VLA (Vision-Language-Action) ๋ชจ๋ธ: ์ธ์ด์ ์๊ฐ ์ ๋ณด๋ฅผ ํตํด ๋ก๋ด์ ๋ฌผ๋ฆฌ์ ํ๋์ ์ ์ดํ๋ ์ตํฉ ๋ชจ๋ธ๋ก, ์ค์ ํ๊ฒฝ ๋ฐฐ์น๋ฅผ ์ํ ์ฐ๊ตฌ๊ฐ ๊ธ์ฆํ๊ณ ์์.
- ์ค์ธ๊ณ ๋ฐฐ์น (Real-world Deployment): ๋จ์ํ ๋ฒค์น๋งํฌ ์ฑ๋ฅ์ ๋์ด, ์ค์ ๋ฌผ๋ฆฌ ์ธ๊ณ์ ์ง์ฐ ์๊ฐ(Latency), ๋ณต์ก์ฑ, ์ ๋ขฐ์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ค๋ ์๋.
- ์์จ ์ฐ๊ตฌ ์์ด์ ํธ (Autonomous Agents): LLM์ด ์ค์ค๋ก ์ฐ๊ตฌ๋ฅผ ์ํํ๊ณ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ โํ๋์ค(Harness)โ ๊ตฌ์กฐ์ ํ์ ๋ฐฉ์์ ๋ํ ๊ณ ๋ํ.
- ์ ๋ขฐ๋ ๊ธฐ๋ฐ ์ฆ๋ฅ (Reliability-aware Distillation): ๋น๋์ค ์์ฑ ๋ฑ ์์ฑ ๋ชจ๋ธ์ ํ์ต ํจ์จ์ ๋์ด๊ธฐ ์ํด, ๊ต์ฌ ๋ชจ๋ธ์ ์ถ๋ ฅ์ ๋ฌด๋นํ์ ์ผ๋ก ์์ฉํ์ง ์๊ณ ์ ๋ขฐ๋๋ฅผ ๊ฐ์ค์น๋ก ๋ฐ์ํ๋ ๊ธฐ๋ฒ.
- ์คํฌ ์ถ์ถ ๋ฐ ํ์ต (Skill Learning): ๋ณต์กํ ์ปจํ ์คํธ์์ ์ธ์ด ๋ชจ๋ธ์ด ์ค์ค๋ก ๊ท์น์ด๋ ์ ์ฐจ๋ฅผ โ์คํฌโ๋ก ์ถ์ถํ์ฌ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ๊ฐํํ๋ ๋ฐฉ์.
๊ณตํต ์ฃผ์
์ด๋ฒ ์ฃผ ์ฐ๊ตฌ๋ค์ AI ๋ชจ๋ธ์ด ๋จ์ํ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๊ฑฐ๋ ์์ฑํ๋ ๋จ๊ณ๋ฅผ ๋์ด, **์ค์ ํ๊ฒฝ์์ ํ๋ํ๊ฑฐ๋ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ์์จ์ ์ผ๋ก ํด๊ฒฐํ๋ โ์คํ ๊ฐ๋ฅํ AI(Actionable AI)โ**๋ก ์งํํ๊ณ ์์์ ๋ณด์ฌ์ค๋๋ค. ํนํ ๋ก๋ด ์ ์ด(VLA)์ ์์จ ์ฐ๊ตฌ ์์ด์ ํธ ๋ถ์ผ์์, ๋ชจ๋ธ์ ์ง๋ฅ์ ์ค์ ๋ฌผ๋ฆฌ์ ์์ ์ด๋ ์ฅ๊ธฐ๊ฐ์ ์ฐ๊ตฌ ๊ณผ์ ์ ํจ์จ์ ์ด๊ณ ์ ๋ขฐ์ฑ ์๊ฒ ์ ์ฉํ๋ ค๋ ๋ ธ๋ ฅ์ด ๋๋๋ฌ์ง๋๋ค.
์ฃผ๋ชฉํ ์
๋ก๋ด ๊ณตํ ๋ถ์ผ์์๋ VLA ๋ชจ๋ธ์ ์ค์ฉ์ฑ์ ๋์ด๊ธฐ ์ํด โํ๋ ์ถ๋ก (Action Reasoning)โ๊ณผ ๋ณต์กํ ๊ธฐ์ต๋ ฅ/์ด๋ ์ธ์ ๋ฅ๋ ฅ์ ๊ฒฐํฉํ๋ ๊ธฐ์ (MolmoAct2, RLDX-1)์ด ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค. ๋ํ, ์์ฑ ๋ชจ๋ธ๊ณผ ์ธ์ด ๋ชจ๋ธ์ ํ์ต ๋ฐฉ์์ ์์ด์๋ ๋จ์ํ ๋ฐ์ดํฐ ์์ ํ๋ณด๋ณด๋ค๋ โ์ด๋ค ์ ๋ณด๊ฐ ๋ ๊ฐ์น ์๋์ง(Reliability)โ๋ฅผ ํ๋จํ๊ฑฐ๋ โํต์ฌ ์คํฌโ์ ์ถ์ถํ์ฌ ํ์ต ํจ์จ๊ณผ ์ถ๋ก ์ฑ๋ฅ์ ๊ทน๋ํํ๋ ค๋ ์ ๊ตํ ์ต์ ํ ๊ธฐ์ (Stream-R1, From Context to Skills)์ด ๋ฑ์ฅํ์ต๋๋ค.
์ค๋ฌด ์์ฌ์
๋ก๋ด ๋ฐ ์๋ํ ๋ถ์ผ ๊ฐ๋ฐ์๋ VLA ๋ชจ๋ธ์ ์คํ ์์คํ ๊ฒฝํฅ๊ณผ ์ค์๊ฐ ์ ์ด๋ฅผ ์ํ ์ง์ฐ ์๊ฐ ์ต์ ํ ๊ธฐ์ ์ ์ฃผ๋ชฉํ์ฌ, ์ค์ ์ฐ์ ํ์ฅ์ ํฌ์ ๊ฐ๋ฅํ ๋ก๋ด ์ ์ด ์์คํ ์ ์ค๊ณํด์ผ ํฉ๋๋ค. AI ์ฐ๊ตฌ์ ๋ฐ ์์ง๋์ด๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด ๊ฑฐ๋ํ ํ๋ผ๋ฏธํฐ ์ธ์๋ **โ๋ฐ์ดํฐ์ ์ ๋ขฐ๋ ๊ฐ์ค์นโ๋ โ์ปจํ ์คํธ๋ก๋ถํฐ์ ์คํฌ ์ถ์ถ ๊ตฌ์กฐโ**์ ๊ฐ์ ํ์ต ํจ์จํ ์๊ณ ๋ฆฌ์ฆ์ ์ ๊ทน์ ์ผ๋ก ๋์ ํด์ผ ํฉ๋๋ค. ๋ํ, ์์จ ์์ด์ ํธ ์์คํ ๊ตฌ์ถ ์ ๋ชจ๋ธ ์์ฒด๋ณด๋ค๋ ์์ด์ ํธ์ ์ ๋ณด ์ ์ฅ ๋ฐ ๊ฒ์์ ๊ด๋ฆฌํ๋ โํ๋์ค(Harness)โ ์ํคํ ์ฒ๊ฐ ์ฑ๋ฅ์ ํต์ฌ์์ ์ธ์งํ๊ณ ์์คํ ๋ ๋ฒจ์ ์ค๊ณ์ ์ง์คํด์ผ ํฉ๋๋ค.
๐ ๋ ผ๋ฌธ๋ณ ์์ฝ
๐ฅ 1. MolmoAct2: Action Reasoning Models for Real-world Deployment
arXiv: 2605.02881 | โฌ๏ธ 266 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
vlaembodied-airoboticsopen-sourcemolmoact2flow-matchingreasoning
๊ธฐ์กด์ ํ์์ ์ด๊ฑฐ๋ ๊ณ ์ฑ๋ฅ ํ๋์จ์ด๋ฅผ ์๊ตฌํ๋ ๋ชจ๋ธ๋ค๊ณผ ๋ฌ๋ฆฌ, ์ค์ ํ์ฅ ๋ฐฐ์น๋ฅผ ๋ชฉํ๋ก ํ๋ ์์ ๊ฐ๋ฐฉํ์ด๊ณ ํจ์จ์ ์ธ ํ๋ ์ถ๋ก ๋ชจ๋ธ์ ์ ์ํ์ฌ ๋ก๋ด์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ๊ณผ ์ค์ฉ์ฑ์ ํ๊ธฐ์ ์ผ๋ก ๋์์ต๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 2. From Context to Skills: Can Language Models Learn from Context Skillfully?
arXiv: 2604.27660 | โฌ๏ธ 145 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
context-learningself-playllm-agentsskill-augmentationreasoningautomous-learningctx2skill
์ด ๋ ผ๋ฌธ์ ๋ณต์กํ ๋งฅ๋ฝ์์ ์ธ๊ฐ์ ๊ฐ์ ์์ด๋ ์ธ์ด ๋ชจ๋ธ์ด ์ค์ค๋ก ํ์ํ ์ง์๊ณผ ๊ท์น์ ์ถ์ถํ์ฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฅ๋ ฅ์ ๊ฐ์ถ๋๋ก ๋ง๋ ์๊ฐ ์งํ(Self-evolving) ํ๋ ์์ํฌ์ธ Ctx2Skill์ ์ ์ํ๋ค๋ ์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 3. Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation
arXiv: 2605.03849 | โฌ๏ธ 117 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
stream-r1video-generationknowledge-distillationreward-modelingai-efficiencydiffusion-modelscomputer-vision
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
4. 4. RLDX-1 Technical Report
arXiv: 2605.03269 | โฌ๏ธ 101 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
rldx-1vlamulti-modal-learningroboticsdexterous-manipulationsynthetic-datatransformer
๊ธฐ์กด ์๊ฐ-์ธ์ด-ํ๋ ๋ชจ๋ธ์ ์ง๋ฅ์ ์ดํด ๋ฅ๋ ฅ์ ๋์ ์ธ์, ์ฅ๊ธฐ ๊ธฐ์ต, ๋ฌผ๋ฆฌ์ ๊ฐ๊ฐ๊ณผ ๊ฐ์ ๊ธฐ๋ฅ์ ์ญ๋์ ํตํฉํ์ฌ ์ค์ ํ๊ฒฝ์์ ์ฌ๋๊ณผ ๊ฐ์ ์ ๊ตํ ์กฐ์์ด ๊ฐ๋ฅํ ๋ฒ์ฉ ๋ก๋ด ์ ์ฑ ์ ๊ตฌํํ๋ค๋ ์ ์์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
5. 5. ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration
arXiv: 2605.03042 | โฌ๏ธ 99 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
autonomous-researchmulti-agentadversarial-collaborationml-automationllm-agentspeer-reviewsystem-architecture
๋จ์ผ ๋ชจ๋ธ์ด ์ค์ค๋ก ์ํํ๊ณ ๊ฒ์ฆํ๋ ๊ธฐ์กด ๋ฐฉ์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ ๊ณ์ด์ด ๋๋ฆฝ์ ์ผ๋ก ํ์ ํ๋ ์๊ฒฉํ ๊ฒ์ฆ ์์คํ ์ ํตํด ์ฅ๊ธฐ์ ์ธ ๋จธ์ ๋ฌ๋ ์ฐ๊ตฌ์ ์ ๋ขฐ์ฑ์ ํ๋ณดํ ARIS ์์คํ ์ ์ ์ํ๊ธฐ ๋๋ฌธ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ ์์ฑ์ผ: 2026-05-10 | ๐ค GLM-4.7 Weekly Digest