๐ Weekly AI Paper Digest
๊ธฐ๊ฐ: 2026-05-18 ~ 2026-05-23 ์ ์ : ์ด๋ฒ ์ฃผ ๊ฐ์ฅ ์ฃผ๋ชฉ๋ฐ์ ๋ ผ๋ฌธ Top 5
๐ ์ด๋ฒ ์ฃผ Top 5
| ์์ | ๋ ผ๋ฌธ | โฌ๏ธ | Deep Dive |
|---|---|---|---|
| ๐ฅ | CiteVQA: Benchmarking Evidence Attributiโฆ | 262 | DD-092 |
| ๐ฅ | Code as Agent Harness | 199 | DD-093 |
| ๐ฅ | Anti-Self-Distillation for Reasoning RL โฆ | 189 | DD-094 |
| 4. | DelTA: Discriminative Token Credit Assigโฆ | 189 | DD-095 |
| 5. | TransitLM: A Large-Scale Dataset and Benโฆ | 167 | DD-096 |
๐ ์ด๋ฒ ์ฃผ ํธ๋ ๋
ํต์ฌ ํค์๋
- ์ ๋ขฐํ ์ ์๋ ์ถ๋ก (Trustworthy Reasoning): ๋จ์ํ ์ ๋ต์ ๋งํ๋ ๊ฒ์ ๋์ด, ๋ต๋ณ์ ๊ทผ๊ฑฐ๊ฐ ์ฌ๋ฐ๋ฅธ์ง ์ฆ๋ช ํ๊ฑฐ๋(Evidence Attribution) ํ์ต ๊ณผ์ ์์์ ์ ๋ขฐ์ฑ์ ๋์ด๋ ๋ฐฉํฅ(RL)์ ์ฐ๊ตฌ.
- ์ฝ๋ ๊ธฐ๋ฐ ์์ด์ ํธ (Code as Agent Harness): ์ฝ๋๋ฅผ ๋จ์ํ ์์ฑ ๊ฒฐ๊ณผ๋ฌผ์ด ์๋, ์์ด์ ํธ๊ฐ ์ฌ๊ณ ํ๊ณ ํ๋ํ๋ฉฐ ํ๊ฒฝ์ ๋ชจ๋ธ๋งํ๋ ํต์ฌ ๋๊ตฌ(Substrate)๋ก ํ์ฉํ๋ ํจ๋ฌ๋ค์.
- ๊ฐํ ํ์ต์ ์ ๊ตํ (Advanced RL for Reasoning): ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์(Verifiable Rewards)์ ํตํด ์ถ๋ก ๋ฅ๋ ฅ์ ํค์ฐ๋, ํ ํฐ ๋จ์์ ์ ๋ขฐ ํ ๋น(Credit Assignment)์ด๋ ์๊ธฐ ์ฆ๋ฅ(Self-Distillation)์ ์คํจ ์์ธ์ ๋ถ์ํ์ฌ ํ์ต ํจ์จ์ ๊ทน๋ํํ๋ ค๋ ์๋.
- ๊ตฌ์กฐ ๋ ๋ฆฝ์ ์ง๋ฅ (Map-Free Intelligence): ๋ณต์กํ ๋ด๋ถ ์ง๋ ์์ง์ด๋ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ์์กดํ์ง ์๊ณ ์ธ์ด ๋ชจ๋ธ์ด ์ง์ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ก๋ถํฐ ๊ฒฝ๋ก๋ฅผ ๊ณํํ๋ ์ค์ฉ์ ์ ๊ทผ.
๊ณตํต ์ฃผ์
์ด๋ฒ ์ฃผ ๋ ผ๋ฌธ๋ค์ AI ๋ชจ๋ธ์ด ๋จ์ํ โ์ ๋ต์ ์์ฑโํ๋ ๋จ๊ณ๋ฅผ ๋์ด, ๊ทธ ์ ๋ต์ด โ์ด๋ป๊ฒ(How)โ ๊ทธ๋ฆฌ๊ณ โ์(Why)โ ๋์ถ๋์๋์ง์ ๋ํ ์ ๋ขฐ์ฑ๊ณผ ํฌ๋ช ์ฑ์ ํ๋ณดํ๋ ๋ฐ ์ฃผ๋ ฅํ๊ณ ์์ต๋๋ค. ๋ฌธ์ ๋ถ์์์์ ๊ทผ๊ฑฐ ์ ์ ์๊ตฌ, ์ํ ์ถ๋ก ์์์ ๋ณด์ ๋ฉ์ปค๋์ฆ ๋ถ์, ๊ทธ๋ฆฌ๊ณ ์ฝ๋๋ฅผ ํตํ ํ๊ฒฝ ์ํธ์์ฉ ๋ฑ ๋ชจ๋ธ์ ์ฌ๊ณ ๊ณผ์ (Process)์ ๊ฒ์ฆ ๊ฐ๋ฅํ ํํ๋ก ๋ง๋๋ ๊ฒ์ด ๊ณตํต๋ ๋ฐฉํฅ์ฑ์ ๋๋ค.
์ฃผ๋ชฉํ ์
CiteVQA๋ ๊ธฐ์กด VQA ํ๊ฐ ๋ฐฉ์์ ํ๊ณ๋ฅผ ์ง์ ํ๋ฉฐ, ๋ชจ๋ธ์ด ์ฐ์ฐํ ์ ๋ต์ ๋งํ๋๋ผ๋ ์๋ชป๋ ๊ทผ๊ฑฐ๋ฅผ ๋์ ๊ฒฝ์ฐ ์ด๋ฅผ ์ค๋ต์ผ๋ก ๊ฐ์ฃผํด์ผ ํ๋ค๊ณ ์ฃผ๋ชฉํ์ฌ ํฅ๋ฏธ๋ฅผ ๋๋๋ค. ๋ํ, DelTA์ Anti-Self-Distillation ๋ ผ๋ฌธ์์๋ ๊ฑฐ์์ ์ธ ๊ฐํ ํ์ต ์ฑ๋ฅ ํฅ์๋ฟ๋ง ์๋๋ผ, ๋ณด์์ด ๊ฐ๋ณ ํ ํฐ์ ๋ฏธ์น๋ ์ํฅ์ ๋ถ์ํ๊ฑฐ๋ ์๊ธฐ ์ฆ๋ฅ ํ์ต์ด ์ธ์ ์คํจํ๋์ง๋ฅผ ์ํ์ ์ผ๋ก(์ํธ ์ ๋ณด๋ ๋ฑ) ๊ท๋ช ํ์ฌ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋ด๋ถ ๋ฉ์ปค๋์ฆ์ ํ๊ณ ๋๋ ๋ฏธ์ธํ ์ ๊ทผ์ด ์ธ์์ ์ ๋๋ค.
์ค๋ฌด ์์ฌ์
๊ฐ๋ฐ์์ ์ฐ๊ตฌ์๋ RAG(๊ฒ์ ์ฆ๊ฐ ์์ฑ)๋ ๋ฌธ์ ๋ถ์ ์์คํ ์ ๊ตฌ์ถํ ๋ ์ต์ข ๋ต๋ณ์ ์ ํ๋๋ฟ๋ง ์๋๋ผ **๋ต๋ณ์ ๊ทผ๊ฑฐ๊ฐ ์ถ์ฒ์ ์ผ์นํ๋์ง๋ฅผ ๊ฒ์ฆํ๋ ํ๋ก์ธ์ค(Citation verification)**๋ฅผ ๋ณ๋๋ก ์ค๊ณํด์ผ ํฉ๋๋ค. ๋ํ, ๋ณต์กํ ์ถ๋ก ์ด ํ์ํ ์์ด์ ํธ๋ฅผ ๊ฐ๋ฐ ์ ์ฝ๋๋ฅผ ์คํ ๊ฐ๋ฅํ ์ธํฐํ์ด์ค๋ก ์ ๊ทน ํ์ฉํ๊ณ , ํ์ต ๋ฐ์ดํฐ์ ๊ตฌ์ถ ์ ์ธ๋ถ ๋๊ตฌ ์์กด๋๋ฅผ ๋ฎ์ถ ์์ ์ธ์ด ๊ธฐ๋ฐ์ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ(Map-free)์ ํค์ฐ๋ ๋ฐ์ดํฐ๋ฅผ ๊ณ ๋ คํด๋ณผ ๋งํฉ๋๋ค.
๐ ๋ ผ๋ฌธ๋ณ ์์ฝ
๐ฅ 1. CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence
arXiv: 2605.12882 | โฌ๏ธ 262 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
citevqadocument-intelligencemultimodal-llmbenchmarkhallucinationevidence-attributiontrustworthy-aidoc-vqa
์ด ๋ ผ๋ฌธ์ ๋ฌธ์ ์ดํด ๋ชจ๋ธ์ ์ ๋ขฐ์ฑ์ ๊ฒ์ฆํ๊ธฐ ์ํด ๋จ์ํ ์ ๋ต๋ฅ ํ๊ฐ๋ฅผ ๋์ด, ๋ชจ๋ธ์ด ๋ต์ ๋์ถํ ๊ทผ๊ฑฐ๊ฐ ๋๋ ๋ฌธ์ ๋ด ํน์ ์์น๋ฅผ ์ ํํ ์ธ์ฉ(Citation)ํ๋์ง๊น์ง ํ๊ฐํ๋ ์๋ก์ด ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ค๋ ์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 2. Code as Agent Harness
arXiv: 2605.18747 | โฌ๏ธ 199 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
llm-agentcode-as-harnessmulti-agent-systemsoftware-engineeringprompt-engineeringai-orchestrationreasoningsurvey-paper
์ด ๋ ผ๋ฌธ์ ์ฝ๋๋ฅผ ๋จ์ํ ์์ฑ ๊ฒฐ๊ณผ๋ฌผ์ด ์๋, AI ์์ด์ ํธ๊ฐ ์ถ๋ก ํ๊ณ ํ๋ํ๋ฉฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ ํต์ฌ ์ธํ๋ผ์ธ โ์์ด์ ํธ ํ๋ค์ค(Agent Harness)โ๋ก ์ฌ์ ์ํ๋ฉฐ, ์ด๋ฅผ ํตํด ์ํํธ์จ์ด ๊ณตํ์ ํจ๋ฌ๋ค์์ ๋จ์ผ ๋ชจ๋ธ ์์ฑ์์ ๋ค์ค ์์ด์ ํธ ํ์ ์ฒด๊ณ๋ก ํ์ฅํ๋ ๋ฐ ์ค์ํ ์ด๋ก ์ ํ์ ์ ๊ณตํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 3. Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information
arXiv: 2605.11609 | โฌ๏ธ 189 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
anti-self-distillationreasoning-rlpmillmmath-reasoningrlvron-policy-learning
์ํ์ ์ถ๋ก ๊ณผ์ ์์ ๋ชจ๋ธ ์ค์ค๋ก ์์ฑํ ์ ๋ต ์ ๋ณด๊ฐ ์คํ๋ ค ํ์ ๋ฅ๋ ฅ์ ์ ํดํ๋ค๋ ๋ฌธ์ ๋ฅผ ํต๊ณ์ ๋ถ์์ผ๋ก ๊ท๋ช ํ๊ณ , ์ด๋ฅผ ์ญ์ด์ฉํ์ฌ ํ์ต ํจ์จ์ ํ๊ธฐ์ ์ผ๋ก ๋์ธ ์๋ก์ด ๊ฐํ ํ์ต ํจ๋ฌ๋ค์์ ์ ์ํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
4. 4. DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards
arXiv: 2605.21467 | โฌ๏ธ 189 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
rlvrllmreasoningcredit-assignmentreinforcement-learningmath-reasoningdelta-paper
์ด ๋ ผ๋ฌธ์ ์ํ์ค ์์ค์ ๋ณด์๋ง์ผ๋ก ํ ํฐ ์์ค์ ํ์ต์ ์ ๋ํ๋ ๊ฐํ ํ์ต(RLVR) ๋ฉ์ปค๋์ฆ์ ์ด๋ก ์ ์ผ๋ก ๊ท๋ช ํ๊ณ , ์ด๋ฅผ ํตํด ์ธ์ด ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํจ๊ณผ์ ์ผ๋ก ํฅ์์ํค๋ ์๋ก์ด ์ ์ฉ ํ ๋น ๊ธฐ๋ฒ์ ์ ์ํ๊ธฐ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
5. 5. TransitLM: A Large-Scale Dataset and Benchmark for Map-Free Transit Route Generation
arXiv: 2605.22355 | โฌ๏ธ 167 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
transitlmroute-planningllmnlpspatial-reasoningmap-freebenchmarktransportation
์ด ๋ ผ๋ฌธ์ด ์ค์ํ ์ด์ ๋ ๋ณต์กํ ๋์ค๊ตํต ๊ฒฝ๋ก ํ์์ ๊ธฐ์กด์ ์ง๋ ๋ฐ์ดํฐ๋ ๋ผ์ฐํ ์์ง(Routing Engine) ์์ด ์ค๋ก์ง ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ตํ์ฌ ํด๊ฒฐํ ์ ์์์ ์ฆ๋ช ํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ ์์ฑ์ผ: 2026-05-24 | ๐ค GLM-4.7 Weekly Digest