๐ Weekly AI Paper Digest
๊ธฐ๊ฐ: 2026-04-06 ~ 2026-04-11 ์ ์ : ์ด๋ฒ ์ฃผ ๊ฐ์ฅ ์ฃผ๋ชฉ๋ฐ์ ๋ ผ๋ฌธ Top 5
๐ ์ด๋ฒ ์ฃผ Top 5
| ์์ | ๋ ผ๋ฌธ | โฌ๏ธ | Deep Dive |
|---|---|---|---|
| ๐ฅ | Adamโs Law: Textual Frequency Law on Larโฆ | 411 | DD-062 |
| ๐ฅ | GrandCode: Achieving Grandmaster Level iโฆ | 348 | DD-061 |
| ๐ฅ | Rethinking Generalization in Reasoning Sโฆ | 228 | DD-066 |
| 4. | InCoder-32B-Thinking: Industrial Code Woโฆ | 225 | DD-064 |
| 5. | Video-MME-v2: Towards the Next Stage in โฆ | 225 | DD-063 |
๐ ์ด๋ฒ ์ฃผ ํธ๋ ๋
ํต์ฌ ํค์๋
- ์ถ๋ก ๋ฐ ์ฝ๋ ํนํ (Reasoning & Code Specialization): ๊ฒฝ์์ ํ๋ก๊ทธ๋๋ฐ์ด๋ ์ฐ์ ์ฉ ์ฝ๋์ ๊ฐ์ ๊ณ ๋๋ ๋ฌธ์ ํด๊ฒฐ์ ์ํ ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ทน๋ํํ๋ ์ฐ๊ตฌ๊ฐ ์ฃผ๋ฅผ ์ด๋ฃธ.
- ์ผ๋ฐํ ๋ฐ ํ์ต ๋ฉ์ปค๋์ฆ (Generalization & Learning Dynamics): SFT(๊ฐ๋ ๋ฏธ์ธ ์กฐ์ )๊ฐ ๋จ์ ์๊ธฐ์ ๊ทธ์น๋์ง ์๋๋ฉด ์ผ๋ฐํ๊ฐ ๊ฐ๋ฅํ์ง๋ฅผ ์ฌ์กฐ๋ช ํ๋ฉฐ, ์ต์ ํ์ ๋ฐ์ดํฐ์ ์กฐ๊ฑด์ ๋ถ์.
- ๊ฐํ ํ์ต์ ๋ถํ (Rise of RL): ์ฝ๋ฉ ๋ฐ ๋ฌธ์ ํด๊ฒฐ ์์ญ์์ ์ธ๊ฐ ์์ค์ ๋์ด์๊ธฐ ์ํด ์์ด์ ํธ ๊ธฐ๋ฐ ๊ฐํ ํ์ต(RL)์ ์ ๊ทน์ ์ผ๋ก ํ์ฉ.
- ํ๊ฐ์ ๊ฒฌ๊ณ ํจ (Robust Evaluation): ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ์ ์ ์ธํ๋ ์ด์ ๋ฌธ์ ๋ฅผ ์ง์ ํ๊ณ , ๋ชจ๋ธ์ ์ค์ ์ฑ๋ฅ๊ณผ ์ ๋ขฐ์ฑ์ ์ธก์ ํ๊ธฐ ์ํ ๋ ์๊ฒฉํ ํ๊ฐ ๊ธฐ์ค ์ ์.
๊ณตํต ์ฃผ์
์ด๋ฒ ์ฃผ ๋ ผ๋ฌธ๋ค์ ํนํ ์ฝ๋ ์์ฑ๊ณผ ๋ณต์กํ ์ถ๋ก (Reasoning) ์์ญ์์ AI์ ์ฑ๋ฅ์ ์ธ๊ฐ ์์ค ์ด์์ผ๋ก ๋์ด์ฌ๋ฆฌ๋ ๋ฐ ์ง์คํ๊ณ ์์ต๋๋ค. ๋จ์ํ ๋ชจ๋ธ์ ๊ท๋ชจ๋ฅผ ํค์ฐ๋ ๊ฒ์ ๋์ด, **๊ฐํ ํ์ต(RL)๊ณผ ๊ณ ํ์ง์ ์ถ๋ก ๋ฐ์ดํฐ(Chain-of-Thought)**๋ฅผ ์ด๋ป๊ฒ ํจ์จ์ ์ผ๋ก ํ์ฉํ ๊ฒ์ธ์ง, ๊ทธ๋ฆฌ๊ณ SFT์ ์ง์ง ์ญํ ์ด ๋ฌด์์ธ์ง์ ๋ํด ์ฌ๋ ์๋ ๋ถ์์ ์๋ํ๊ณ ์๋ค๋ ์ ์ด ํน์ง์ ๋๋ค.
์ฃผ๋ชฉํ ์
๊ธฐ์กด์๋ โSFT๋ ์๊ธฐ๋ฅผ ํ๊ณ RL์ ์ผ๋ฐํ๋ฅผ ํ๋คโ๋ ํต๋ ์ด ์ง๋ฐฐ์ ์ด์์ผ๋, **3๋ฒ ๋ ผ๋ฌธ(Rethinking Generalization in Reasoning SFT)**์ด ์ด๋ฅผ ๋ฐ๋ฐํ๋ฉฐ SFT ์ญ์ ์ต์ ํ ์กฐ๊ฑด์ ๋ฐ๋ผ ๊ฐ๋ ฅํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ์ง ์ ์์์ ์ ์ฆํ ์ ์ด ๋งค์ฐ ํฅ๋ฏธ๋กญ์ต๋๋ค. ๋ํ, ์ธ๊ฐ์ด ์ฌ์ ํ ์ฐ์๋ฅผ ์ ํ๊ณ ์๋ **๊ฒฝ์์ ํ๋ก๊ทธ๋๋ฐ ๋ถ์ผ(GrandCode)**์ ๋ค์ค ์์ด์ ํธ RL์ ๋์ ํ์ฌ ๊ทธ๋๋๋ง์คํฐ ์์ค์ ๋์ ํ๊ฑฐ๋, **์ฐ์ ์ฉ ์ฝ๋(Industrial Code)**์ ํ๋์จ์ด ์ ์ฝ ์กฐ๊ฑด๊น์ง ์ดํดํ๋ โ์ธ๊ณ ๋ชจ๋ธ(World Model)โ์ ๊ตฌ์ถํ๋ ค๋ ์๋๋ AI๊ฐ ์ค์ ํ๊ฒฝ์์ ์ผ๋ง๋ ๋ ๋๋ํด์ง ์ ์๋์ง๋ฅผ ๋ณด์ฌ์ค๋๋ค.
์ค๋ฌด ์์ฌ์
๊ฐ๋ฐ์์ ์ฐ๊ตฌ์๋ ์ถ๋ก ๋ฅ๋ ฅ ํฅ์์ ์ํด ๋ง์ฐํ RL ์ ์ฉ๋ณด๋ค๋ ๋ฐ์ดํฐ์ ๊ตฌ์ฑ(๊ธด CoT, ์๋ฌ ์ค์ฌ ํฉ์ฑ ๋ฑ)๊ณผ ์ต์ ํ ์ ๋ต์ ์ฌ๊ฒํ ํ์ฌ SFT์ ์ ์ฌ๋ ฅ์ ๋จผ์ ๊ทน๋ํํ๋ ๋ฐฉ์์ ๊ณ ๋ คํด์ผ ํฉ๋๋ค. ๋ํ ์ฝ๋ฉ ๋ชจ๋ธ์ ๊ฐ๋ฐํ ๋ ๋จ์ํ ์ ๋ต ์ฝ๋๋ฅผ ์์ฑํ๋ ๊ฒ์ ๋์ด, ์์ง๋์ด์ ๋ฌธ์ ํด๊ฒฐ ๊ณผ์ (Reasoning Traces)์ ํ์ต ๋ฐ์ดํฐ์ ํฌํจ์์ผ ๋๋ฉ์ธ ํนํ๋ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐํํด์ผ ํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก, ๋ชจ๋ธ ํ๊ฐ ์ ๋์ ๋ฆฌ๋๋ณด๋ ์ ์์ ์์ฃผํ๊ธฐ๋ณด๋ค Video-MME-v2์ ๊ฐ์ ์๋ก์ด ๋ฒค์น๋งํฌ๊ฐ ์ ์ํ๋ โ๊ฒฌ๊ณ ํจ(Robustness)โ ์งํ๋ฅผ ํตํด ๋ชจ๋ธ์ ์ค์ ์ ํธ๋ฆฌํฐ๋ฅผ ํ์ธํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
๐ ๋ ผ๋ฌธ๋ณ ์์ฝ
๐ฅ 1. Adamโs Law: Textual Frequency Law on Large Language Models
arXiv: 2604.02176 | โฌ๏ธ 411 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
llmdata-selectionfrequency-lawprompt-engineeringfine-tuningnlpefficiency
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ํ์ต๊ณผ ์ถ๋ก ๊ณผ์ ์์ ๋ ์์ฃผ ๋ฑ์ฅํ๋ ํ ์คํธ ํํ์ ์ฌ์ฉํ๋ฉด ์ฑ๋ฅ์ด ํฅ์๋๋ค๋ โํ ์คํธ ๋น๋ ๋ฒ์นโ์ ์ ์ํ์ฌ, ํ๋กฌํํ ๊ณผ ํ์ธ ํ๋ ํจ์จ์ ๋์ด๋ ์๋ก์ด ์ง์นจ์ ์ ์ํ๊ธฐ ๋๋ฌธ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 2. GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning
arXiv: 2604.02721 | โฌ๏ธ 348 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
competitive-programmingreinforcement-learningmulti-agentgrpollmagentic-aicode-generation
์ด ๋ ผ๋ฌธ์ ์ธ๊ฐ์ด ์ฐ์๋ฅผ ์ ํ๋ ๊ฒฝ์ ํ๋ก๊ทธ๋๋ฐ(Competitive Programming) ๋ถ์ผ์์ AI๊ฐ ์ฒ์์ผ๋ก ์ค์๊ฐ ๋ํ์์ ์ธ๊ฐ ๊ทธ๋๋๋ง์คํฐ๋ฅผ ์ ์น๊ณ 1์๋ฅผ ์ฐจ์งํ GrandCode ์์คํ ์ ํตํด, ๋ค์ค ์์ด์ ํธ ํ์ ๊ณผ ์ง์ฐ๋ ๋ณด์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์๋ก์ด ๊ฐํ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ๋ฅ์ฑ์ ์ ์ฆํ๋ค๋ ์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 3. Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability
arXiv: 2604.06628 | โฌ๏ธ 228 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
reasoning-sftllmscaling-lawsgeneralizationoptimizationdata-efficiencymath-reasoningai-mentoring
์ถ๋ก ๋ฅ๋ ฅ์ ์ํ ์ง๋ ํ์ต(SFT) ๊ณผ์ ์์ ์ต์ ํ(Optimization), ๋ฐ์ดํฐ(Data), ๋ชจ๋ธ ๋ฅ๋ ฅ(Model Capability)์ด ์ํธ์์ฉํ๋ ๋ฐฉ์์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ์ฌ, ๋จ์ํ ๋ฐ์ดํฐ๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ ๋์ด ํจ์จ์ ์ธ ์ถ๋ก ๋ชจ๋ธ ํ์ต ๋ฐฉํฅ์ ์ ์ํ ์ฐ๊ตฌ์ ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
4. 4. InCoder-32B-Thinking: Industrial Code World Model for Thinking
arXiv: 2604.03144 | โฌ๏ธ 225 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
industrial-codecode-generationchain-of-thoughtworld-modelveriloggpu-optimizationai-mentoringllm-reasoning
์ผ๋ฐ์ ์ธ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ๊ณผ ์ฐ์ ํ์ฅ์ ์๊ฒฉํ ํ๋์จ์ด ์ ์ฝ ์กฐ๊ฑด์ ๋ง์กฑ์ํค๋ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฒฐํฉํ์ฌ, ๋ณต์กํ ์นฉ ์ค๊ณ๋ GPU ์ต์ ํ์ ๊ฐ์ ์ค์ ์ฐ์ ์ฝ๋ ๊ฐ๋ฐ์ ์ฑ๋ฅ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
5. 5. Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding
arXiv: 2604.05015 | โฌ๏ธ 225 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
video-mme-v2benchmarkvideo-understandingevaluationtemporal-reasoningdata-contaminationmultimodal-llmrobustness
๊ธฐ์กด ๋ฒค์น๋งํฌ์ ์ ์ ๋ถํ๋ ค์ง๊ณผ ๋ฐ์ดํฐ ๋์ถ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ฌ, ๋น๋์ค ๋ฉํฐ๋ชจ๋ฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(Video MLLM)์ ์ง์ง ์ถ๋ก ๋ฅ๋ ฅ๊ณผ ์ ๋ขฐ์ฑ์ ํ๊ฐํ ์ ์๋ ์ฐจ์ธ๋ ํ๊ฐ ๊ธฐ์ค์ ์ ์ํ๊ธฐ ๋๋ฌธ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ ์์ฑ์ผ: 2026-04-12 | ๐ค GLM-4.7 Weekly Digest