๐ Weekly AI Paper Digest
๊ธฐ๊ฐ: 2026-04-20 ~ 2026-04-25 ์ ์ : ์ด๋ฒ ์ฃผ ๊ฐ์ฅ ์ฃผ๋ชฉ๋ฐ์ ๋ ผ๋ฌธ Top 5
๐ ์ด๋ฒ ์ฃผ Top 5
| ์์ | ๋ ผ๋ฌธ | โฌ๏ธ | Deep Dive |
|---|---|---|---|
| ๐ฅ | Tstars-Tryon 1.0: Robust and Realistic Vโฆ | 244 | DD-072 |
| ๐ฅ | LLaDA2.0-Uni: Unifying Multimodal Undersโฆ | 227 | DD-073 |
| ๐ฅ | AgentSPEX: An Agent SPecification and EXโฆ | 153 | DD-074 |
| 4. | Extending One-Step Image Generation fromโฆ | 94 | DD-075 |
| 5. | OneVL: One-Step Latent Reasoning and Plaโฆ | 84 | DD-076 |
๐ ์ด๋ฒ ์ฃผ ํธ๋ ๋
ํต์ฌ ํค์๋
- ์์คํ ์์ฑ(One-Step Generation): ๋ค๋จ๊ณ ์ถ๋ก ๊ณผ์ ์ ๊ฑฐ์น์ง ์๊ณ ๋จ์ผ ๋จ๊ณ์์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ฑฐ๋ ๋ณต์กํ ์ถ๋ก ์ ์ํํ์ฌ ์๋๋ฅผ ํ๊ธฐ์ ์ผ๋ก ๋์ด๋ ๊ธฐ์
- ํตํฉํ ๋ฉํฐ๋ชจ๋ฌ(Unified Multimodal): ์ดํด(Understanding)์ ์์ฑ(Generation) ๋ชจ๋ธ์ ๋ถ๋ฆฌํ์ง ์๊ณ ํ๋์ ์ํคํ ์ฒ์์ ํตํฉํ์ฌ ์ฒ๋ฆฌํ๋ ๋ฐฉ์
- ์์ด์ ํธ ์ ์ด ์ธ์ด(Agent Specification Language): ์์ด์ ํธ์ ํ๋๊ณผ ํ๋ฆ์ ๋จ์ ํ๋กฌํํธ๊ฐ ์๋ ๋ช ์์ ์ธ ์ธ์ด๋ก ์ ์ํ์ฌ ์ ์ด ๊ฐ๋ฅ์ฑ์ ๋์ด๋ ํ๋ ์์ํฌ
- ์ค์๊ฐ ์ต์ ํ(Real-time Optimization): ์์จ ์ฃผํ ๋ฑ ์ค์๊ฐ ์ฑ๋ฅ์ด ์ค์ํ ํ๊ฒฝ์์ ์ง์ฐ ์๊ฐ์ ์ค์ด๊ธฐ ์ํด ์ถ๋ก ๊ณผ์ ์ ์์ถํ๋ ๊ธฐ์
๊ณตํต ์ฃผ์
์ด๋ฒ ์ฃผ AI ์ฐ๊ตฌ ํธ๋ ๋๋ **โํจ์จ์ฑ์ ๊ทน๋ํ(์๋)โ์ โ์์คํ ์ ๊ตฌ์กฐํ(ํต์ )โ**๋ก ์์ฝํ ์ ์์ต๋๋ค. ์ฐ๊ตฌ์ง๋ค์ ๊ธฐ์กด ๋ค๋จ๊ณ ์์ฑ ๋ชจ๋ธ์ด๋ ์ถ๋ก ๋ฐฉ์์ ๋นํจ์จ์ฑ์ ๊ฐ์ ํ์ฌ ๋จ์ผ ๋จ๊ณ(One-step)์์ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๋ ค๋ ์๋๋ฅผ ์ด๋ฏธ์ง ์์ฑ๊ณผ ์์จ ์ฃผํ ๋ถ์ผ์์ ๋์์ ์งํํ๊ณ ์์ต๋๋ค. ๋์์ ๋ฉํฐ๋ชจ๋ฌ ๊ธฐ๋ฅ์ ํตํฉํ๊ฑฐ๋ ์์ด์ ํธ์ ์คํ ํ๋ฆ์ ๋ช ์์ ์ผ๋ก ์ ์ํ๋ ๋ฑ, AI ์์คํ ์ ๋์ฑ ๊ฐ๋ ฅํ๊ณ ํต์ ๊ฐ๋ฅํ ํํ๋ก ๋ฐ์ ์ํค๋ ๋ฐฉํฅ์ ์ง์คํ์ต๋๋ค.
์ฃผ๋ชฉํ ์
๊ฐ์ฅ ํฅ๋ฏธ๋ก์ด ์ ์ โ์์คํ (One-step)โ ๊ธฐ์ ์ ํ์ฅ์ ๋๋ค. ์ด๋ฏธ์ง ์์ฑ ๋ถ์ผ์์๋ ํด๋์ค ๋ ์ด๋ธ์์ ํ ์คํธ ์ ๋ ฅ์ผ๋ก ์กฐ๊ฑด์ ํ์ฅํ์ฌ ์์คํ ์์ฑ์ ํ์ฉ๋๋ฅผ ๋์์ผ๋ฉฐ, ์์จ ์ฃผํ ๋ถ์ผ์์๋ ์ฌ๊ณ ๊ณผ์ (Chain-of-Thought)์ ์ ์ฌ ๊ณต๊ฐ(Latent Space)์ผ๋ก ์์ถํ์ฌ ์ค์๊ฐ ์ฒ๋ฆฌ์ ๋ณ๋ชฉ ํ์์ ํด๊ฒฐํ์ต๋๋ค. ๋ํ, LLM ์์ด์ ํธ์ ๋ถํ์คํ ํ๋์ ์ก๊ธฐ ์ํ ์ ์ฉ ๋ช ์ธ ์ธ์ด(AgentSPEX)๋ฅผ ์ ์ํ ์ ์ AI๊ฐ ๋จ์ํ ์ฑ๋ด์ ๋์ด ์ ๋ขฐํ ์ ์๋ ์ํํธ์จ์ด ์์คํ ์ผ๋ก ์งํํ๊ณ ์์์ ์์ฌํฉ๋๋ค.
์ค๋ฌด ์์ฌ์
๊ฐ๋ฐ์์ ์ฐ๊ตฌ์๋ ์ถ๋ก ์๋์ ๋น์ฉ ํจ์จ์ฑ์ ๊ฐ์ ํ ์ ์๋ ์์คํ ์์ฑ ๋ฐ ์ ์ฌ์ ์ถ๋ก (Latent Reasoning) ๊ธฐ๋ฒ์ ์ฃผ๋ชฉํด์ผ ํฉ๋๋ค. ํนํ ์๋น์ค ๋ ๋ฒจ์์ ์ค์๊ฐ ๋ฐ์ ์๋๊ฐ ์ค์ํ ์ ํ๋ฆฌ์ผ์ด์ ์ ๊ฐ๋ฐํ๋ค๋ฉด, ๊ธฐ์กด์ ์๊ฐํ๊ท(Autoregressive) ๋ฐฉ์ ๋์ ์์ถ๋ ์ถ๋ก ๋ฐฉ์์ ๋์ ํ๋ ๊ฒ์ ๊ณ ๋ คํด์ผ ํฉ๋๋ค. ๋ํ, ๋ณต์กํ ์์ด์ ํธ ์์คํ ์ ๊ตฌ์ถํ ๋๋ ๋ฐ์ํ ํ๋กฌํํ ์ ์์กดํ๊ธฐ๋ณด๋ค ๊ตฌ์กฐํ๋ ์ํฌํ๋ก์ฐ๋ ๋ช ์์ ์ธ ์ ์ด ์ธ์ด๋ฅผ ํ์ฉํ์ฌ ์์คํ ์ ์์ ์ฑ๊ณผ ๋๋ฒ๊น ์ฉ์ด์ฑ์ ํ๋ณดํ๋ ์ ๋ต์ด ํ์ํฉ๋๋ค.
๐ ๋ ผ๋ฌธ๋ณ ์์ฝ
๐ฅ 1. Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items
arXiv: 2604.19748 | โฌ๏ธ 244 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
virtual-try-onfashion-techimage-generationcomputer-visiongenerative-airobustnesscommercial-ai
์ด ๋ ผ๋ฌธ์ ์ค์ ์์ฉ ํ๊ฒฝ์์ ๋ฐ์ํ๋ ๊ทนํ์ ์กฐ๊ฑด์์๋ ๊ฒฌ๊ณ ํ๊ณ ์ฌ์ค์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋ ๋๊ท๋ชจ ๊ฐ์ ํผํ ์์คํ ์ ์ ์ํ์ฌ ๊ธฐ์ ์ ์ค์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ์ ์ฆํ๊ธฐ์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 2. LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model
arXiv: 2604.20796 | โฌ๏ธ 227 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
multimodaldiffusion-modelllmimage-generationnlpunified-architectureai-research
์ด์ฐ ํ์ฐ ์ธ์ด ๋ชจ๋ธ(Discrete Diffusion Large Language Model)์ ํตํด ๋ฉํฐ๋ชจ๋ฌ ์ดํด์ ์์ฑ์ ๋จ์ผ ํ๋ ์์ํฌ๋ก ํตํฉํ์ฌ, ๋ณ๋์ ๋ชจ๋ธ ์์ด๋ ํ๋์ ๋ชจ๋ธ๋ก ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ ์์ ๋กญ๊ฒ ํด์ํ๊ณ ์ฐฝ์ํ ์ ์๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ๊ธฐ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 3. AgentSPEX: An Agent SPecification and EXecution Language
arXiv: 2604.13346 | โฌ๏ธ 153 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
llm-agentsworkflow-orchestrationagentspexdslreact-promptingai-researchsoftware-engineering
๋ณต์กํ LLM ์์ด์ ํธ์ ์์ ํ๋ฆ์ ํ๋ก๊ทธ๋๋ฐ ์ฝ๋(Python)์์ ๋ถ๋ฆฌํ์ฌ ๋ช ์์ ์ธ ์ ์ด ํ๋ฆ๊ณผ ๋ชจ๋ํ ๊ตฌ์กฐ๋ก ์ ์ํ ์ ์๋ ์ ์ฉ ์ธ์ด AgentSPEX๋ฅผ ์ ์ํ์ฌ, ์์ด์ ํธ ๊ฐ๋ฐ์ ์ ์ง๋ณด์์ฑ๊ณผ ์ ์ด ๊ฐ๋ฅ์ฑ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ํ๊ธฐ ๋๋ฌธ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
4. 4. Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation
arXiv: 2604.18168 | โฌ๏ธ 94 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
one-step-generationtext-to-imagemeanflowflow-matchingsemantic-representationefficiencyblip3ogenerative-models
์ด๋ฏธ์ง ์์ฑ์ ๋จ ํ ๋จ๊ณ๋ก ์๋ฃํ๋ ๊ธฐ์ ์ธ MeanFlow๋ฅผ ๋จ์ํ ํด๋์ค ๋ถ๋ฅ์์ ์์ฐ์ด ํ๋กฌํํธ๋ก ํ์ฅํ์ฌ, ์๋ ์ ํ ์์ด๋ ๋ณต์กํ ํ ์คํธ ์๋ฏธ๋ฅผ ๋ฐ์ํ ๊ณ ํ์ง ์ด๋ฏธ์ง ์์ฑ์ ์ต์ด๋ก ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
5. 5. OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation
arXiv: 2604.18486 | โฌ๏ธ 84 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
autonomous-drivingvlachain-of-thoughtlatent-reasoningworld-modelreal-time-planningqwen-vl
์ด ๋ ผ๋ฌธ์ ์์จ์ฃผํ์์ Chain-of-Thought(CoT) ์ถ๋ก ์ ๋์ ์ ํ๋์ ์ค์๊ฐ ์ฒ๋ฆฌ๊ฐ ํ์ํ ์๋ ์ฌ์ด์ Trade-off๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์๊ฐ์ ์ธ์ด์ ์ถ๋ก ์ ์์ถ๋ ์ ์ฌ ํ ํฐ์ผ๋ก ๋ณํํ์ฌ ๋จ ํ ๋ฒ์ ๋จ๊ณ(One-step)๋ก ๋น ๋ฅด๊ณ ์ ํํ ์ฃผํ ๊ณํ์ ์๋ฆฝํ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๊ธฐ ๋๋ฌธ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ ์์ฑ์ผ: 2026-04-26 | ๐ค GLM-4.7 Weekly Digest