โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-101 AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security
arXiv: 2605.29801 ๊ธฐ๊ด: shanghai ailab Upvotes: 120 | Comments: 3 ์์: ์ด๋ฒ ์ฃผ Top 5
๋ ผ๋ฌธ ๋ถ์: AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
์ต๊ทผ ์คํ์๋ ์์ด์ ํธ(OpenClaw ๋ฑ)๋ ํ๊ฒฝ์ ๋๋๋ค๋ฉฐ ์์ ์ ์ํํ ์ ์์ด ๋งค์ฐ ๊ฐ๋ ฅํ์ง๋ง, ๊ทธ๋งํผ ๊ณต๊ฒฉ ๋ฐ์ ๋ฉด์ ์ด ๋์ด์ ธ ๋ณด์ ์ํ์ด ๊ธ์ฆํ์ต๋๋ค. ๊ธฐ์กด์ ์์ ์ ๋ ฌ ํ๋ ์์ํฌ๋ ์ด๋ฐ ์๋ก์ด ์ํ๊ณผ ๊ณ ๋ํ๋ ์ ๋์ ๊ณต๊ฒฉ์ ๋ง๊ธฐ์๋ ๋๋ฌด ๋ฌด๊ฒ๊ณ ๋นํจ์จ์ ์ ๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ํ ๋ชจ๋ธ(0.8B~8B)๋ก๋ ๊ฑฐ๋ ๋ชจ๋ธ(GPT-5.4 ๋ฑ) ์์ค์ ์์ ์ฑ์ ํ๋ณดํ๋ฉด์, ์ค์ ๋ฐฐํฌ ๋น์ฉ์ ํ๊ธฐ์ ์ผ๋ก ๋ฎ์ถ ์ ์๋ ๊ฐ๋ณ๊ณ ํ์ฅ ๊ฐ๋ฅํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์
AI ์์ด์ ํธ๊ฐ ๋ง์น ๊ฑด์ค ํ์ฅ์์ ์์ ๋กญ๊ฒ ์ผํ๋ ๋ก๋ด ์ธ๋ถ๋ผ๊ณ ์์ํด ๋ณด์ธ์. ์ด ๋ก๋ด์ด ๋ฒฝ์ ํ๋ฌผ๋ผ๊ณ ์์ผฐ๋๋ฐ, ๊ฐ์ค๊ด์ ๊ฑด๋๋ ค ํญ๋ฐ์ ์ผ์ผํฌ ์๋ ์์ต๋๋ค. ๊ธฐ์กด ๋ฐฉ์์ ๋ก๋ด์ด โ์์ ์ ๋ง์น ํโ์๋ง ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ์ง๋ง, AgentDoG 1.5๋ ํ์ฅ์ ์ ์๋ โ์์ ๊ฐ๋ ๊ดโ๊ณผ ๊ฐ์ต๋๋ค. ๊ฐ๋ ๊ด์ ๋ก๋ด์ด ์์ง์ด๋ ๋ชจ๋ ๊ณผ์ (๊ถค์ )์ ์ค์๊ฐ์ผ๋ก ์ง์ผ๋ณด๋ฉฐ, โ์ ๊น, ๊ทธ ํด๋จธ๋ฅผ ๋ค์ด๊ฐ๋ ๊ฑด ์ํํด!โ๋ผ๊ณ ์ฆ๊ฐ ์ ์งํ๊ณ ๋ฌด์์ด ์ํํ์ง(์ํ ์์ธ, ์คํจ ๋ชจ๋) ๋ถ์ํด์ ์๋ ค์ค๋๋ค.
๋จ๊ณ๋ณ ๋์ ๋ฐฉ์
- ์์ ๊ท์น ์๋ฆฝ (Taxonomy Update): ๊ฐ๋ ๊ด์ด ํ๋จํ ๊ธฐ์ค์ ๋ง๋ญ๋๋ค. ๋จ์ํ โ์ํํ๋ค/์์ ํ๋คโ๊ฐ ์๋๋ผ, โ๋๊ตฌ ์ค๊ณ ์ค๋ฅโ, โ์ฌ์ฉ์ ์ ์์ ์ง์โ, โ๋๊ตฌ ์คํ ์ค์โ ๋ฑ ๊ตฌ์ฒด์ ์ธ ์ํ ์ ํ์ ๋ถ๋ฅํ ๊ธฐ์คํ(Taxonomy)๋ฅผ ๋ง๋ญ๋๋ค.
- ๊ฐ๋ ๊ด ๊ต์ก (Data Engine & Purification): ๊ฐ๋ ฅํ ๋ฐ์ดํฐ ์์ง์ ์ฌ์ฉํด ๊ฐ์์ ์ํฉ(๊ถค์ )์ ๋ง๋ค์ด๋ ๋๋ค. ์ด๋ โ์ํฅ ํจ์(Influence Function) ์ ์ โ ๊ธฐ์ ์ ์ฌ์ฉํด, ๊ฐ๋ ๊ด ํ๋จ์ ํ๋ฆฌ๊ฒ ํ๋ ๋์ ๋ฐ์ดํฐ(์ก์)๋ฅผ ์ ๋นผ๋ ๋๋ค. ๋๋ถ์ ์์ฃผ ์ ์ ์์ ๊ณ ํ์ง ๋ฐ์ดํฐ(์ฝ 1,000๊ฐ ์ํ)๋ก๋ ๋๋ํ ๊ฐ๋ ๊ด์ ์์ฑํ ์ ์์ต๋๋ค.
- ๊ฒฝ๋ํ๋ ๊ฒ์ฌ ๋ฐ ํ์ต: ํ๋ จ๋ AgentDoG 1.5๋ ์์ด์ ํธ์ ํ๋ ํ๋ํ๋๋ฅผ ๊ฒ์ฌํฉ๋๋ค. ์์ด์ ํธ๊ฐ ํ์ตํ ๋๋ ์ด ๊ฐ๋ ๊ด์ด โ์ด๊ฑด ์ข์ ํ๋์ด์ผโ ํน์ โ์ด๊ฑด ์ํํดโ๋ผ๊ณ ํ๊ฐํด์ฃผ๋ ์ฑ์ ๊ด(Reward Model) ์ญํ ์ ํ์ฌ, ์์ด์ ํธ๊ฐ ์์ ํ๊ฒ ์ผํ๋๋ก ์ง๋ํฉ๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ ๋ฐ ๊ธฐ์
ํต์ฌ์ ๋ ๊ฐ์ง ์ง๋จ ๊ณผ์ ์ ๋๋ค. ์ฒซ์งธ, ๊ถค์ ์์ค ์์ ํ๊ฐ(Trajectory-level safety evaluation) ํจ์ $f(\mathcal{T})$๋ ์์ด์ ํธ์ ์ ์ฒด ํ๋ ์์ $\mathcal{T}={t_{1},\dots,t_{n}}$์ ์ ๋ ฅ๋ฐ์ ์์ ์ฌ๋ถ๋ฅผ ํ๋จํฉ๋๋ค. ๋์งธ, ์ธ๋ฐํ ์ํ ์ง๋จ(Fine-grained risk diagnosis) ํจ์ $g(\mathcal{T})$๋ ์ํ์ด ๋ฐ์ํ ๊ทผ๋ณธ ์์ธ(์ํ ์์ฒ, ์คํจ ๋ชจ๋)์ ๋ถ๋ฅํฉ๋๋ค. ์ด ๊ณผ์ ์์ ์ง๋ ํ์ต(SFT)๊ณผ ๊ฐํ ํ์ต(RL)์ ๊ฒฐํฉํ์ฌ ๋ชจ๋ธ์ ์ต์ ํํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
๋ฒค์น๋งํฌ ๋ฐ ์ฑ๋ฅ
์ฐ๊ตฌ์ง์ ๋ค์ํ ํ๊ฒฝ์ ์์ฐ๋ฅด๋ ATBench์ ๊ต์ฐจ ํ๊ฒฝ ๋ฒค์น๋งํฌ(Cross-environment benchmarks)์์ ๋ชจ๋ธ์ ํ ์คํธํ์ต๋๋ค. ๊ฐ์ฅ ์ธ์์ ์ธ ์ ์ ํจ์จ์ฑ์ ๋๋ค. ๊ณ ์ ์ฝ 1,000๊ฐ์ ํ์ต ์ํ๋ง์ผ๋ก๋ AgentDoG 1.5 ๋ชจ๋ธ๋ค์ ์ต๊ณ ์์ค์ ํ์ํ ๋ชจ๋ธ์ธ GPT-5.4์ ๋น์ทํ ์์ค์ ์์ ์ง๋จ ์ฑ๋ฅ**์ ๋ฌ์ฑํ์ต๋๋ค.
๊ตฌ์ฒด์ ์์น ๋ฐ ์ฑ๊ณผ
- ๋ชจ๋ธ ํฌ๊ธฐ ๋๋น ์ฑ๊ณผ: 0.8B, 2B, 4B, 8B ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๊ฒฝ๋ ๋ชจ๋ธ๋ค์ด ๊ฑฐ๋ ๋ชจ๋ธ๋ค์ ๋ฐ์ด๋๋ ํจ์จ์ฑ์ ๋ณด์์ต๋๋ค.
- ์ด์ ๋น์ฉ ์ ๊ฐ: ๋์ปค(Docker) ์์ค์ ํ๊ฒฝ์์ ๋ฐฐํฌ ์ค๋ฒํค๋๋ฅผ ๋ ์๋ฆฟ์(100๋ฐฐ ์ด์) ์ค์์ต๋๋ค. ์ด๋ ์ค์ ์๋ฒ ์ด์ ์ ๋น์ฉ๊ณผ ์๋ ๋ฉด์์ ์์ฒญ๋ ์ด์ ์ ์๋ฏธํฉ๋๋ค.
- ๋ฐ์ดํฐ ์ ์ ํจ๊ณผ: SFT(์ง๋ ํ์ต) ๋จ๊ณ์์ AgentDoG 1.5๋ฅผ ํ์ฉํด ํํฐ๋งํ ๊ฒฐ๊ณผ, ์ด 28,705๊ฐ์ ๊ณ ํ์ง ์์ ๊ถค์ ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ์์ ์ฑ๊ณผ ๊ฒฌ๊ณ ํจ(Robustness)์ ๋์ด๋ฉด์๋ ๊ธฐ์กด ๊ธฐ๋ฅ์ ์ ์งํ์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ
๋ ผ๋ฌธ ์๋ก ์ ์ธ๊ธ๋ ๋ฐ์ ๊ฐ์ด, ํ์ฌ ํ๋ ์์ํฌ๋ ํ์ต ๊ธฐ๋ฐ์ ์ ๊ทผ ๋ฐฉ์๊ณผ ํจ๊ป ์จ๋ผ์ธ ์ค์๊ฐ ๊ฐ๋ ์์คํ ์ด ํ์์ ์ด๋ผ๊ณ ๊ฐ์กฐํฉ๋๋ค. ์ฆ, ํ์ฌ์ AgentDoG 1.5๊ฐ ๋ชจ๋ ์ค์๊ฐ ์ํ์ ์๋ฒฝํ๊ฒ ์ฐจ๋จํ๋ โ์๊ฒฐ๋โ ์์คํ ์ด๋ผ๊ธฐ๋ณด๋ค๋, ํ์ต ๊ณผ์ ์ ๊ฐ์ ํ๊ณ ๊ฒ์ฆํ๋ ํต์ฌ ๊ตฌ์ฑ์์๋ก์ ๊ธฐ๋ฅํ๋ค๋ ์ ์ ๋ฐฉ์ ์ด ์ฐํ ์์ต๋๋ค.
๊ฐ์ ๊ฐ๋ฅํ ์
ํฅํ ์ฐ๊ตฌ์์๋ AgentDoG 1.5์ ํ๋จ์ ๋ฐํ์ผ๋ก ์ค์๊ฐ์ผ๋ก ์์ด์ ํธ์ ํ๋์ ์ฐจ๋จํ๋ ํ๋ จ-free(Training-free) ์์คํ ๊ณผ์ ๊ฒฐํฉ์ด ํ์ํด ๋ณด์ ๋๋ค. ๋ํ, ํ์ฌ ์ ์๋ ์์ ๋ถ๋ฅ ์ฒด๊ณ(Taxonomy)์ ์๋ ์๋ก์ด ์ ํ์ ์ํ(Zero-day attack์ ์ ์ฌํ ๊ฐ๋ )์ ์ผ๋ง๋ ์ ๊ฐ์งํ ์ง์ ๋ํ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ถ์ผ
์ด ๊ธฐ์ ์ ์๋ํ๋ ์ํํธ์จ์ด ์์ง๋์ด๋ง, ์ฐ๊ตฌ ๋ณด์กฐ ๋๊ตฌ, ์ ๋ณด ๊ฒ์ ๋ฐ ์ํฌํ๋ก์ฐ ์๋ํ ๋ฑ ์ค์ ๋น์ฆ๋์ค ํ๊ฒฝ์์ AI ์์ด์ ํธ๋ฅผ ์ด์ํ๋ ๋ชจ๋ ๊ณณ์ ์ฆ์ ์ ์ฉํ ์ ์์ต๋๋ค. ํนํ ๋ณด์์ด ์ค์ํ ๊ธ์ต๊ถ์ด๋ ๋ด๋ถ ๋ฐ์ดํฐ๊ฐ ๋ฏผ๊ฐํ ๊ธฐ์ ์์ ์์ฌ ์์ด์ ํธ๋ฅผ ์์ ํ๊ฒ ํ์ต์ํค๊ณ ๊ฐ์ํ๋ ๋ฐ ์ ์ฉํฉ๋๋ค.
ํ์ํ ๋ฆฌ์์ค
๊ฐ์ฅ ํฐ ์ฅ์ ์ ๋ฆฌ์์ค ํจ์จ์ฑ์ ๋๋ค. ๊ฑฐ๋ GPU ํด๋ฌ์คํฐ๊ฐ ํ์ ์์ต๋๋ค. ๊ฒฝ๋ ๋ชจ๋ธ(8B ์ดํ)์ ์ฌ์ฉํ๋ฏ๋ก ์๊ท๋ชจ์ ์๋ฒ๋ ์ฌ์ง์ด ๊ณ ์ฑ๋ฅ GPU ํ๋ ์ฅ์ผ๋ก๋ ์ถฉ๋ถํ ์ด์ ๋ฐ ๋ฐฐํฌ๊ฐ ๊ฐ๋ฅํฉ๋๋ค. ๋ฐฐํฌ ์ค๋ฒํค๋๊ฐ ํ๊ธฐ์ ์ผ๋ก ์ค์ด๋ค์๋ค๋ ๊ฒฐ๊ณผ๋ ํด๋ผ์ฐ๋ ๋น์ฉ ์ ๊ฐ์ผ๋ก ์ง๊ฒฐ๋ฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- AI ์์ด์ ํธ(AI Agent): ์ฌ์ฉ์์ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํด ์ค์ค๋ก ์๊ฐํ๊ณ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ์ฌ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ ์์คํ .
- ์ ๋ ฌ(Alignment): AI ๋ชจ๋ธ์ด ์ธ๊ฐ์ ๊ฐ์น, ์๋, ์์ ๊ธฐ์ค์ ์๋ฐํ์ง ์๋๋ก ์กฐ์ ํ๋ ๊ณผ์ .
- ๊ถค์ (Trajectory): ์์ด์ ํธ๊ฐ ์์๋ถํฐ ๋๊น์ง ์ํํ ์ผ๋ จ์ ํ๋, ์ฌ๊ณ , ๋๊ตฌ ์ฌ์ฉ ๊ธฐ๋ก์ ์์.
- ์ง๋ ํ์ต(SFT, Supervised Fine-Tuning): ์ ๋ต์ด labeled๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ํน์ ์์ ์ ๋ง๊ฒ ๋ฏธ์ธ ์กฐ์ ํ๋ ํ์ต ๋ฐฉ์.
- ๊ฐํ ํ์ต(RL, Reinforcement Learning): ์์ด์ ํธ๊ฐ ์ํ์ฐฉ์ค๋ฅผ ํตํด ํ๋์ ๊ฒฐ๊ณผ๋ก ๋ณด์(Reward)์ด๋ ๋ฒ์ ์ ๋ฐ์ผ๋ฉฐ ์ต์ ์ ์ ์ฑ ์ ํ์ตํ๋ ๋ฐฉ์.
- ์ํฅ ํจ์(Influence Function): ๋จธ์ ๋ฌ๋์์ ํน์ ํ์ต ๋ฐ์ดํฐ๊ฐ ๋ชจ๋ธ์ ์ต์ข ์์ธก์ด๋ ํ๋ผ๋ฏธํฐ์ ์ผ๋ง๋ ์ํฅ์ ๋ฏธ์ณค๋์ง๋ฅผ ์ํ์ ์ผ๋ก ๊ณ์ฐํ๋ ๊ธฐ๋ฒ.
- ๋ถ๋ฅ ์ฒด๊ณ(Taxonomy): ์ํ์ ์ ํ๋ณ๋ก ์ฒด๊ณ์ ์ผ๋ก ๋ถ๋ฅํด ๋ ๊ธฐ์คํ๋ ๋ชฉ๋ก.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Gamma-World: Generative Multi-Agentโฆ | DD-097 |
| ๐ฅ | SkillOpt: Executive Strategy for Seโฆ | DD-098 |
| ๐ฅ | DVAO: Dynamic Variance-adaptive Advโฆ | DD-099 |
| 4. | LocateAnything: Fast and High-Qualiโฆ | DD-100 |
| 5. | AgentDoG 1.5: A Lightweight and Scaโฆ | ๐ ํ์ฌ ๋ฌธ์ |
๐ ์์ฑ์ผ: 2026-05-31 | ๐ค GLM-4.7 Deep Dive