โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-083 From Context to Skills: Can Language Models Learn from Context Skillfully?
arXiv: 2604.27660 Upvotes: 145 | Comments: 3 ์์: ์ด๋ฒ ์ฃผ Top 2
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๋ฐฉ๋ํ ์ฌ์ ํ์ต ๋ฐ์ดํฐ์ ์์กดํ์ฌ ์ง์์ ํ์ฉํ์ง๋ง, ์ค์ ํ์ ์์ ๋ง์ฃผํ๋ ๊ธด ๊ธฐ์ ๋ฌธ์๋ ์๋ก์ด ๊ท์น ๊ฐ์ ๋ณต์กํ ๋งฅ๋ฝ์ ์ฆ๊ฐ์ ์ผ๋ก ํ์ตํ์ฌ ํ์ฉํ๋ ๋ฐ์๋ ํ๊ณ๊ฐ ์์์ต๋๋ค. ํนํ, ์ด๋ฌํ ๋งฅ๋ฝ(Context)์์ ์ ์ฉํ ๊ท์น์ด๋ ์ ์ฐจ๋ฅผ ๋ฝ์๋ด์ด ๋ชจ๋ธ์๊ฒ ๋๊ตฌ๋ก ์ ๊ณตํ๋ โ์คํฌ(Skill)โ ์์ฑ์ ์ฌ๋์ด ์ง์ ์ฃผ์์ ๋ฌ์์ผ ํ๊ธฐ์ ๋น์ฉ์ด ๋๋ฌด ๋ง์ด ๋ค๊ณ ์ธ๋ถ ํผ๋๋ฐฑ์ด ์์ด ์๋ํ๊ฐ ์ด๋ ต๋ค๋ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค.
์ด ๋
ผ๋ฌธ์ Ctx2Skill์ด๋ผ๋ ํ๋ ์์ํฌ๋ฅผ ํตํด ์ฌ๋์ ๊ฐ์
์ด๋ ์ธ๋ถ ํผ๋๋ฐฑ ์์ด๋, ๋ชจ๋ธ์ด ์ค์ค๋ก ๋ฌธ๋งฅ์ ์ฝ๊ณ ํ์ํ ์คํฌ์ ๋ฐ๊ฒฌ, ์ ์ , ์ ํํ์ฌ ์์ ์ ๋ฅ๋ ฅ์ ํฅ์์ํฌ ์ ์๋ค๋ ๊ฒ์ ์ฒ์์ผ๋ก ์ฆ๋ช
ํ์ต๋๋ค. ์ด๋ ์ธ์ด ๋ชจ๋ธ์ด ๋จ์ํ ํ
์คํธ ์์ฑ๊ธฐ๋ฅผ ๋์ด, ์ฃผ์ด์ง ํ๊ฒฝ์์ ์ค์ค๋ก ์งํํ์ฌ ์๋ก์ด ์ง์๊ณผ ์ ์ฐจ๋ฅผ ์ต๋ํ ์ ์๋ ์ง๋ฅํ ์์ด์ ํธ๋ก ๋ฐ์ ํ ์ ์์์ ๋ณด์ฌ์ฃผ์๋ค๋ ์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : โ์คํ๋ง ํ๋ จ์ ํ๋ ๊ฒฉํฌ๊ธฐ ์ ์โ
์ด ๋ ผ๋ฌธ์ ํต์ฌ ์์ด๋์ด๋ ๋ง์น ๋ ๋ช ์ ๊ฒฉํฌ๊ธฐ ์ ์๊ฐ ์๋ก ์คํ๋ง์ ํ๋ฉฐ ์ค๋ ฅ์ ํค์ฐ๋ ๊ณผ์ ๊ณผ ๊ฐ์ต๋๋ค.
๋ณดํต ์ธ์ด ๋ชจ๋ธ์ด ์ด๋ ค์ด ๋งค๋ด์ผ์ ๋ณด๊ณ ๋ฌธ์ ๋ฅผ ํธ๋ ๊ฒ์, ์ ์๊ฐ ๋งค๋ด์ผ์ ์ฝ๊ณ ๋ฐ๋ก ์ํฉ์ ๋๊ฐ๋ ๊ฒ๊ณผ ๊ฐ์์ ์ค์๊ฐ ๋ง์ต๋๋ค. ์ฌ๋์ด ๋งค๋ด์ผ์ ์ฝ๊ณ โ์ด๊ฑด ์ผ์์ผ๋ก ๋ง์ ๋ ์จ๋ผโ๋ผ๊ณ ์คํฌ์ ์ ๋ฆฌํด์ฃผ๋ฉด ์ข์ง๋ง, ๋งค๋ด์ผ์ด ๋๋ฌด ๊ธธ๋ฉด ์ฌ๋๋ ํ๋ญ๋๋ค.
Ctx2Skill์ ๋ชจ๋ธ์ ๋ ์ฌ๋, ๋์ ์(Challenger)์ ํด๊ฒฐ์ฌ(Reasoner)๋ก ๋๋๋๋ค. ๋์ ์๋ ๋งค๋ด์ผ(Context)์ ๋ฐํ์ผ๋ก ์ฐ์ต ๋ฌธ์ ๋ฅผ ๋ด๊ณ , ํด๊ฒฐ์ฌ๋ ๊ทธ ๋ฌธ์ ๋ฅผ ํ๋๋ค. ์ฌ๊ธฐ์ ์ฌํ(Judge)์ด ์ฑ์ ์ ํฉ๋๋ค. ๋ง์ฝ ํด๊ฒฐ์ฌ๊ฐ ๋ฌธ์ ๋ฅผ ํ๋ฆฌ๋ฉด, ์์ ์ ๋ถ์กฑํจ์ ๊นจ๋ซ๊ณ โ๋ค์์ ์ด๋ ๊ฒ ํด๊ฒฐํ์โ๋ผ๊ณ ์ค์ค๋ก ์คํฌ์ ์์ ํฉ๋๋ค. ๋ฐ๋๋ก ๋์ ์์ ๋ฌธ์ ๊ฐ ๋๋ฌด ์ฌ์ฐ๋ฉด, ๋์ ์๋ โ๋ ๊น๋ค๋ก์ด ๋ฌธ์ ๋ฅผ ๋ด์ผ์งโ๋ผ๊ณ ์์ ์ ์ถ์ ์คํฌ์ ๋์
๋๋ค. ์ด๋ ๊ฒ ์๋ก ๊ฒฝ์ํ๋ฉฐ ์๋ก์ ์คํฌ์ ๋์์์ด ์
๊ทธ๋ ์ด๋ํ๋ ๊ฒ์
๋๋ค.
๋จ๊ณ๋ณ ๋์ ๊ณผ์
์์คํ ์ ํฌ๊ฒ ๋ค ๊ฐ์ง ๋จ๊ณ๋ก ์ํํ๋ฉฐ ์๋ํฉ๋๋ค.
- ๊ณผ์ ์์ฑ:
๋์ ์๋ ํ์ฌ ๊ฐ์ง ์คํฌ์ ๋ฐํ์ผ๋ก ๊ธด ๋ฌธ๋งฅ(Context)์์ ์ค์ํ ๋ถ๋ถ์ ๊ณจ๋ผํด๊ฒฐ์ฌ๋ฅผ ํ ์คํธํ ๋ฌธ์ ์ ์ฑ์ ๊ธฐ์ค(Rubric)์ ๋ง๋ญ๋๋ค. - ๋ฌธ์ ํด๊ฒฐ ๋ฐ ์ฑ์ :
ํด๊ฒฐ์ฌ๋ ์์ ์ ์คํฌ์ ์ฌ์ฉํด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ค ์๋ํฉ๋๋ค. ์ค๋ฆฝ์ ์ธ์ฌํ์ด ์ด ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ๋ง์๋์ง ํ๋ ธ๋์ง(O/X) ํ์ ํฉ๋๋ค. - ์คํฌ ์งํ (Skill Evolution): ๊ฒฐ๊ณผ์ ๋ฐ๋ผ
์ ์์(Proposer)์์์ฑ์(Generator)๊ฐ ์๋ํฉ๋๋ค.ํด๊ฒฐ์ฌ๊ฐ ํ๋ ธ๋ค๋ฉด, ์ด๋์ ์คํจํ๋์ง ๋ถ์ํด์ ํ ์คํธ๋ก ๋ ์คํฌ(Skill)์ ์์ ํ์ฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ถ๊ฐํฉ๋๋ค.๋์ ์๊ฐ ๋๋ฌด ์ฌ์ด ๋ฌธ์ ๋ฅผ ๋๋ค๋ฉด๋์ ์์ ์คํฌ์ ์ ๋ฐ์ดํธํ์ฌ ๋ ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ๋ด๋๋ก ํฉ๋๋ค. - ๊ต์ฐจ ์์ ์ฌ์ (Cross-Time Replay): ๊ณ์ ๊ฒฝ์ํ๋ค ๋ณด๋ฉด, ์์ฃผ ํน์ดํ ์์ธ๋ง ๋งํ๋ ํนํ๋ ์คํฌ๋ง ๋์ด๋ ์ํ์ด ์์ต๋๋ค. ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ๊ณผ๊ฑฐ์ ๋ฌธ์ ๋ค์ ๋ค์ ๊บผ๋ด ํ์ด๋ณด๋ฉฐ, ๊ฐ์ฅ ๋ฒ์ฉ์ ์ผ๋ก ์ฑ๋ฅ์ด ์ข์ ์คํฌ ์ธํธ๋ฅผ ์ ํํ์ฌ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์์ง ์๊ฒ ํฉ๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ ๊ตฌ์กฐ
์ด ๊ณผ์ ์ ์์์ผ๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ์ ์ํ ๊ณผ์ ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ์์ t์์์ ์คํฌ ์ธํธ $S_t$๊ฐ ์ฃผ์ด์ก์ ๋, ๋ค์๊ณผ ๊ฐ์ด ์ ๋ฐ์ดํธ๋ฉ๋๋ค.
$S_{t+1} = \text{Evolve}(S_t, \text{Verdict}(\text{Solve}(\text{Generate}(S_t))))$
์ฌ๊ธฐ์ $\text{Evolve}$๋ ์คํจ ๋ถ์์ ํตํด ํ ์คํธ ์คํฌ์ ์์ ํ๋ ํจ์์ด๋ฉฐ, $\text{Cross-Time Replay}$ ๋ฉ์ปค๋์ฆ์ ์ด ๊ณผ์ ์์ ์ต์ ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ด๋ $S_{best}$๋ฅผ ์ ์งํ๋๋ก ๋ณด์ฅํ๋ ์์ ์ฅ์น ์ญํ ์ ํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
๋ฒค์น๋งํฌ ๋ฐ ์ค์
์ด ๋
ผ๋ฌธ์ ์ธ์ด ๋ชจ๋ธ์ ๋ฌธ๋งฅ ํ์ต ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด ๊ณ ์๋ CL-bench๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ์ด ๋ฒค์น๋งํฌ๋ ๋จ์ํ ๋
ํด ๋ฅ๋ ฅ์ ํ
์คํธํ๋ ๊ฒ์ด ์๋๋ผ, 500๊ฐ์ ๋ณต์กํ ๋ฌธ๋งฅ๊ณผ 1,899๊ฐ์ ์์
, 31,607๊ฐ์ ๊ฒ์ฆ ๊ธฐ์ค(Rubric)์ ํฌํจํ๋ฉฐ, ๋ชจ๋ธ์ด ๋ฌธ๋งฅ ์์ ์๋ ์๋ก์ด ์ง์์ ํ์ตํ์ฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋์ง๋ฅผ ์ธก์ ํฉ๋๋ค. ํ๊ฐ๋ GPT-5.1์ ์ฌํ์ผ๋ก ์ฌ์ฉํ์ฌ ๋งค์ฐ ์๊ฒฉํ๊ฒ ์ด๋ฃจ์ด์ก์ต๋๋ค.
์ฑ๋ฅ ํฅ์ ์์น
์คํ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด Ctx2Skill์ ์ ์ฉํ์ง ์์ ์ต์ ๋ชจ๋ธ๋ค(GPT-5.1, Claude Opus 4.5)์ ์ ์ฒด ๋ฌธ์ ํด๊ฒฐ์จ์ ์ฝ 21% ์์ค์ ๋จธ๋ฌผ๋ ์ต๋๋ค. ๋ฐ๋ฉด, Ctx2Skill ํ๋ ์์ํฌ๋ฅผ ํตํด ์ค์ค๋ก ์คํฌ์ ํ์ตํ ๋ชจ๋ธ์ ๋ชจ๋ ์นดํ
๊ณ ๋ฆฌ(์์ญ ์ง์ ์ถ๋ก , ๊ท์น ์์คํ
์ ์ฉ, ์ ์ฐจ์ ์์
์ํ, ๊ฒฝํ์ ๋ฐ๊ฒฌ ๋ฐ ์๋ฎฌ๋ ์ด์
)์์ ์ผ๊ด๋๊ฒ ์ฑ๋ฅ์ด ํฅ์๋์์ต๋๋ค. ๋
ผ๋ฌธ์ ์ ์๋ ํ์์ ๋ถ์์์ผ๋ก ํ์๋ ๋ถ๋ถ์ ์คํฌ์ ์ถ๊ฐํ์ ๋ ์ป๋ ์ฑ๋ฅ ํฅ์์ ๋ํ๋ด๋ฉฐ, ์ด ํฅ์ ํญ์ ๋จ์ํ ํ๋กฌํํธ ์์ง๋์ด๋ง์ผ๋ก๋ ๋ฌ์ฑํ๊ธฐ ํ๋ ์์ค์
๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
๊ฐ์ฅ ์ธ์์ ์ธ ์ ์ ๋ชจ๋ธ์ ์ข
๋ฅ์ ์๊ด์์ด ์คํฌ์ด ์ ์ด(Transfer) ๊ฐ๋ฅ๋ค๋ ๊ฒ์
๋๋ค. ํ ๋ชจ๋ธ์ด ํ์ตํ ์คํฌ์ ๋ค๋ฅธ ๋ชจ๋ธ์๋ ์ ์ฉํ์ ๋ ์ฑ๋ฅ์ด ํฅ์๋์์ต๋๋ค. ์ด๋ Ctx2Skill์ด ์์ฑํ๋ ์คํฌ์ด ํน์ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ์ ์์กดํ๋ ๊ฒ์ด ์๋๋ผ, ๋ฌธ๋งฅ ์์ฒด์ ๋ด์ฌ๋ ๊ฐ๊ด์ ์ธ ์ ์ฐจ์ ์ง์์ ์ ํฌ์ฐฉํ๊ณ ์์์ ์๋ฏธํฉ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ ๋ฐ ์ํ ์์
์ ์๋ค์ ์ ๋์ ๋ถ๊ดด(Adversarial Collapse)์ ๋ํด ์ธ๊ธํ๋ฉฐ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Cross-Time Replay๋ฅผ ์ ์ํ์ง๋ง, ์ฌ์ ํ ์๊ฐ ํ์ต(Self-play) ๊ณผ์ ์์ ์ง์ญ ์ต์ ํด(Local Optima)์ ๋น ์ง ์ํ์ด ์กด์ฌํฉ๋๋ค. ์ฆ, ๋์ ์๊ฐ ๋๋ฌด ๊ธฐ์ดํ ๋ฌธ์ ๋ฅผ ๊ณ์ ์์ฑํ๊ณ ํด๊ฒฐ์ฌ๊ฐ ๊ทธ ๋ฌธ์ ๋ง ๋งํ๋ ์๋ฑํ ๋ฐฉํฅ์ผ๋ก ์งํํ ๊ฐ๋ฅ์ฑ์ ์์ ํ ๋ฐฐ์ ํ ์๋ ์์ต๋๋ค.
๊ฐ์ ๊ฐ๋ฅํ ์
ํ์ฌ์ ํ๋ ์์ํฌ๋ ํ ์คํธ ๊ธฐ๋ฐ์ ์คํฌ ์์ฑ๊ณผ ์์ ์ ์ง์ค๋์ด ์์ต๋๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ํ ์คํธ๋ฟ๋ง ์๋๋ผ ์ฝ๋ ์คํ์ด๋ ์ธ๋ถ ๋๊ตฌ ํธ์ถ์ ํฌํจํ ๋ ๋ณต์กํ ํํ์ ์คํฌ์ ์๋์ผ๋ก ์์ฑํ ์ ์๋๋ก ํ์ฅํ ์ ์์ต๋๋ค. ๋ํ, ํ์ฌ๋ ์์ฐจ์ ์ธ ๋ฐ๋ณต ๊ณผ์ ์ด ๋ง์ ์ฐ์ฐ ๋ฆฌ์์ค๋ฅผ ์๋ชจํ๋ฏ๋ก, ์ด ๊ณผ์ ์ ๋ ํจ์จ์ ์ผ๋ก ๋ณ๋ ฌํํ์ฌ ํ์ต ์๋๋ฅผ ๋์ด๋ ๊ฒ๋ ์ค์ํ ๊ณผ์ ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ถ์ผ
Ctx2Skill์ ๋ณต์กํ ๋ฌธ์๋ฅผ ์ฝ๊ณ ์
๋ฌด๋ฅผ ์ฒ๋ฆฌํด์ผ ํ๋ ๋ถ์ผ์ ์ฆ์ ์ ์ฉํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊ธ๋ณํ๋ ๋ฒ๋ฅ ๊ท์ ์ด๋ ๊ธฐ์ ๋งค๋ด์ผ, ์๋ฃ ์ง๋ฃ ์ง์นจ ๋ฑ์ด ๋ด๊ธด ๊ธด ๋ฌธ์๋ฅผ ๋ชจ๋ธ์๊ฒ ์ ๊ณตํ์ ๋, ๋ชจ๋ธ์ด ์ค์ค๋ก ๊ทธ ๋ฌธ์์์ ํต์ฌ ๋ฃฐ์ ์ถ์ถํ์ฌ โ์
๋ฌด ๋งค๋ด์ผ(์คํฌ)โ์ ๋ง๋ค๊ณ ์ด๋ฅผ ๋ฐํ์ผ๋ก ๊ณ ๊ฐ ๋ฌธ์๋ฅผ ์ฒ๋ฆฌํ๊ฑฐ๋ ์ฅ์ ๋ฅผ ์ง๋จํ๋ ์์คํ
์ ๊ตฌ์ถํ ์ ์์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค
์ด ๋ฐฉ์์ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์
๋ฐ์ดํธํ๋ ๋ฏธ์ธ ์กฐ์ (Fine-tuning) ๊ณผ์ ์ด ์์ผ๋ฏ๋ก ๋ง๋ํ GPU ํ์ต ๋ฆฌ์์ค๋ ํ์ํ์ง ์์ต๋๋ค. ๋์ , ๋์ ์, ํด๊ฒฐ์ฌ, ์ฌํ ์์ด์ ํธ๋ค์ด ์๋ง์ ํ ํฐ์ ์์ฑํ๊ณ ํ๊ฐํ๋ โ์ถ๋ก ์๊ฐ(Inference-time)โ ์ฐ์ฐ์ด ๋ง์ด ๋ฐ์ํฉ๋๋ค. ๋ฐ๋ผ์ ๊ณ ํ์ง์ ์ธ์ด ๋ชจ๋ธ API๋ฅผ ์ถฉ๋ถํ ํธ์ถํ ์ ์๋ ๋น์ฉ ์์ฐ์ด๋, ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ๋ด๋ ๋ก์ปฌ ์ถ๋ก ์๋ฒ๊ฐ ํ์์ ์
๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ํ๋ผ๋ฉํธ๋ฆญ ์ง์ (Parametric Knowledge): ์ธ์ด ๋ชจ๋ธ์ด ์ฌ์ ํ์ต ๋จ๊ณ์์ ๊ฐ์ค์น(Weights)์ ์ ์ฅํด ๋ ๋ด์ฌ๋ ์ง์์ ๋๋ค. ๋ชจ๋ธ์ด ์ฌ์ ์ ํ์ตํ์ง ์์ ์ต์ ์ ๋ณด๋ ์ ์ ์์ต๋๋ค.
- ๋งฅ๋ฝ ํ์ต (Context Learning): ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์์ ํ์ง ์๊ณ , ํ๋กฌํํธ์ ์ ๊ณต๋ ๋ฌธ๋งฅ(Context)์ด๋ ์์๋ฅผ ํตํด ์๋ก์ด ์์ ์ ์ํํ๋ ๋ฐฉ๋ฒ์ ํ์ตํ๋ ๋ฅ๋ ฅ์ ๋๋ค.
- ์ถ๋ก ์๊ฐ ์คํฌ ์ฆ๊ฐ (Inference-time Skill Augmentation): ๋ชจ๋ธ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ๋, ์ธ๋ถ์์ ์ฃผ์ด์ง๊ฑฐ๋ ๋ฏธ๋ฆฌ ์ ์๋ ์์ฐ์ด ํํ์ ๊ท์น์ด๋ ์ ์ฐจ(Skill)๋ฅผ ์ฐธ๊ณ ํ์ฌ ์ถ๋ก ๋ฅ๋ ฅ์ ๋์ด๋ ๊ธฐ๋ฒ์ ๋๋ค.
- ์๊ฐ ํ๋ ์ด (Self-play): ๊ฐํํ์ต์์ ์์ฃผ ์ฐ์ด๋ ๋ฐฉ๋ฒ์ผ๋ก, ์์ด์ ํธ๊ฐ ์๊ธฐ ์์ ๋๋ ๋ค๋ฅธ ์์ด์ ํธ์ ๊ฒ์์ ํ๋ฉฐ ๊ฒฝ์ํ๊ณ ํ๋ ฅํ์ฌ ์ค๋ ฅ์ ํฅ์์ํค๋ ํ์ต ๋ฐฉ์์ ๋๋ค. (์: ์ํ๊ณ )
- ์ ๋์ ๋ถ๊ดด (Adversarial Collapse): ์๊ฐ ํ๋ ์ด ๊ณผ์ ์์ ์์ด์ ํธ๋ค์ด ํน์ ํ ํจํด์๋ง ๊ณผ๋ํ๊ฒ ์ต์ ํ๋์ด, ์ผ๋ฐ์ ์ธ ์ํฉ์์๋ ์ฑ๋ฅ์ด ๋จ์ด์ง๊ฑฐ๋ ์๋ก ๋ฌด์๋ฏธํ ํจํด๋ง ๋ฐ๋ณตํ๊ฒ ๋๋ ํ์์ ๋๋ค.
- ์ ๋๋ ์ดํฐ๋ธ ์์ด์ ํธ (Generative Agent): ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ, ์ค์ค๋ก ๊ณํ์ ์ธ์ฐ๊ณ ํ๋ํ๋ฉฐ ๋ค๋ฅธ ์์ด์ ํธ์ ์ํธ์์ฉํ ์ ์๋ ์์จ์ ์ธ AI ์์คํ ์ ๋งํฉ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | MolmoAct2: Action Reasoning Models โฆ | DD-082 |
| ๐ฅ | From Context to Skills: Can Languagโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | Stream-R1: Reliability-Perplexity Aโฆ | DD-084 |
| 4. | RLDX-1 Technical Report | DD-085 |
| 5. | ARIS: Autonomous Research via Adverโฆ | DD-086 |
๐ ์์ฑ์ผ: 2026-05-10 | ๐ค GLM-4.7 Deep Dive