โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-069 The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping
arXiv: 2604.11297 Upvotes: 135 | Comments: 2 ์์: ์ด๋ฒ ์ฃผ Top 3
์๋ ํ์ธ์! AI/ML ์ ๋ฌธ๊ฐ๋ก์ ํฅ๋ฏธ๋ก์ด ๋ ผ๋ฌธ์ ๊น์ด ์๊ฒ ๋ถ์ํด ๋๋ฆฌ๊ฒ ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ต๊ทผ ํฐ ์ด์๊ฐ ๋๋ ์์ฑํ AI์ ์ฌ๊ณ ๊ณผ์ ํฅ์์ ๊ดํ ๋ด์ฉ์ ๋๋ค. ์ฃผ๋์ด ๊ฐ๋ฐ์๋ ์ง๊ด์ ์ผ๋ก ์ดํดํ ์ ์๋๋ก ๋น์ ๋ฅผ ํ๋ถํ๊ฒ ์ฌ์ฉํ์ฌ ํ์ด๋ณด๊ฒ ์ต๋๋ค.
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
์ด ๋ ผ๋ฌธ์ ๋ํ ์ธ์ด ๋ชจ๋ธ์ด ๊ฐํ ํ์ต(Reinforcement Learning) ํ๋ จ ๊ณผ์ ์์ ๋๊ฐ์ ์ค์๋ฅผ ๋ฐ๋ณตํ๋ ๊ณ ์ง์ ์ธ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ต๋๋ค. ๊ธฐ์กด์ ๋ฐฉ์์ด ๋จ์ํ ๋ฌด์์์ฑ(Entropy)์ ๋์ด๋ ๊ฒ์ ๊ทธ์ณค๋ค๋ฉด, ์ด ๋ ผ๋ฌธ์ ๊ณผ๊ฑฐ์ ์ค์ ํจํด์ ๊ธฐ์ตํ๋ ๋ฉ๋ชจ๋ฆฌ(Memory) ๊ตฌ์กฐ๋ฅผ ๋์ ํ์ฌ ๋ชจ๋ธ์ด ์ค์์ ๋ช์ ๋น ์ง๋ ๊ฒ์ ์์ฒ์ ์ผ๋ก ์ฐจ๋จํฉ๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ๋ ๋ค์ํ๊ณ ์ฐฝ์์ ์ธ ํด๊ฒฐ์ฑ ์ ํ์ํ๋๋ก ์ ๋ํ์ฌ, ๋ณต์กํ ์ํ์ด๋ ์ฝ๋ฉ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํ๊ธฐ์ ์ผ๋ก ๋์ผ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : โ์ค์ ๋ ธํธโ๋ฅผ ํ์ฉํ ๊ณต๋ถ๋ฒ
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ธ MEDS ํ๋ ์์ํฌ๋ฅผ ์ดํดํ๊ธฐ ์ํด ์ํ ๋ฌธ์ ๋ฅผ ํธ๋ ํ์์ ๋ ์ฌ๋ ค ๋ด ์๋ค.
๊ธฐ์กด์ ๊ฐํ ํ์ต ๋ชจ๋ธ์ ๋ง์น ๋ฌธ์ ํ๋ค๊ฐ ํ๋ฆฌ๋ฉด, ๊ทธ๋ฅ ์ฐํ์ ๋์ง๊ณ โ๋ค์๋ฒ์ ์๋ฌด๋ ๊ฒ๋ ์จ๋ณด์โ๋ผ๊ณ ์๊ฐํ๋ ํ์๊ณผ ๋น์ทํฉ๋๋ค. ์ด๋ฅผ ์ํธ๋กํผ ์ ๊ทํ(Entropy Regularization)๋ผ๊ณ ํ๋๋ฐ, ์ด๋ ๋จ์ํ ๋ฌด์์์ฑ์ ์ค ๋ฟ ๋๊ฐ์ ์ค์๋ฅผ ๋ค์ ํ ํ๋ฅ ์ ์ค์ด์ง๋ ๋ชปํฉ๋๋ค.
๋ฐ๋ฉด MEDS ํ๋ ์์ํฌ๋ฅผ ์ ์ฉํ ํ์์ โ์ค์ ๋ ธํธโ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ด ํ์์ ๋ฌธ์ ๋ฅผ ํ ๋ ์์ ์ ์ฌ๊ณ ๊ณผ์ (์ค๊ฐ ๋จ๊ณ์ ์๊ฐ)์ ๋ ธํธ์ ๊ธฐ๋กํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋์ ํ๋ฆฐ ๋ฌธ์ ๋ค์ ์ฌ๊ณ ๊ณผ์ ์ ๋ถ์ํด๋ณด๋, โ์, ๋ฌธ์ ์ง๋ฌธ์ ์๋ชป ์ฝ์ด์ ์ซ์๋ฅผ ๋ฐ๊ฟ ์ ๋ ๋ฒ๋ฆ์ด ์๊ตฌ๋โ๋ผ๊ณ ํจํด์ ๋ฐ๊ฒฌํฉ๋๋ค. ๋ค์๋ฒ์ ์๋ก์ด ๋ฌธ์ ๋ฅผ ํ ๋, ์์ ์ด ๋ค์ ๊ทธ๋ฐ ํจํด์ ์ฌ๊ณ ํ๋ฆ์ ํ๊ณ ๊ฐ๊ณ ์๋ค๋ ๊ฒ์ ๊นจ๋ซ๋ ์ฆ์, โ์ ๊น, ์ด๊ฑฐ ์์ ์ ํ๋ ธ๋ ํจํด์ด์ผ! ์ ๋ฐ ๋ค๋ฅด๊ฒ ์๊ฐํด!โ๋ผ๋ฉฐ ์ค์ค๋ก์๊ฒ ํฐ ๋ฒ์ (Penalty)์ ๋ถ์ฌํ์ฌ ๋ค๋ฅธ ๊ธธ๋ก ๊ฐ๋๋ก ๊ฐ์ ํฉ๋๋ค. ์ด๊ฒ์ด ๋ฐ๋ก MEDS์ ์๋ ์๋ฆฌ์ ๋๋ค.
๋จ๊ณ๋ณ ๋์ ๋ฐฉ์
MEDS๋ ํฌ๊ฒ ์ธ ๊ฐ์ง ๋จ๊ณ๋ก ์๋ํฉ๋๋ค.
์ฒซ์งธ, ๊ธฐ์ตํ๊ธฐ(Memory): ๋ชจ๋ธ์ด ๋ฌธ์ ๋ฅผ ํ๋ฉด์ ์์ฑํ๋ ์ค๊ฐ ๋จ๊ณ์ ํํ(Representation), ์ฆ ์ฌ๊ณ ์ ํ์ ์ ๋ชจ๋ ์ ์ฅํฉ๋๋ค. ๋ง์น CCTV์ ์ฌ๊ณ ํ์ฅ์ ์ฐ์ด๋๋ ๊ฒ๊ณผ ๋น์ทํฉ๋๋ค.
๋์งธ, ํจํด ์ฐพ๊ธฐ(Clustering): ์ ์ฅ๋ ๊ณผ๊ฑฐ์ ์ฌ๊ณ ํ์ ์ค์์ ์ ์๊ฐ ๋ฎ์๋ ์คํจํ ์ฌ๋ก๋ค์ ๊ฐ์ ธ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ฐ๋ ๊ธฐ๋ฐ ํด๋ฌ์คํฐ๋ง(Density-based Clustering) ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํด ๋น์ทํ ์ข ๋ฅ์ ์คํจ ํจํด๋ผ๋ฆฌ ๋ญ์ณ์ค๋๋ค. ์๋ฅผ ๋ค์ด, โ๋ฌธ์ ๋ฅผ ๊ฑฐ๊พธ๋ก ํด์ํ๋ ๊ตฐ์งโ, โํน์ ํจ์๋ฅผ ์๋ชป ํธ์ถํ๋ ๊ตฐ์งโ ๋ฑ์ผ๋ก ๋ถ๋ฅํ๋ ๊ฒ์ ๋๋ค.
์ ์งธ, ๋ณด์ ์กฐ์ ํ๊ธฐ(Reward Shaping): ๋ชจ๋ธ์ด ์๋ก์ด ๋ฌธ์ ๋ฅผ ํ ๋, ํ์ฌ์ ์ฌ๊ณ ํ๋ฆ์ด ๊ณผ๊ฑฐ์ โ์คํจ ๊ตฐ์งโ๊ณผ ์ผ๋ง๋ ์ ์ฌํ์ง ์ค์๊ฐ์ผ๋ก ๊ณ์ฐํฉ๋๋ค. ๋ง์ฝ ์ง๊ธ ํ๋ ค๋ ์๊ฐ์ด ๊ณผ๊ฑฐ์ ์์ฃผ ํ๋ ธ๋ ํจํด๊ณผ ์ ์ฌํ๋ค๋ฉด, ๋ณด์ ์ ์(Reward)๋ฅผ ๋ํญ ๊น์๋ฒ๋ฆฝ๋๋ค. ๋ชจ๋ธ์ ์ต๋ํ ์ ์๋ฅผ ๋์ฌ์ผ ํ๋ฏ๋ก, ์ต์ง๋ก๋ผ๋ ๋ค๋ฅธ ์๋ค๋ฅธ ๊ฒฝ๋ก๋ฅผ ํ์ํ๊ฒ ๋ฉ๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ ๊ฐ์
์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ ํต์ฌ ์์์ ๊ฐ๋ ์ ๋ณด์ ํจ์๋ฅผ ์์ ํ๋ ๊ฒ์ ๋๋ค. ๊ธฐ์กด์ ๋ณด์ $R_{original}$์ ๊ณผ๊ฑฐ์ ์คํจ ๋น๋์ ๋น๋กํ๋ ๋ฒ์ ํญ์ ๋บ๋๋ค.
$$R_{final} = R_{original} - \lambda \cdot \text{Similarity}(h_t, \text{ErrorClusters})$$
์ฌ๊ธฐ์ $h_t$๋ ํ์ฌ ์์ $t$์์์ ๋ชจ๋ธ์ ์๋ ์ํ(ํ์ฌ์ ์๊ฐ)์ด๋ฉฐ, $\lambda$๋ ๋ฒ์ ์ ๊ฐ๋๋ฅผ ์กฐ์ ํ๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋๋ค. ์ฆ, ๊ณผ๊ฑฐ์ ์คํจ์ ํ์ฌ ์๊ฐ์ด ์ ์ฌํ ์๋ก ์ต์ข ๋ณด์์ ๋ฎ์์ ธ ๋ชจ๋ธ์ด ๊ทธ ๊ฒฝ๋ก๋ฅผ ๊ธฐํผํ๊ฒ ๋ง๋ญ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ฐ๊ตฌ์ง์ ์ด ๋ฐฉ๋ฒ์ ์ฑ๋ฅ์ ๊ฒ์ฆํ๊ธฐ ์ํด ์ฝ๋ ์์ฑ๊ณผ ์ํ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ๋ 5๊ฐ์ง ๋ฐ์ดํฐ์ ๊ณผ 3๊ฐ์ง ๊ธฐ๋ณธ ๋ชจ๋ธ(Base Models)์ ์ฌ์ฉํ์ต๋๋ค.
๊ฐ์ฅ ๋์ ๋๋ ์ฑ๊ณผ๋ Pass@1(์ ๋ต์ ๋งํ ํ๋ฅ , ์ฒซ ๋ฒ์งธ ์๋์์์ ์ ํ๋)๊ณผ Pass@128(128๋ฒ์ ์๋ ์ค ํ๋๋ผ๋ ์ ๋ต์ ๋งํ ํ๋ฅ ) ์งํ์์ ๊ธฐ์กด ์ต์ ๊ธฐ์ (Baseline) ๋๋น ํฐ ํฅ์์ ์ด๋ค๋๋ค๋ ์ ์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋ ์ต๋ 4.13์ ์ Pass@1 ์์น๊ณผ 4.37์ ์ Pass@128 ์์น์ ๊ธฐ๋กํ์ต๋๋ค.
์ด ์์น๋ ๊ฒฝ์์ด ์น์ดํ ๋ฒค์น๋งํฌ์์ ๋งค์ฐ ํฐ ํญ์ ๊ฐ์ ์ ๋๋ค. ์ด๋ MEDS๊ฐ ๋จ์ํ ์ ๋ต์ ๋ ์ ๋งํ๋ ๊ฒ์ ๋์ด, ๋ชจ๋ธ์ด ์ํ์ฐฉ์ค๋ฅผ ์ค์ด๊ณ ๋ ํจ์จ์ ์ผ๋ก ์ ๋ต ๊ฒฝ๋ก๋ฅผ ์ฐพ์๋ด๋๋ก ๋์์์ ์๋ฏธํฉ๋๋ค. ํนํ ๋ฐ๋ณต๋๋ ์ค๋ฅ ํจํด์ ์ค์์ผ๋ก์จ, 128๋ฒ์ ์๋ ๋ด์์ ๋ค์ํ ํด๊ฒฐ์ฑ ์ ํ์ํ ๊ธฐํ๋ฅผ ๋๋ ค์ฃผ์๋ค๊ณ ํด์ํ ์ ์์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๋ค์ ๋ ผ๋ฌธ์์ ์ด ๋ฐฉ๋ฒ์ด ๊ฐ์ง ๊ณ์ฐ ๋น์ฉ ๋ฌธ์ ๋ฅผ ์ธ๊ธํ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค. ๊ณผ๊ฑฐ์ ๋ชจ๋ ๊ฒฝํ์ ์ ์ฅํ๊ณ ์ค์๊ฐ์ผ๋ก ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ ์์์ ์๋นํ ์๋ชจํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ถํ ์ฐ๊ตฌ์์๋ ์ด ๋ฉ๋ชจ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ๋ ํจ์จ์ ์ผ๋ก ์์ถํ๊ฑฐ๋, ๋น ๋ฅด๊ฒ ๊ฒ์ํ๋ ๋ฐฉ๋ฒ์ด ํ์ํ ๊ฒ์ ๋๋ค. ๋ํ, ํ์ฌ๋ ์ฃผ๋ก ์ถ๋ก (Reasoning) ์์ ์ ์ง์ค๋์ด ์์ผ๋ฏ๋ก, ์ฐฝ์ ๊ธ์ฐ๊ธฐ์ ๊ฐ์ ๋ ์ด๋ฆฐํ(Open-ended) ๊ณผ์ ์์๋ ์ด ๋ฐฉ์์ด ์ ํจํ์ง ๊ฒ์ฆํ ํ์๊ฐ ์์ต๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด ๊ธฐ์ ์ ๋ณต์กํ ๋ ผ๋ฆฌ๊ฐ ํ์ํ **์ฝ๋ ์์ฑ(Copilot ๋ฑ)**์ด๋ ์ํ ๋ฌธ์ ํ์ด AI๋ฅผ ๊ฐ๋ฐํ๋ ๊ณณ์ ๋ฐ๋ก ์ ์ฉํ ์ ์์ต๋๋ค. ํนํ, ์ฌ์ฉ์๊ฐ ์ง๋ฌธ์ ํ์ ๋ ๋ชจ๋ธ์ด ์๊พธ ์๋ฑํ ๋ต๋ณ์ ๋ฐ๋ณตํ๋ ์ํฉ(Hallucination์ด ๋ฐ๋ณต๋๋ ๊ฒฝ์ฐ)์ ๊ฐ์ ํ๋ ๋ฐ ํฐ ํจ๊ณผ๊ฐ ์์ ๊ฒ์ ๋๋ค.
๋ค๋ง, ์ค๋ฌด์ ์ ์ฉํ๋ ค๋ฉด ์ถ๊ฐ์ ์ธ GPU ๋ฉ๋ชจ๋ฆฌ๊ฐ ํ์ํฉ๋๋ค. ๊ณผ๊ฑฐ์ ์ค๋ฅ ํจํด์ ์ ์ฅํ ์๋ฒ ๋ฉ ๋ฒกํฐ ์ ์ฅ์(Vector DB)์ ์ ์ฌ๋ ๊ฒ์์ ์ํ ์ฐ์ฐ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํด์ผ ํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ฐ๋ผ์ ์๋น์ค ๋น์ฉ์ด ๋ค์ ์์นํ ์ ์์ง๋ง, ๋ต๋ณ์ ํ์ง์ด ํฌ๊ฒ ํฅ์๋๋ฏ๋ก ๋น์ฉ ๋๋น ํจ๊ณผ(ROI)๊ฐ ๋์ ์์ญ์ผ ๊ฒ์ ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ๊ฐํ ํ์ต(Reinforcement Learning): ์์ด์ ํธ๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ๋ณด์์ ์ต๋ํํ๋ ํ๋์ ํ์ตํ๋ ๋จธ์ ๋ฌ๋์ ํ ๋ถ์ผ์ ๋๋ค.
- ๋ณด์ ์ค๊ณ(Reward Shaping): ์์ด์ ํธ๊ฐ ์ํ๋ ๋ชฉํ๋ฅผ ๋ ๋นจ๋ฆฌ ๋ฌ์ฑํ๋๋ก ์๋์ ๋ณด์ ํจ์๋ฅผ ์์ ํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
- ์ํธ๋กํผ ์ ๊ทํ(Entropy Regularization): ๋ชจ๋ธ์ ์์ธก์ด ๋๋ฌด ํ์ ์ ์ฐจ์ง ์๊ณ ๋ค์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ผ ์ ์๋๋ก ๋ฌด์์์ฑ์ ์ฅ๋ คํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
- ์ธ์ด ๋ชจ๋ธ์ ์ฌ๊ณ ์ฐ์(Chain-of-Thought): ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ค๊ฐ ์ถ๋ก ๊ณผ์ ์ ๋จ๊ณ๋ณ๋ก ์์ฑํ๋ ๋ฐฉ์์ ๋๋ค.
- ํด๋ฌ์คํฐ๋ง(Clustering): ๋น์ทํ ํน์ง์ ๊ฐ์ง ๋ฐ์ดํฐ๋ผ๋ฆฌ ๋ฌถ์ด์ฃผ๋ ๋น์ง๋ ํ์ต ๋ฐฉ๋ฒ์ ๋๋ค.
- ์๋ฒ ๋ฉ(Embedding): ์ธ๊ฐ์ ์ธ์ด๋ ๋ฐ์ดํฐ๋ฅผ ์ปดํจํฐ๊ฐ ์ดํดํ ์ ์๋ ์ซ์์ ๋ฒกํฐ ํํ๋ก ๋ณํํ ๊ฒ์ ๋๋ค.
- Pass@k: ์ฝ๋ ์์ฑ ๋ชจ๋ธ์ ์ฑ๋ฅ ํ๊ฐ ์งํ๋ก, k๋ฒ์ ์์ฑ ์๋ ์ค ์ต์ ํ ๋ฒ ์ ๋ต ์ฝ๋๋ฅผ ์์ฑํ ํ๋ฅ ์ ์๋ฏธํฉ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | WildDet3D: Scaling Promptable 3D Deโฆ | DD-067 |
| ๐ฅ | Seedance 2.0: Advancing Video Generโฆ | DD-068 |
| ๐ฅ | The Past Is Not Past: Memory-Enhancโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 4. | ClawGUI: A Unified Framework for Trโฆ | DD-070 |
| 5. | QuanBench+: A Unified Multi-Framewoโฆ | DD-071 |
๐ ์์ฑ์ผ: 2026-04-19 | ๐ค GLM-4.7 Deep Dive