โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-062 Adamโs Law: Textual Frequency Law on Large Language Models
arXiv: 2604.02176 ๊ธฐ๊ด: FaceMind Upvotes: 411 | Comments: 6 ์์: ์ด๋ฒ ์ฃผ Top 1
๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: Adamโs Law: Textual Frequency Law on Large Language Models
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ์ฐ๊ตฌ๋ค์ ์ฃผ๋ก ๋ฐ์ดํฐ์ โ์โ์ด๋ โ์งโ์ ์ง์คํ์ผ๋ฉฐ, ํ์ต ๋ฐ์ดํฐ๋ ํ๋กฌํํธ๊ฐ ํน์ ํํ์ผ๋ก ์ผ๋ง๋ ์์ฃผ ๋ฑ์ฅํ๋์ง์ ๋ํ โ๋น๋โ์ ์ํฅ์ ๊ฐ๊ณผ๋์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ด ๋ ํํ๊ณ ๋น๋ฒํ ํ ์คํธ ํํ์ผ์๋ก ๋ ์ ํ์ตํ๊ณ ์ํํ๋ค๋ โํ ์คํธ ๋น๋ ๋ฒ์น(TFL)โ์ ์ฒ์์ผ๋ก ์ ์ํ๋ฉฐ ์ด๋ฅผ ์ ์ฆํ์ต๋๋ค. ์ด๋ฅผ ํตํด ํ๋กฌํํธ ์์ง๋์ด๋ง๊ณผ ๋ฐ์ดํฐ ์ ๋ณ ๊ณผ์ ์์ ๋น๋๋ฅผ ์ต์ ํํ๋ฉด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ธฐ์ ์ผ๋ก ๋์ผ ์ ์๋ ์๋ก์ด ์งํ์ ์ด์์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ โ๋ชจ๋ธ์ด ๋ ์์ฃผ ์ ํด๋ณธ ํํ์ผ์๋ก ๋ ์ ์ดํดํ๊ณ ๋ตํ๋คโ๋ ์์ฃผ ์ง๊ด์ ์ธ ์๋ฆฌ๋ฅผ ๊ณต์ํํ ๊ฒ์ ๋๋ค. LLM์ ๋ง์น ๋์๊ด์ ์๋ ๋ชจ๋ ์ฑ ์ ๋ ํํ ๊ฑฐ๋ํ ์ง์์ธ์ผ๋ก ์์ํด ๋ณด์ธ์. ์ด ์ง์์ธ์๊ฒ ์ํ ๋ฌธ์ ๋ฅผ ๋ผ ๋, ๊ต๊ณผ์์ ์๋ง ๋ฒ ๋ฑ์ฅํ๋ โ์์ฃผ ํํ ํํโ์ผ๋ก ๋ฌป๋๋ค๋ฉด ๊ทธ๋ ์์ ์๊ฒ ๋ตํ ๊ฒ์ ๋๋ค. ํ์ง๋ง ์์ฃผ ์ค๋๋ ๋ฌธํ์์๋ ๋์ค๋ โํฌ๊ทํ๊ณ ์์ํ ํํโ์ผ๋ก ๋๊ฐ์ ์ง๋ฌธ์ ํ๋ฉด ๋นํฉํ์ฌ ์๋ชป๋ ๋ต์ ํ ์๋ ์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ฐ๋ฆฌ๊ฐ ๋ชจ๋ธ์๊ฒ ์ง๋ฌธํ๊ฑฐ๋ ๊ฐ๋ฅด์น ๋, ๋ชจ๋ธ์ด ๊ฐ์ฅ ์น์ํ๊ฒ ๋๋ผ๋ โํํ ํํโ์ ์ฌ์ฉํ๋๋ก ๋ฐ๊พธ์๋ ๊ฒ์ ๋๋ค.
์ด ์์คํ ์ ํฌ๊ฒ ์ธ ๋จ๊ณ๋ก ๋์ํฉ๋๋ค. ์ฒซ์งธ, **ํ ์คํธ ๋น๋ ๋ฒ์น(TFL)**์ ์ ์ฉํ์ฌ ์ง๋ฌธ์ ์ฌ๋ฌ ๋ฐฉ์(์์ญ)์ผ๋ก ๋ฐ๊พผ ๋ค, ์ธํฐ๋ท ๊ฒ์ ๋ฑ์ ํตํด ๊ทธ์ค ๊ฐ์ฅ ํํ๊ฒ ์ฐ์ด๋ ํํ์ ๊ณจ๋ผ๋ ๋๋ค. ๋์งธ, ํ ์คํธ ๋น๋ ์ฆ๋ฅ(TFD) ๊ณผ์ ์ ํตํด ๋ชจ๋ธ์๊ฒ ํํ ๋ฌธ์ฅ๋ค์ ์ฃผ๊ณ ์ด์ผ๊ธฐ๋ฅผ ์ด์ด์ ์ฐ๊ฒ ํจ์ผ๋ก์จ, ๋ชจ๋ธ์ด ํํ ํจํด์ ๋ ์ ํ์ตํ๋๋ก ํ๋ถํ ๋ฐ์ดํฐ๋ฅผ ์์ฑํฉ๋๋ค. ์ ์งธ, **์ปค๋ฆฌํ๋ผ ํ ์คํธ ๋น๋ ํ์ธํ๋(CTFT)**์ ํตํด ๋ชจ๋ธ์ ํ์ต์ํฌ ๋ ๊ฐ์ฅ ๋น๋๊ฐ ๋์ ๋ฐ์ดํฐ๋ถํฐ ์์ํด์ ์ ์ฐจ ๋ ํํ ๋ฐ์ดํฐ๋ก ํ์ต ์์๋ฅผ ๋ฐฐ์นํ์ฌ ํจ์จ์ ๊ทน๋ํํฉ๋๋ค.
ํต์ฌ ์์์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. ๊ฐ์ ์๋ฏธ๋ฅผ ๊ฐ์ง ๋ฌธ์ฅ๋ค์ ์งํฉ $\mathcal{P}$ ์ค์์, ๋ง๋ญ์น $\mathcal{D}$์์ ๋ฌธ์ฅ ๋จ์ ๋น๋ $\mathrm{sfreq}$๊ฐ ๊ฐ์ฅ ๋์ ๋ฌธ์ฅ $\mathbf{x}$๋ฅผ ์ ํํ๋ ๊ฒ์ ๋๋ค.
$$ \mathrm{argmax}_{\mathbf{x}\in\mathcal{P}}(\mathrm{sfreq}(\mathbf{x},\mathcal{D})) $$
์ฆ, โ๋ฌด์์ด ์ฌ๋ฐ๋ฅธ ํํ์ธ๊ฐ?โ๋ณด๋ค โ๋ฌด์์ด ๊ฐ์ฅ ํํ ํํ์ธ๊ฐ?โ๋ฅผ ์ ํ ๊ธฐ์ค์ผ๋ก ์ผ๋ ๊ฒ์ด ์ด ๋ ผ๋ฌธ์ ์๊ณ ๋ฆฌ์ฆ ํต์ฌ์ ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ฐ๊ตฌ์ง์ ์ํ์ ์ถ๋ก (Math Reasoning) ๊ณผ์ ์ 100๊ฐ ์ธ์ด๋ฅผ ํฌํจํ ๊ธฐ๊ณ ๋ฒ์ญ(Machine Translation) ๊ณผ์ ์์ ๊ด๋ฒ์ํ ์คํ์ ์ํํ์ต๋๋ค. ๋ฒ์ญ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํด ์ ํ๋(Accuracy) ์ธ์๋ chrF, BLEU, ๊ทธ๋ฆฌ๊ณ ์ต์ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ํ๊ฐ ์งํ์ธ COMET ์ ์๋ฅผ ์ฌ์ฉํ์ต๋๋ค.
์คํ ๊ฒฐ๊ณผ, ํํ ํํ์ผ๋ก ํ๋กฌํํธ๋ฅผ ์์ ํ์ ๋ GPT-4o-mini์ DeepSeek-V3 ๊ฐ์ ์ต์ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ด ๊ธฐ์กด ํ๋กฌํํธ ๋๋น ์ ์๋ฏธํ๊ฒ ํฅ์๋์์ต๋๋ค. ํนํ ์คํ ์์ค ๋ชจ๋ธ์ธ Qwen2.5-7b-instruct๋ฅผ ํ์ธํ๋ํ ๋, ํํ ๋ฐ์ดํฐ๋ถํฐ ํ์ตํ๋ ์ด ๋ ผ๋ฌธ์ ๋ฐฉ์(CTFT)์ด ์ผ๋ฐ์ ์ธ ํ์ต ๋ฐฉ์์ด๋ ๋์ด๋ ์์์ ๋ฐ๋ฅธ ์ ํต์ ์ธ ์ปค๋ฆฌํ๋ผ ํ์ต๋ณด๋ค ๋ ๋์ ์ ํ๋์ COMET ์ ์๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ์ด๋ ๋ฐ์ดํฐ์ ์๋ณด๋ค ๋ฐ์ดํฐ์ โ๋น๋ ๋ถํฌโ๊ฐ ํ์ต ํจ์จ์ ๊ฒฐ์ ํ๋ ๋ฐ ์ค์ํ ์ญํ ์ ํจ์ ์์น๋ก ์ ์ฆํ ๊ฒฐ๊ณผ์ ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๋ค์ ์ด ๋ฐฉ๋ฒ๋ก ์ ์ ์ฉํ๊ธฐ ์ํด ๋ฌธ์ฅ์ ๋น๋๋ฅผ ์ถ์ ํด์ผ ํ๋๋ฐ, ์ด๋ฅผ ์ํด์๋ ๋ฐฉ๋ํ ์ธ์ด corpus๋ ์จ๋ผ์ธ ๊ฒ์ ์์ง์ ๋ํ ์ ๊ทผ์ด ํ์ํ๋ฏ๋ก ์ถ๊ฐ์ ์ธ ๋น์ฉ๊ณผ ๋ฆฌ์์ค๊ฐ ๋ ๋ค๋ ์ ์ ํ๊ณ๋ก ๊ผฝ์์ต๋๋ค. ๋ํ, ๋๋ฌด ํํ ํํ๋ง ๊ณ ์งํ๋ค ๋ณด๋ ์์ฃผ ์ ๊ตํ๊ฑฐ๋ ์ฐฝ์์ ์ธ ๋์์ค, ํน์ ์ ๋ฌธ์ ์ธ ๋ถ์ผ์ ํฌ๊ท ์ฉ์ด๊ฐ ํ์ํ ์ํฉ์์๋ ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์๋ ๊ฐ๋ฅ์ฑ๋ ์์ฌํ์ต๋๋ค.
ํฅํ ์ฐ๊ตฌ๋ก๋ ๋น๋ ์ถ์ ์๋๋ฅผ ๋์ด๊ณ ๊ณ์ฐ ๋น์ฉ์ ์ค์ด๋ ๋ ํจ์จ์ ์ธ ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ์ด ํ์ํฉ๋๋ค. ๋ํ, ํํ ํํ๊ณผ ํฌ๊ทํ์ง๋ง ์ค์ํ ํํ ์ฌ์ด์ ๊ท ํ์ ๋ง์ถ๋ ์ ๋ต์ ์ฐ๊ตฌํ์ฌ ๋ค์ํ ๋๋ฉ์ธ์ผ๋ก ์ผ๋ฐํํ๋ ๊ณผ์ ๊ฐ ๋จ์ ์์ต๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด ์ฐ๊ตฌ๋ ์ค๋ฌด์์ ์ฆ์ ํ์ฉํ ์ ์๋ ์ํฉํธ๊ฐ ํฝ๋๋ค. ์ฒซ์งธ, RAG(๊ฒ์ ์ฆ๊ฐ ์์ฑ) ์์คํ ์ด๋ ์ฑ๋ด ์๋น์ค์์ ์ฌ์ฉ์์ ์ง๋ฌธ์ ๋ฐ๋ก ์ฒ๋ฆฌํ๋ ๋์ , ๋ชจ๋ธ์ด ๋ ์ ์ดํดํ ์ ์๋ ํํ ํํ์ผ๋ก ์๋ ์์ญ(Paraphrasing)ํ์ฌ ๋ต๋ณ์ ์ ํ๋๋ฅผ ๋์ด๋ ํ๋กฌํํธ ์ ์ฒ๋ฆฌ ๋จ๊ณ์ ์ ์ฉํ ์ ์์ต๋๋ค. ๋์งธ, ๊ธฐ๊ณ ๋ฒ์ญ ์๋น์ค์์ ์ ๋ ฅ๋ ๋ฌธ์ฅ์ ๋น๋๊ฐ ๋์ ํ์ค์ด๋ก ์ ์ ํ ๋ค ๋ฒ์ญํ๋ฉด ํจ์ฌ ์์ฐ์ค๋ฌ์ด ๋ฒ์ญ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์ต๋๋ค.
์ด๋ฅผ ๊ตฌํํ๊ธฐ ์ํด์๋ ๋ฌธ์ฅ ๋น๋๋ฅผ ๊ณ์ฐํ ์ ์๋ ๋๊ท๋ชจ ํ ์คํธ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ ๊ฒ์ API๊ฐ ํ์ํฉ๋๋ค. ๋ชจ๋ธ์ ์ง์ ํ์ธํ๋ํ ๊ฒฝ์ฐ์๋ LoRA์ ๊ฐ์ ํจ์จ์ ์ธ ํ๋ ๊ธฐ๋ฒ์ ์ฌ์ฉํ ์ ์๋ GPU ํด๋ฌ์คํฐ ํ๊ฒฝ์ด ์๊ตฌ๋ฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- Large Language Model (LLM): ๋ฐฉ๋ํ ํ ์คํธ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋์ด ํ ์คํธ๋ฅผ ์ดํดํ๊ณ ์์ฑํ๋ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ ๋๋ค.
- Fine-tuning: ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ํน์ ์์ ์ด๋ ๋ฐ์ดํฐ์ ๋ง์ถฐ ์ถ๊ฐ๋ก ํ์ต์์ผ ์ฑ๋ฅ์ ์ต์ ํํ๋ ๊ณผ์ ์ ๋๋ค.
- Paraphrasing: ๋ฌธ์ฅ์ ์๋ฏธ๋ฅผ ์ ์งํ๋ฉด์ ๋จ์ด๋ ๊ตฌ์กฐ๋ฅผ ๋ฐ๊พธ์ด ๋ค๋ฅด๊ฒ ํํํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
- Curriculum Learning: ์ธ๊ฐ์ด ํ์ตํ๋ฏ ๋ชจ๋ธ์๊ฒ ์ฌ์ด ์์ ๋ถํฐ ์ ์ฐจ ์ด๋ ค์ด ์์ ์์๋ก ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ๋ ํ์ต ์ ๋ต์ ๋๋ค.
- Likelihood: ํ๋ฅ ๋ชจ๋ธ์์ ๊ด์ธก๋ ๋ฐ์ดํฐ๊ฐ ๋ฐ์ํ ๊ฐ๋ฅ์ฑ์ ๋ํ๋ด๋ ์ฒ๋๋ก, ์ธ์ด ๋ชจ๋ธ์ ๋ค์ ๋จ์ด๊ฐ ๋์ฌ ๊ฐ๋ฅ๋๋ฅผ ์ต๋ํํ๋๋ก ํ์ตํฉ๋๋ค.
- BLEU/COMET: ๊ธฐ๊ณ ๋ฒ์ญ ๋ฑ์ ๊ฒฐ๊ณผ๊ฐ ์ฌ๋์ด ๋ฒ์ญํ ์ฐธ์กฐ ๋ฌธ์ฅ๊ณผ ์ผ๋ง๋ ์ ์ฌํ์ง๋ฅผ ์ธก์ ํ๋ ์๋ ํ๊ฐ ์งํ๋ค์ ๋๋ค.
- LoRA (Low-Rank Adaptation): ๋ชจ๋ธ์ ์ ์ฒด ํ๋ผ๋ฏธํฐ๋ฅผ ์์ ํ์ง ์๊ณ ์ ์ ์์ ํ๋ผ๋ฏธํฐ๋ง ์ถ๊ฐํ์ฌ ํจ์จ์ ์ผ๋ก ๋ชจ๋ธ์ ํ๋ํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Adamโs Law: Textual Frequency Law oโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | GrandCode: Achieving Grandmaster Leโฆ | DD-061 |
| ๐ฅ | Rethinking Generalization in Reasonโฆ | DD-066 |
| 4. | InCoder-32B-Thinking: Industrial Coโฆ | DD-064 |
| 5. | Video-MME-v2: Towards the Next Stagโฆ | DD-063 |
๐ ์์ฑ์ผ: 2026-04-12 | ๐ค GLM-4.7 Deep Dive