โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-062 Adamโs Law: Textual Frequency Law on Large Language Models
arXiv: 2604.02176 ๊ธฐ๊ด: FaceMind Upvotes: 309 | Comments: 6 ์์: ์ด๋ฒ ์ฃผ Top 2
๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: Adamโs Law: Textual Frequency Law on Large Language Models
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ ์ฐ๊ตฌ๋ ์ฃผ๋ก ๋ฐ์ดํฐ์ ์์ด๋ ์ง(Quality)์ ์ง์คํ์ง๋ง, ํ ์คํธ ํํ์ ๋น๋(Frequency)๊ฐ ๋ชจ๋ธ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๊ฐ๊ณผ๋์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ฌ๋์ด ์ฝ์ ๋ ํํ ๋จ์ด๋ฅผ ๋ ๋นจ๋ฆฌ ์ธ์ํ๋ฏ์ด, ์ธ์ด ๋ชจ๋ธ ๋ํ ๋น๋ฒํ๊ฒ ๋ฑ์ฅํ๋ ํ ์คํธ ํจํด์ ๋ ์ ํ์ตํ๊ณ ์ถ๋ก ํ๋ค๋ ํ ์คํธ ์ฃผํ์ ๋ฒ์น(Textual Frequency Law)์ ์ ์ํฉ๋๋ค. ์ฌ์ฉ์์ ์ ๋ ฅ์ ๋ ํํ ํํ์ผ๋ก ๋ฐ๊ฟ์ฃผ๋ ๋จ์ํ๋ฉด์๋ ๊ฐ๋ ฅํ ํ๋ ์์ํฌ๋ฅผ ํตํด, ํ์ํ ๋ชจ๋ธ์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ ์ ์๋ ์ํฉ์์๋ ์ฑ๋ฅ์ ํ๊ธฐ์ ์ผ๋ก ๋์ด๋ ํด๊ฒฐ์ฑ ์ ์ ์ํฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : ๋์๊ด์ ์ฑ ์ฅ
์ด ๋ ผ๋ฌธ์ ํต์ฌ ์์ด๋์ด๋ ๊ฑฐ๋ ๋์๊ด์์ ์ฑ ์ ์ฐพ๋ ๋์๊ด์๊ณผ ๊ฐ์ต๋๋ค. ๋ง์ฝ ๋น์ ์ด โ๊ทธ ์์ฑ ๊ถค๋ ์ญํ์ ์ง๋ฐฐํ๋ ๋ฏธ๋ถ ๋ฐฉ์ ์์ ํด๋ฅผ ๊ตฌํ๋ผโ๋ผ๊ณ ๋งค์ฐ ์ด๋ ต๊ณ ๋๋ฌธ ๋ฌธ์ฅ์ผ๋ก ์์ฒญํ๋ฉด, ๋์๊ด์์ ์ ์ ๋ฉ์นซํ๋ฉฐ ์ด๋์ ์ฐพ์์ผ ํ ์ง ๊ณ ๋ฏผํ ๊ฒ์ ๋๋ค. ํ์ง๋ง โ์ธ๊ณต์์ฑ์ด ๊ถค๋๋ฅผ ๋๋ ์๋ฆฌ๋ฅผ ๊ณ์ฐํด์คโ๋ผ๊ณ ์ฐ๋ฆฌ๊ฐ ์ผ์์์ ํํ ์ฐ๋ ๋ง๋ก ๋ฐ๊ฟ์ ์์ฒญํ๋ฉด, ๋์๊ด์์ ์ฆ์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ฑ ์ฅ์์ ๊ด๋ จ ์ฑ ์ ๊บผ๋ด์ค ๊ฒ์ ๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋ฐ๋ก ์ด โํํ๊ฒ ์ฐ์ด๋ ํํโ์ ์ฐพ์๋ด์ด ๋ชจ๋ธ์๊ฒ ์ ๋ฌํด์ฃผ๋ ๊ฒ์ด ์ฑ๋ฅ ํฅ์์ ์ด์ ์์ ๋ฐํ๋์ต๋๋ค.
๋จ๊ณ๋ณ ๋์ ๊ณผ์
์ด ๋ ผ๋ฌธ์ ํ๋ ์์ํฌ๋ ํฌ๊ฒ ์ธ ๊ฐ์ง ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ฒซ์งธ, ํ ์คํธ ์ฃผํ์ ๋ฒ์น(TFL)์ ํตํด ๋ชจ๋ธ์ด ํ์ตํ ๋๋ ํ๋กฌํํธ๋ฅผ ์ ๋ ฅ๋ฐ์ ๋ ๋ ๋น๋ฒํ๊ฒ ๋ฑ์ฅํ๋ ๋ฌธ์ฅ์ ์ ํธํ๋๋ก ๋ง๋ญ๋๋ค. ๋์งธ, ์ค์ ๋ก ๋ชจ๋ธ์ด ์ด๋ค ๋ฐ์ดํฐ๋ฅผ ํ์ตํ๋์ง ์ ์ ์๊ธฐ ๋๋ฌธ์, ์จ๋ผ์ธ ๊ฒ์ ์์ง์ด๋ ๋๊ท๋ชจ ๋ง๋ญ์น๋ฅผ ์ด์ฉํด ๋ฌธ์ฅ์ ๋ฑ์ฅ ๋น๋๋ฅผ ์ถ์ ํฉ๋๋ค. ์ ์งธ, ์ ๋ ฅ๋ ๋ฌธ์ฅ์ ๋ ํํ ํํ์ผ๋ก ๋ฐ๊ฟ์ฃผ๋ ๋ฐ๊ฟ ๋งํ๊ธฐ(Input Paraphraser)๋ฅผ ์ฌ์ฉํ์ฌ, ๋ชจ๋ธ์ด ์ดํดํ๊ธฐ ๊ฐ์ฅ ์ฌ์ด ํํ๋ก ์ง๋ฌธ์ ๋ณํํฉ๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ
๊ฐ์ฅ ์ค์ํ ์์์ ์๋ฏธ๋ ๊ฐ์ง๋ง ํํ์ด ๋ค๋ฅธ ๋ฌธ์ฅ ์งํฉ ์ค์์ ๋น๋๊ฐ ๊ฐ์ฅ ๋์ ๋ฌธ์ฅ์ ์ ํํ๋ ๊ฒ์ ๋๋ค. ์์์ผ๋ก ํํํ๋ฉด argmax_(x in P) (sfreq(x, D))์ ๊ฐ์ต๋๋ค. ์ฌ๊ธฐ์ P๋ ๊ฐ์ ์๋ฏธ๋ฅผ ๊ฐ์ง ๋ฐ๊ฟ ๋งํ๊ธฐ ๋ฌธ์ฅ๋ค์ด๊ณ , sfreq๋ ๋ง๋ญ์น D์์์ ๋ฌธ์ฅ ๋น๋๋ฅผ ์ธก์ ํ๋ ํจ์์ ๋๋ค. ์ฆ, ๊ฐ์ ์๋ฏธ๋ผ๋ ๋ ๋ง์ด ์ฐ์ธ ํํ์ ๊ณจ๋ผ์ ๋ชจ๋ธ์ ์ ๋ ฅํ๋ฉด ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ด ์ฌ๋ผ๊ฐ๋ค๋ ๊ฒ์ด ํต์ฌ ๋ฉ์ปค๋์ฆ์ ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
๋ฒค์น๋งํฌ ๋ฐ ์ค์
์ฐ๊ตฌ์ง์ ์ํ์ ์ถ๋ก (Mathematical Reasoning)๊ณผ ๊ธฐ๊ณ ๋ฒ์ญ(Machine Translation) ์์ ์ ํตํด ์ด ๋ฒ์น์ ๊ฒ์ฆํ์ต๋๋ค. ์ํ ์ถ๋ก ์์๋ ์ ํ๋(Accuracy)๋ฅผ, ๋ฒ์ญ์์๋ chrF, BLEU, ๊ทธ๋ฆฌ๊ณ ์ต์ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ํ๊ฐ ์งํ์ธ COMET ์ ์๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ๊ฒ์ฆ์ ์ํด GPT-4o-mini, DeepSeek-V3, Qwen2.5-7B-Instruct, Llama-3.3-70B-Instruct ๋ฑ ๋ค์ํ ๊ฐ๋ฐฉํ ๋ฐ ํ์ํ ์ต์ ๋ชจ๋ธ์ ๋ฒ ์ด์ค๋ผ์ธ์ผ๋ก ์ฌ์ฉํ์ต๋๋ค.
์ฑ๋ฅ ํฅ์ ์์น
๊ตฌ์ฒด์ ์ธ ์์น๋ ๋ ผ๋ฌธ์ ํ ์ด๋ธ์ ์์ธํ ๋ํ๋ ์์ผ๋, ์์ฝ๋ณธ์ ์ ์๋ ์ค์ ์ ๋ฐ๋ฅด๋ฉด ๊ณ ๋น๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ํ์ธ ํ๋(Fine-tuning)ํ์ ๋ ๊ธฐ์กด์ ์ฌ์ด ๊ฒ์์ ์ด๋ ค์ด ์์๋ก ํ์ตํ๋ ์ ํต์ ์ธ ์ปค๋ฆฌํ๋ผ ๋ฌ๋(Easy-to-Hard) ๋ฐฉ์๋ณด๋ค ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ ๋ฒ์ญ ์์ ์์ COMET ์ ์๊ฐ ํฅ์๋์์ผ๋ฉฐ, ์ ๋ ฅ ๋ฌธ์ฅ์ ๊ณ ๋น๋ ํํ์ผ๋ก ๋ฐ๊พธ์ด ํ๋กฌํํธํ์ ๋ ๋ชจ๋ธ์ ์ ๋ต๋ฅ ์ด ์ ์๋ฏธํ๊ฒ ์์นํ๋ ๊ฒ์ ํ์ธํ์ต๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
์ด ์ฐ๊ตฌ์ ๊ฐ์ฅ ํฅ๋ฏธ๋ก์ด ์ ์ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ํฌ๊ฒ ๋ณ๊ฒฝํ์ง ์๊ณ ๋, ์ ๋ ฅ ๋ฐ์ดํฐ์ ํํ ๋น๋๋ง ์กฐ์ ํ์ฌ ์ฑ๋ฅ์ ๋์ด์ฌ๋ ธ๋ค๋ ๊ฒ์ ๋๋ค. ์ ์๋ค์ ๊ฑฐ๋ ๋ชจ๋ธ์ผ์๋ก ํฌ๊ท ๋จ์ด๋ ํฌ๊ท ํํ์ ๋ ์ ์์ธกํ๋ค๋ ๊ธฐ์กด ์ค์ผ์ผ๋ง ๋ฒ์น๊ณผ ๋์กฐ์ ์ผ๋ก, ํ์ต์ด๋ ์ถ๋ก ์์๋ ํํ ํํ์ด ๋ ์ ๋ฆฌํ๋ค๋ ๊ฒ์ ์ ์ฆํ์ต๋๋ค. ์ด๋ ๋ฐ์ดํฐ ์ ๋ณ์ ์๋ก์ด ๊ธฐ์ค์ ์ ์ํ ์ค์ํ ๋ฐ๊ฒฌ์ ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ
๊ฐ์ฅ ํฐ ํ๊ณ๋ ๋๋ถ๋ถ์ ์ต์ ์ธ์ด ๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ณต๊ฐํ์ง ์๋๋ค๋ ์ ์ ๋๋ค. ๋ฐ๋ผ์ ์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ฐฉ๋ฒ์ ์จ๋ผ์ธ ๋ฆฌ์์ค๋ฅผ ํตํด ๋ฌธ์ฅ ๋น๋๋ฅผ ์ถ์ ํด์ผ ํ๋ฏ๋ก, ์ค์ ํ์ต ๋ฐ์ดํฐ์์ ์ฐจ์ด๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค. ์ฆ, ์ธํฐ๋ท์์ ํํ ๋ฌธ์ฅ์ด ๋ชจ๋ธ ํ์ต ๋ฐ์ดํฐ์๋ ๋ง์ด ํฌํจ๋์ด ์๋ค๋ ๊ฐ์ ํ์ ์๋ํฉ๋๋ค.
๊ฐ์ ๊ฐ๋ฅ์ฑ
ํฅํ ์ฐ๊ตฌ์์๋ ๋ชจ๋ธ์ ํ์ต ๋ฐ์ดํฐ์ ๋ํ ์์กด๋๋ฅผ ์ค์ด๊ณ , ๋ฌธ์ฅ ๋น๋๋ฅผ ๋ ์ ๊ตํ๊ฒ ์ถ์ ํ ์ ์๋ ๋ฐฉ๋ฒ์ด ํ์ํฉ๋๋ค. ๋ํ ํ ์คํธ๋ฟ๋ง ์๋๋ผ ์ด๋ฏธ์ง๋ ์ค๋์ค ๋ฑ ๋ค๋ฅธ ๋ชจ๋ฌ๋ฆฌํฐ์์๋ ์ ์ฌํ ๋น๋ ๋ฒ์น์ด ์ฑ๋ฆฝํ๋์ง ํ๊ตฌํ ์ ์์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก ๊ณ ๋น๋ ๋ฐ์ดํฐ์์ ์ ๋น๋ ๋ฐ์ดํฐ๋ก ๋์ด๊ฐ๋ ๊ตฌ์ฒด์ ์ธ ์ปค๋ฆฌํ๋ผ ์ ๋ต(Curriculum Textual Frequency Fine-Tuning)์ ๋ ์ธ๋ถํํ์ฌ ์ฐ๊ตฌํ ํ์๊ฐ ์์ต๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ถ์ผ
์ด ๊ธฐ์ ์ RAG(๊ฒ์ ์ฆ๊ฐ ์์ฑ) ์์คํ ์ด๋ ๊ณ ๊ฐ ์๋ ์ฑ๋ด ๊ฐ๋ฐ์ ์ฆ์ ์ ์ฉํ ์ ์์ต๋๋ค. ์ฌ์ฉ์๊ฐ ๋์ง ์ง๋ฌธ์ด ์๋ฌด๋ฆฌ ์์ํ๊ณ ์ด์ํ ํํ์ด๋ผ๋, ์์คํ ๋ด๋ถ์์ ์ด๋ฅผ ํํ ์ฐ๋ ํํ์ผ๋ก ์ ์ ํ์ฌ ๋ชจ๋ธ์ ์ ๋ฌํ๋ค๋ฉด ๋ต๋ณ์ ํ์ง์ ๋์ผ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ํ, ์์ฒด ํ์ธ ํ๋์ ์งํํ๋ ๊ธฐ์ ์ด๋ผ๋ฉด ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋น๋ ์์ผ๋ก ์ ๋ ฌํ์ฌ ํ์ต ํจ์จ์ ๋์ผ ์ ์์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค
์ด ๋ฐฉ๋ฒ์ ์ ์ฉํ๊ธฐ ์ํด ๊ฑฐ๋ํ ์ฐ์ฐ ๋ฅ๋ ฅ์ด ํ์ํ ๊ฒ์ ์๋๋๋ค. ํ์ง๋ง ์ ๋ ฅ ๋ฌธ์ฅ์ ๋น๋๋ฅผ ํ์ธํ๊ธฐ ์ํด ๋๊ท๋ชจ ๋ง๋ญ์น๋ ๊ฒ์ ์์ง API์ ์ ๊ทผํ ์ ์๋ ํ๊ฒฝ์ด ํ์ํฉ๋๋ค. ์ ๋ ฅ์ ๋ฐ๊ฟ ๋งํ๊ธฐ(Paraphrasing)ํ๋ ๊ณผ์ ์์ ์ถ๊ฐ์ ์ธ ์ถ๋ก ๋น์ฉ์ด ๋ฐ์ํ์ง๋ง, ์ด๋ ์ ์ฒด ์์คํ ์ ์ฑ๋ฅ ํฅ์์ ๊ณ ๋ คํ ๋ ์ถฉ๋ถํ ํฌ์ํ ๋งํ ๊ฐ์น๊ฐ ์๋ ๋ฆฌ์์ค์ ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- LLM (Large Language Model): ๋ฐฉ๋ํ ํ ์คํธ ๋ฐ์ดํฐ๋ก ํ์ตํ์ฌ ์ฌ๋์ฒ๋ผ ํ ์คํธ๋ฅผ ์ดํดํ๊ณ ์์ฑํ๋ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ ๋๋ค.
- Fine-tuning (ํ์ธ ํ๋): ์ด๋ฏธ ํ์ต๋ ๊ฑฐ๋ ๋ชจ๋ธ์ ํน์ ์์ ์ด๋ ๋ฐ์ดํฐ์ ๋ง์ถฐ ์ถ๊ฐ๋ก ํ์ต์ํค๋ ๊ณผ์ ์ ๋๋ค.
- Paraphrasing (๋ฐ๊ฟ ๋งํ๊ธฐ): ์๋ฌธ์ ์๋ฏธ๋ ์ ์งํ๋ฉด์ ๋จ์ด๋ ๋ฌธ์ฅ ๊ตฌ์กฐ๋ฅผ ๋ฌ๋ฆฌํ์ฌ ๋ค์ ํํํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
- Curriculum Learning (์ปค๋ฆฌํ๋ผ ๋ฌ๋): ์ธ๊ฐ์ด ํ์ตํ๋ฏ์ด ๋ชจ๋ธ์๊ฒ ์ฌ์ด ์์ ๋ถํฐ ์ ์ฐจ ์ด๋ ค์ด ์์ ๋ฅผ ์์๋๋ก ํ์ต์ํค๋ ์ ๋ต์ ๋๋ค.
- BLEU / COMET: ๊ธฐ๊ณ ๋ฒ์ญ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ์งํ๋ก, ์์ฑ๋ ๋ฌธ์ฅ๊ณผ ์ค์ ์ ๋ต ๋ฌธ์ฅ์ ์ ์ฌ๋๋ฅผ ์ธก์ ํฉ๋๋ค.
- LoRA (Low-Rank Adaptation): ๋ชจ๋ธ์ ์ ์ฒด ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌํ์ต์ํค์ง ์๊ณ ์ผ๋ถ ์ ์ ํ๋ผ๋ฏธํฐ๋ง ํ์ต์์ผ ํจ์จ์ ์ผ๋ก ํ์ธ ํ๋ํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
- Zero-shot / Few-shot Learning: ๋ชจ๋ธ์ด ์ถ๊ฐ ํ์ต ์์ด(Zero-shot) ํน์ ๋ช ๊ฐ์ ์์๋ง ๋ณด๊ณ (Few-shot) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฅ๋ ฅ์ ๋งํฉ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | GrandCode: Achieving Grandmaster Leโฆ | DD-061 |
| ๐ฅ | Adamโs Law: Textual Frequency Law oโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | Video-MME-v2: Towards the Next Stagโฆ | DD-063 |
| 4. | InCoder-32B-Thinking: Industrial Coโฆ | DD-064 |
| 5. | SkillClaw: Let Skills Evolve Collecโฆ | DD-065 |
๐ ์์ฑ์ผ: 2026-04-12 | ๐ค GLM-4.7 Deep Dive