โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-062 Adamโ€™s Law: Textual Frequency Law on Large Language Models

arXiv: 2604.02176 ๊ธฐ๊ด€: FaceMind Upvotes: 411 | Comments: 6 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 1


๋…ผ๋ฌธ ๋ฆฌ๋ทฐ: Adamโ€™s Law: Textual Frequency Law on Large Language Models

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ์—ฐ๊ตฌ๋“ค์€ ์ฃผ๋กœ ๋ฐ์ดํ„ฐ์˜ โ€˜์–‘โ€™์ด๋‚˜ โ€˜์งˆโ€™์— ์ง‘์ค‘ํ–ˆ์œผ๋ฉฐ, ํ•™์Šต ๋ฐ์ดํ„ฐ๋‚˜ ํ”„๋กฌํ”„ํŠธ๊ฐ€ ํŠน์ • ํ‘œํ˜„์œผ๋กœ ์–ผ๋งˆ๋‚˜ ์ž์ฃผ ๋“ฑ์žฅํ•˜๋Š”์ง€์— ๋Œ€ํ•œ โ€˜๋นˆ๋„โ€™์˜ ์˜ํ–ฅ์€ ๊ฐ„๊ณผ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์ด ๋” ํ”ํ•˜๊ณ  ๋นˆ๋ฒˆํ•œ ํ…์ŠคํŠธ ํ‘œํ˜„์ผ์ˆ˜๋ก ๋” ์ž˜ ํ•™์Šตํ•˜๊ณ  ์ˆ˜ํ–‰ํ•œ๋‹ค๋Š” โ€˜ํ…์ŠคํŠธ ๋นˆ๋„ ๋ฒ•์น™(TFL)โ€˜์„ ์ฒ˜์Œ์œผ๋กœ ์ œ์•ˆํ•˜๋ฉฐ ์ด๋ฅผ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง๊ณผ ๋ฐ์ดํ„ฐ ์„ ๋ณ„ ๊ณผ์ •์—์„œ ๋นˆ๋„๋ฅผ ์ตœ์ ํ™”ํ•˜๋ฉด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํš๊ธฐ์ ์œผ๋กœ ๋†’์ผ ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ์ง€ํ‰์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์€ โ€œ๋ชจ๋ธ์ด ๋” ์ž์ฃผ ์ ‘ํ•ด๋ณธ ํ‘œํ˜„์ผ์ˆ˜๋ก ๋” ์ž˜ ์ดํ•ดํ•˜๊ณ  ๋‹ตํ•œ๋‹คโ€๋Š” ์•„์ฃผ ์ง๊ด€์ ์ธ ์›๋ฆฌ๋ฅผ ๊ณต์‹ํ™”ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. LLM์„ ๋งˆ์น˜ ๋„์„œ๊ด€์— ์žˆ๋Š” ๋ชจ๋“  ์ฑ…์„ ๋…ํŒŒํ•œ ๊ฑฐ๋Œ€ํ•œ ์ง€์‹์ธ์œผ๋กœ ์ƒ์ƒํ•ด ๋ณด์„ธ์š”. ์ด ์ง€์‹์ธ์—๊ฒŒ ์‹œํ—˜ ๋ฌธ์ œ๋ฅผ ๋‚ผ ๋•Œ, ๊ต๊ณผ์„œ์— ์ˆ˜๋งŒ ๋ฒˆ ๋“ฑ์žฅํ–ˆ๋˜ โ€œ์•„์ฃผ ํ”ํ•œ ํ‘œํ˜„โ€์œผ๋กœ ๋ฌป๋Š”๋‹ค๋ฉด ๊ทธ๋Š” ์ž์‹  ์žˆ๊ฒŒ ๋‹ตํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์•„์ฃผ ์˜ค๋ž˜๋œ ๋ฌธํ—Œ์—์„œ๋‚˜ ๋‚˜์˜ค๋Š” โ€œํฌ๊ท€ํ•˜๊ณ  ์ƒ์†Œํ•œ ํ‘œํ˜„โ€์œผ๋กœ ๋˜‘๊ฐ™์€ ์งˆ๋ฌธ์„ ํ•˜๋ฉด ๋‹นํ™ฉํ•˜์—ฌ ์ž˜๋ชป๋œ ๋‹ต์„ ํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์šฐ๋ฆฌ๊ฐ€ ๋ชจ๋ธ์—๊ฒŒ ์งˆ๋ฌธํ•˜๊ฑฐ๋‚˜ ๊ฐ€๋ฅด์น  ๋•Œ, ๋ชจ๋ธ์ด ๊ฐ€์žฅ ์นœ์ˆ™ํ•˜๊ฒŒ ๋А๋ผ๋Š” โ€˜ํ”ํ•œ ํ‘œํ˜„โ€™์„ ์‚ฌ์šฉํ•˜๋„๋ก ๋ฐ”๊พธ์ž๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ด ์‹œ์Šคํ…œ์€ ํฌ๊ฒŒ ์„ธ ๋‹จ๊ณ„๋กœ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค. ์ฒซ์งธ, **ํ…์ŠคํŠธ ๋นˆ๋„ ๋ฒ•์น™(TFL)**์„ ์ ์šฉํ•˜์—ฌ ์งˆ๋ฌธ์„ ์—ฌ๋Ÿฌ ๋ฐฉ์‹(์˜์—ญ)์œผ๋กœ ๋ฐ”๊พผ ๋’ค, ์ธํ„ฐ๋„ท ๊ฒ€์ƒ‰ ๋“ฑ์„ ํ†ตํ•ด ๊ทธ์ค‘ ๊ฐ€์žฅ ํ”ํ•˜๊ฒŒ ์“ฐ์ด๋Š” ํ‘œํ˜„์„ ๊ณจ๋ผ๋ƒ…๋‹ˆ๋‹ค. ๋‘˜์งธ, ํ…์ŠคํŠธ ๋นˆ๋„ ์ฆ๋ฅ˜(TFD) ๊ณผ์ •์„ ํ†ตํ•ด ๋ชจ๋ธ์—๊ฒŒ ํ”ํ•œ ๋ฌธ์žฅ๋“ค์„ ์ฃผ๊ณ  ์ด์•ผ๊ธฐ๋ฅผ ์ด์–ด์„œ ์“ฐ๊ฒŒ ํ•จ์œผ๋กœ์จ, ๋ชจ๋ธ์ด ํ”ํ•œ ํŒจํ„ด์„ ๋” ์ž˜ ํ•™์Šตํ•˜๋„๋ก ํ’๋ถ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์…‹์งธ, **์ปค๋ฆฌํ˜๋Ÿผ ํ…์ŠคํŠธ ๋นˆ๋„ ํŒŒ์ธํŠœ๋‹(CTFT)**์„ ํ†ตํ•ด ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ฌ ๋•Œ ๊ฐ€์žฅ ๋นˆ๋„๊ฐ€ ๋†’์€ ๋ฐ์ดํ„ฐ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•ด์„œ ์ ์ฐจ ๋œ ํ”ํ•œ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต ์ˆœ์„œ๋ฅผ ๋ฐฐ์น˜ํ•˜์—ฌ ํšจ์œจ์„ ๊ทน๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์ˆ˜์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ๊ฐ™์€ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง„ ๋ฌธ์žฅ๋“ค์˜ ์ง‘ํ•ฉ $\mathcal{P}$ ์ค‘์—์„œ, ๋ง๋ญ‰์น˜ $\mathcal{D}$์—์„œ ๋ฌธ์žฅ ๋‹จ์œ„ ๋นˆ๋„ $\mathrm{sfreq}$๊ฐ€ ๊ฐ€์žฅ ๋†’์€ ๋ฌธ์žฅ $\mathbf{x}$๋ฅผ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

$$ \mathrm{argmax}_{\mathbf{x}\in\mathcal{P}}(\mathrm{sfreq}(\mathbf{x},\mathcal{D})) $$

์ฆ‰, โ€œ๋ฌด์—‡์ด ์˜ฌ๋ฐ”๋ฅธ ํ‘œํ˜„์ธ๊ฐ€?โ€๋ณด๋‹ค โ€œ๋ฌด์—‡์ด ๊ฐ€์žฅ ํ”ํ•œ ํ‘œํ˜„์ธ๊ฐ€?โ€๋ฅผ ์„ ํƒ ๊ธฐ์ค€์œผ๋กœ ์‚ผ๋Š” ๊ฒƒ์ด ์ด ๋…ผ๋ฌธ์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์—ฐ๊ตฌ์ง„์€ ์ˆ˜ํ•™์  ์ถ”๋ก (Math Reasoning) ๊ณผ์ œ์™€ 100๊ฐœ ์–ธ์–ด๋ฅผ ํฌํ•จํ•œ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ(Machine Translation) ๊ณผ์ œ์—์„œ ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฒˆ์—ญ ์„ฑ๋Šฅ ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด ์ •ํ™•๋„(Accuracy) ์™ธ์—๋„ chrF, BLEU, ๊ทธ๋ฆฌ๊ณ  ์ตœ์‹  ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ํ‰๊ฐ€ ์ง€ํ‘œ์ธ COMET ์ ์ˆ˜๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ, ํ”ํ•œ ํ‘œํ˜„์œผ๋กœ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ˆ˜์ •ํ–ˆ์„ ๋•Œ GPT-4o-mini์™€ DeepSeek-V3 ๊ฐ™์€ ์ตœ์‹  ๋ชจ๋ธ๋“ค์˜ ์„ฑ๋Šฅ์ด ๊ธฐ์กด ํ”„๋กฌํ”„ํŠธ ๋Œ€๋น„ ์œ ์˜๋ฏธํ•˜๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์˜คํ”ˆ ์†Œ์Šค ๋ชจ๋ธ์ธ Qwen2.5-7b-instruct๋ฅผ ํŒŒ์ธํŠœ๋‹ํ•  ๋•Œ, ํ”ํ•œ ๋ฐ์ดํ„ฐ๋ถ€ํ„ฐ ํ•™์Šตํ•˜๋Š” ์ด ๋…ผ๋ฌธ์˜ ๋ฐฉ์‹(CTFT)์ด ์ผ๋ฐ˜์ ์ธ ํ•™์Šต ๋ฐฉ์‹์ด๋‚˜ ๋‚œ์ด๋„ ์ˆœ์„œ์— ๋”ฐ๋ฅธ ์ „ํ†ต์ ์ธ ์ปค๋ฆฌํ˜๋Ÿผ ํ•™์Šต๋ณด๋‹ค ๋” ๋†’์€ ์ •ํ™•๋„์™€ COMET ์ ์ˆ˜๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ฐ์ดํ„ฐ์˜ ์–‘๋ณด๋‹ค ๋ฐ์ดํ„ฐ์˜ โ€˜๋นˆ๋„ ๋ถ„ํฌโ€™๊ฐ€ ํ•™์Šต ํšจ์œจ์„ ๊ฒฐ์ •ํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•จ์„ ์ˆ˜์น˜๋กœ ์ž…์ฆํ•œ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๋“ค์€ ์ด ๋ฐฉ๋ฒ•๋ก ์„ ์ ์šฉํ•˜๊ธฐ ์œ„ํ•ด ๋ฌธ์žฅ์˜ ๋นˆ๋„๋ฅผ ์ถ”์ •ํ•ด์•ผ ํ•˜๋Š”๋ฐ, ์ด๋ฅผ ์œ„ํ•ด์„œ๋Š” ๋ฐฉ๋Œ€ํ•œ ์–ธ์–ด corpus๋‚˜ ์˜จ๋ผ์ธ ๊ฒ€์ƒ‰ ์—”์ง„์— ๋Œ€ํ•œ ์ ‘๊ทผ์ด ํ•„์š”ํ•˜๋ฏ€๋กœ ์ถ”๊ฐ€์ ์ธ ๋น„์šฉ๊ณผ ๋ฆฌ์†Œ์Šค๊ฐ€ ๋“ ๋‹ค๋Š” ์ ์„ ํ•œ๊ณ„๋กœ ๊ผฝ์•˜์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋„ˆ๋ฌด ํ”ํ•œ ํ‘œํ˜„๋งŒ ๊ณ ์ง‘ํ•˜๋‹ค ๋ณด๋‹ˆ ์•„์ฃผ ์ •๊ตํ•˜๊ฑฐ๋‚˜ ์ฐฝ์˜์ ์ธ ๋‰˜์•™์Šค, ํ˜น์€ ์ „๋ฌธ์ ์ธ ๋ถ„์•ผ์˜ ํฌ๊ท€ ์šฉ์–ด๊ฐ€ ํ•„์š”ํ•œ ์ƒํ™ฉ์—์„œ๋Š” ์„ฑ๋Šฅ์ด ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ๋„ ์‹œ์‚ฌํ–ˆ์Šต๋‹ˆ๋‹ค.

ํ–ฅํ›„ ์—ฐ๊ตฌ๋กœ๋Š” ๋นˆ๋„ ์ถ”์ • ์†๋„๋ฅผ ๋†’์ด๊ณ  ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ค„์ด๋Š” ๋” ํšจ์œจ์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐœ๋ฐœ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ”ํ•œ ํ‘œํ˜„๊ณผ ํฌ๊ท€ํ•˜์ง€๋งŒ ์ค‘์š”ํ•œ ํ‘œํ˜„ ์‚ฌ์ด์˜ ๊ท ํ˜•์„ ๋งž์ถ”๋Š” ์ „๋žต์„ ์—ฐ๊ตฌํ•˜์—ฌ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์œผ๋กœ ์ผ๋ฐ˜ํ™”ํ•˜๋Š” ๊ณผ์ œ๊ฐ€ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์ด ์—ฐ๊ตฌ๋Š” ์‹ค๋ฌด์—์„œ ์ฆ‰์‹œ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์ž„ํŒฉํŠธ๊ฐ€ ํฝ๋‹ˆ๋‹ค. ์ฒซ์งธ, RAG(๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ) ์‹œ์Šคํ…œ์ด๋‚˜ ์ฑ—๋ด‡ ์„œ๋น„์Šค์—์„œ ์‚ฌ์šฉ์ž์˜ ์งˆ๋ฌธ์„ ๋ฐ”๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๋Œ€์‹ , ๋ชจ๋ธ์ด ๋” ์ž˜ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ํ”ํ•œ ํ‘œํ˜„์œผ๋กœ ์ž๋™ ์˜์—ญ(Paraphrasing)ํ•˜์—ฌ ๋‹ต๋ณ€์˜ ์ •ํ™•๋„๋ฅผ ๋†’์ด๋Š” ํ”„๋กฌํ”„ํŠธ ์ „์ฒ˜๋ฆฌ ๋‹จ๊ณ„์— ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‘˜์งธ, ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ์„œ๋น„์Šค์—์„œ ์ž…๋ ฅ๋œ ๋ฌธ์žฅ์„ ๋นˆ๋„๊ฐ€ ๋†’์€ ํ‘œ์ค€์–ด๋กœ ์ •์ œํ•œ ๋’ค ๋ฒˆ์—ญํ•˜๋ฉด ํ›จ์”ฌ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ฒˆ์—ญ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋ฅผ ๊ตฌํ˜„ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋ฌธ์žฅ ๋นˆ๋„๋ฅผ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋Š” ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค๋‚˜ ๊ฒ€์ƒ‰ API๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋ธ์„ ์ง์ ‘ ํŒŒ์ธํŠœ๋‹ํ•  ๊ฒฝ์šฐ์—๋Š” LoRA์™€ ๊ฐ™์€ ํšจ์œจ์ ์ธ ํŠœ๋‹ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” GPU ํด๋Ÿฌ์Šคํ„ฐ ํ™˜๊ฒฝ์ด ์š”๊ตฌ๋ฉ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • Large Language Model (LLM): ๋ฐฉ๋Œ€ํ•œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ ํ•™์Šต๋˜์–ด ํ…์ŠคํŠธ๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•˜๋Š” ์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  • Fine-tuning: ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ํŠน์ • ์ž‘์—…์ด๋‚˜ ๋ฐ์ดํ„ฐ์— ๋งž์ถฐ ์ถ”๊ฐ€๋กœ ํ•™์Šต์‹œ์ผœ ์„ฑ๋Šฅ์„ ์ตœ์ ํ™”ํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.
  • Paraphrasing: ๋ฌธ์žฅ์˜ ์˜๋ฏธ๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ ๋‹จ์–ด๋‚˜ ๊ตฌ์กฐ๋ฅผ ๋ฐ”๊พธ์–ด ๋‹ค๋ฅด๊ฒŒ ํ‘œํ˜„ํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
  • Curriculum Learning: ์ธ๊ฐ„์ด ํ•™์Šตํ•˜๋“ฏ ๋ชจ๋ธ์—๊ฒŒ ์‰ฌ์šด ์˜ˆ์ œ๋ถ€ํ„ฐ ์ ์ฐจ ์–ด๋ ค์šด ์˜ˆ์ œ ์ˆœ์„œ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ณตํ•˜๋Š” ํ•™์Šต ์ „๋žต์ž…๋‹ˆ๋‹ค.
  • Likelihood: ํ™•๋ฅ  ๋ชจ๋ธ์—์„œ ๊ด€์ธก๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ฐœ์ƒํ•  ๊ฐ€๋Šฅ์„ฑ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์ฒ™๋„๋กœ, ์–ธ์–ด ๋ชจ๋ธ์€ ๋‹ค์Œ ๋‹จ์–ด๊ฐ€ ๋‚˜์˜ฌ ๊ฐ€๋Šฅ๋„๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋„๋ก ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
  • BLEU/COMET: ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ๋“ฑ์˜ ๊ฒฐ๊ณผ๊ฐ€ ์‚ฌ๋žŒ์ด ๋ฒˆ์—ญํ•œ ์ฐธ์กฐ ๋ฌธ์žฅ๊ณผ ์–ผ๋งˆ๋‚˜ ์œ ์‚ฌํ•œ์ง€๋ฅผ ์ธก์ •ํ•˜๋Š” ์ž๋™ ํ‰๊ฐ€ ์ง€ํ‘œ๋“ค์ž…๋‹ˆ๋‹ค.
  • LoRA (Low-Rank Adaptation): ๋ชจ๋ธ์˜ ์ „์ฒด ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ˆ˜์ •ํ•˜์ง€ ์•Š๊ณ  ์ ์€ ์ˆ˜์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ์ถ”๊ฐ€ํ•˜์—ฌ ํšจ์œจ์ ์œผ๋กœ ๋ชจ๋ธ์„ ํŠœ๋‹ํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Adamโ€™s Law: Textual Frequency Law oโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐ŸฅˆGrandCode: Achieving Grandmaster Leโ€ฆDD-061
๐Ÿฅ‰Rethinking Generalization in Reasonโ€ฆDD-066
4.InCoder-32B-Thinking: Industrial Coโ€ฆDD-064
5.Video-MME-v2: Towards the Next Stagโ€ฆDD-063

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-04-12 | ๐Ÿค– GLM-4.7 Deep Dive