โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-048 AI Can Learn Scientific Taste

arXiv: 2603.14473 ๊ธฐ๊ด€: OpenMOSS Upvotes: 266 | Comments: 8 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 3


1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ AI ๊ณผํ•™์ž ์—ฐ๊ตฌ๋Š” ๋…ผ๋ฌธ ๊ฒ€์ƒ‰์ด๋‚˜ ์‹คํ—˜ ์ž๋™ํ™”์™€ ๊ฐ™์€ โ€˜์‹คํ–‰ ๋Šฅ๋ ฅโ€™์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐ ์ง‘์ค‘ํ–ˆ์ง€๋งŒ, ์–ด๋–ค ์—ฐ๊ตฌ ์ฃผ์ œ๊ฐ€ ๊ฐ€์žฅ ๊ฐ€์น˜ ์žˆ๋Š”์ง€ ํŒ๋‹จํ•˜๋Š” โ€˜๊ณผํ•™์  ํ†ต์ฐฐ(Scientific Taste)โ€˜์„ ๊ฐ–์ถ”๋Š” ๋ฐ๋Š” ์‹คํŒจํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์ธ์šฉ ํšŸ์ˆ˜๋ผ๋Š” ๋Œ€๊ทœ๋ชจ ์ปค๋ฎค๋‹ˆํ‹ฐ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•ด AI์—๊ฒŒ ์—ฐ๊ตฌ ์•„์ด๋””์–ด์˜ ๊ฐ€์น˜๋ฅผ ํŒ๋‹จํ•˜๊ณ  ์ œ์•ˆํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ•™์Šต์‹œํ‚จ ์ตœ์ดˆ์˜ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค. ๋‹จ์ˆœํ•œ ๋„๊ตฌ๋ฅผ ๋„˜์–ด, ๋›ฐ์–ด๋‚œ ๊ณผํ•™์ž์ฒ˜๋Ÿผ ๋ฏธ๋ž˜์˜ ์„ฑ๊ณผ๋ฅผ ์˜ˆ์ธกํ•˜๊ณ  ์œ ๋งํ•œ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•  ์ˆ˜ ์žˆ๋Š” AI์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์—ˆ๋‹ค๋Š” ์ ์—์„œ ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ : ์˜ํ™” ํ‰๋ก ๊ฐ€์™€ ๊ฐ๋ณธ๊ฐ€

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์„ ์ดํ•ดํ•˜๋ ค๋ฉด ์˜ํ™” ์‚ฐ์—…์„ ์ƒ๊ฐํ•˜๋ฉด ์‰ฝ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ AI๋Š” ์นด๋ฉ”๋ผ๋ฅผ ์ฐ๊ฑฐ๋‚˜ ์กฐ๋ช…์„ ์กฐ์ •ํ•˜๋Š” โ€˜๊ธฐ์ˆ ์ ์ธ ์Šคํƒœํ”„โ€™์˜€๋‹ค๋ฉด, ์ด ๋…ผ๋ฌธ์˜ AI๋Š” ํฅํ–‰ํ•˜๋Š” ์˜ํ™”์˜ ๊ฐ๋ณธ์„ ์“ฐ๊ณ  ์„ ๋ณ„ํ•˜๋Š” โ€˜๋Šฅ๋ ฅ ์žˆ๋Š” ์ œ์ž‘์žโ€™๊ฐ€ ๋˜๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. โ€˜๊ณผํ•™์  ์ทจํ–ฅ(Scientific Taste)โ€˜์€ ๋ฐ”๋กœ โ€˜์ด ๊ฐ๋ณธ์ด ๋ฐ•์Šค์˜คํ”ผ์Šค์—์„œ ์„ฑ๊ณตํ•  ๊ฒƒ์ธ๊ฐ€?โ€˜๋ฅผ ํŒ๋‹จํ•˜๋Š” ์•ˆ๋ชฉ์ž…๋‹ˆ๋‹ค.

์—ฌ๊ธฐ์„œ ์˜ํ™”์˜ ํฅํ–‰ ์„ฑ์ ์€ ๋ฐ”๋กœ โ€˜์ธ์šฉ ํšŸ์ˆ˜(Citations)โ€˜์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค. ๋งŽ์€ ์‚ฌ๋žŒ๋“ค์ด ๋ณด๊ณ  ์‹ถ์–ด ํ•˜๋Š” ์˜ํ™”๊ฐ€ ํฅํ–‰ํ•˜๋“ฏ, ๋งŽ์€ ์—ฐ๊ตฌ์ž๋“ค์ด ์ธ์šฉํ•˜๋Š” ๋…ผ๋ฌธ์ด ์ž„ํŒฉํŠธ๊ฐ€ ํฐ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ AI์—๊ฒŒ ์ˆ˜๋งŽ์€ ์˜ํ™” ์‹œ๋†‰์‹œ์Šค(๋…ผ๋ฌธ ์ดˆ๋ก)์™€ ๊ทธ ํฅํ–‰ ์‹ค์ (์ธ์šฉ ์ˆ˜)์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์–ด๋–ค ์š”์†Œ๊ฐ€ ์„ฑ๊ณต์„ ์ด๋Œ์–ด๋‚ด๋Š”์ง€ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ๊ณผ์ • (RLCF)

์ด ๋…ผ๋ฌธ์ด ์ œ์•ˆํ•˜๋Š” Reinforcement Learning from Community Feedback (RLCF)๋Š” ์„ธ ๋‹จ๊ณ„๋กœ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค.

์ฒซ์งธ, โ€˜์ปค๋ฎค๋‹ˆํ‹ฐ ํ”ผ๋“œ๋ฐฑ ๊ตฌ์„ฑโ€™ ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. ์—ฐ๊ตฌ ๋ถ„์•ผ์™€ ๋ฐœํ‘œ ์‹œ์ ์ด ๊ฐ™์€ ๋‘ ๋…ผ๋ฌธ์„ ์ง์ง“์Šต๋‹ˆ๋‹ค. ๋‘˜ ์ค‘ ์ธ์šฉ ํšŸ์ˆ˜๊ฐ€ ํ˜„์ €ํžˆ ๋งŽ์€ ๋…ผ๋ฌธ์„ โ€˜์Šน์žโ€™, ์ ์€ ๋…ผ๋ฌธ์„ โ€˜ํŒจ์žโ€™๋กœ ๋ถ„๋ฅ˜ํ•˜์—ฌ 70๋งŒ ์Œ์˜ ๋ฐ์ดํ„ฐ์…‹(SciJudgeBench)์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ์ด๋Š” ๋งˆ์น˜ ๊ฐ™์€ ํ•ด์— ๊ฐœ๋ด‰ํ•œ ์•ก์…˜ ์˜ํ™” ๋‘ ํŽธ์„ ๋†“๊ณ  ํฅํ–‰ ์„ฑ์ ์„ ๋น„๊ตํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

๋‘˜์งธ, โ€˜์„ ํ˜ธ ๋ชจ๋ธ๋ง(Scientific Judge)โ€™ ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. AI ํŒ์‚ฌ(Scientific Judge)๋ฅผ ํ›ˆ๋ จ์‹œ์ผœ ๋‘ ๋…ผ๋ฌธ์˜ ์ดˆ๋ก์„ ๋ณด๊ณ  ์–ด๋А ์ชฝ์ด ๋” ์ธ์šฉ์ด ๋งŽ์„์ง€ ์˜ˆ์ธกํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ AI๋Š” ๋‹จ์ˆœํžˆ ํ…์ŠคํŠธ๋ฅผ ์™ธ์šฐ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์—ฐ๊ตฌ ์•„์ด๋””์–ด์˜ ์ž ์žฌ์  ์ž„ํŒฉํŠธ๋ฅผ ํŒ๋‹จํ•˜๋Š” โ€˜๋ฏธ๊ฐโ€™์„ ๊ฐœ๋ฐœํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์…‹์งธ, โ€˜์„ ํ˜ธ ์ •๋ ฌ(Scientific Thinker)โ€™ ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. ์ด์ œ ํ•™์Šต๋œ ํŒ์‚ฌ(Scientific Judge)๋ฅผ ์‹ฌ์‚ฌ์œ„์›์œผ๋กœ ์‚ผ์•„ ์•„์ด๋””์–ด ์ƒ์„ฑ ๋ชจ๋ธ(Scientific Thinker)์„ ํ›ˆ๋ จ์‹œํ‚ต๋‹ˆ๋‹ค. ์ƒ์„ฑ ๋ชจ๋ธ์ด ์—ฐ๊ตฌ ์•„์ด๋””์–ด๋ฅผ ๋‚ด๋†“์œผ๋ฉด, ํŒ์‚ฌ๊ฐ€ ์ ์ˆ˜๋ฅผ ๋งค๊น๋‹ˆ๋‹ค. ์ ์ˆ˜๊ฐ€ ์ข‹์œผ๋ฉด ๋ณด์ƒ์„ ์ฃผ๊ณ , ๋‚˜์˜๋ฉด ํŽ˜๋„ํ‹ฐ๋ฅผ ์ฃผ๋ฉด์„œ ์ ์ฐจ ํŒ์‚ฌ๊ฐ€ ๋†’์€ ์ ์ˆ˜๋ฅผ ์ค„ ๋งŒํ•œ, ์ฆ‰ ์ž„ํŒฉํŠธ๊ฐ€ ํด ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋˜๋Š” ํ›Œ๋ฅญํ•œ ์—ฐ๊ตฌ ์•„์ด๋””์–ด๋ฅผ ์ƒ์„ฑํ•˜๋„๋ก ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜

์ด ๋…ผ๋ฌธ์€ ํ•™์Šต์— Group Relative Policy Optimization (GRPO) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ๊ฐ•ํ™” ํ•™์Šต์ด ๋ณ„๋„์˜ ๊ฐ€์น˜ ํ•จ์ˆ˜(Value Function)๋ฅผ ์ถ”์ •ํ•ด์•ผ ํ•˜๋Š” ๋ณต์žกํ•จ์„ ์ค„์ด๊ณ , ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์ถœ๋ ฅ์„ ๋™์‹œ์— ์ƒ์„ฑํ•˜์—ฌ ๊ทธ ์ˆœ์œ„๋ฅผ ๋น„๊ตํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต ํšจ์œจ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

๋ฒค์น˜๋งˆํฌ ๋ฐ ์„ฑ๋Šฅ ๋น„๊ต

์—ฐ๊ตฌ์ง„์€ ์ž์ฒด์ ์œผ๋กœ ๊ตฌ์ถ•ํ•œ SciJudgeBench์—์„œ ์‹คํ—˜์„ ์ง„ํ–‰ํ–ˆ์œผ๋ฉฐ, ๊ธฐ์กด ์ตœ์‹  ๋ชจ๋ธ์ธ GPT-5.2-Thinking, DeepSeek, Gemini ๋“ฑ๊ณผ ์„ฑ๋Šฅ์„ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์˜คํ”ˆ ์†Œ์Šค ๋ชจ๋ธ์ธ Qwen ๊ณ„์—ด์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šต์‹œํ‚จ SciJudge ๋ชจ๋ธ๋“ค์ด ๋ˆˆ๋ถ€์‹  ์ƒ์Šน์„ธ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

๊ตฌ์ฒด์  ์ˆ˜์น˜

๊ฐ€์žฅ ์ธ์ƒ์ ์ธ ์ ์€ ๋ชจ๋ธ์˜ ํฌ๊ธฐ์™€ ์ƒ๊ด€์—†์ด ํ•™์Šต ํšจ๊ณผ๊ฐ€ ์••๋„์ ์ด๋ผ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ฐ€์žฅ ์ž‘์€ ๋ชจ๋ธ์ธ Qwen2.5-1.5B-Instruct์˜ ์ •ํ™•๋„๋Š” ๊ฒจ์šฐ 7.0%์— ๋ถˆ๊ณผํ–ˆ์œผ๋‚˜, RLCF๋กœ ํ•™์Šตํ•œ SciJudge-Qwen2.5-1.5B๋Š” ๋ฌด๋ ค 72.1%๋กœ ์ •ํ™•๋„๊ฐ€ 65.1%p๋‚˜ ๊ธ‰์ƒ์Šนํ–ˆ์Šต๋‹ˆ๋‹ค.

๋” ์ค‘์š”ํ•œ ๊ฒƒ์€ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์ž…๋‹ˆ๋‹ค. 300์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ SciJudge-Qwen3-30B ๋ชจ๋ธ์€ ํ‰๊ท  ์ •ํ™•๋„ 80.6%๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” GPT-5.2-Thinking(72.7%)์ด๋‚˜ Gemini-3.0-Pro(75.7%)๊ณผ ๊ฐ™์€ ๊ฑฐ๋Œ€ ์ƒ์šฉ ๋ชจ๋ธ๋“ค์„ ๋ชจ๋‘ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๊ณผ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๊ณผํ•™์  ํŒ๋‹จ๋ ฅ์ด ๋ชจ๋ธ์˜ ํฌ๊ธฐ๋งŒํผ์ด๋‚˜ ํ•™์Šต ๋ฐ์ดํ„ฐ์™€ ๋ฐฉ๋ฒ•๋ก ์— ์˜์กดํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

์ด AI๋Š” ์‹œ๊ฐ„๊ณผ ๋ถ„์•ผ๋ฅผ ๋„˜์–ด์„œ๋„ ํŒ๋‹จ๋ ฅ์„ ์œ ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ณผ๊ฑฐ์˜ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ–ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๋ฏธ๋ž˜์˜ ๋…ผ๋ฌธ์ด๋‚˜ ๋‹ค๋ฅธ ์—ฐ๊ตฌ ๋ถ„์•ผ์—์„œ๋„ ๋†’์€ ์ธ์šฉ์„ ๋ฐ›์„ ๋…ผ๋ฌธ์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ์„ฑ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” AI๊ฐ€ ๋‹จ์ˆœํžˆ ๊ณผ๊ฑฐ์˜ ์œ ํ–‰์„ ์™ธ์šฐ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์—ฐ๊ตฌ์˜ ๋ณธ์งˆ์ ์ธ ๊ฐ€์น˜๋ฅผ ํŒ๋‹จํ•˜๋Š” โ€˜ํ†ต์ฐฐ๋ ฅโ€™์„ ํ•™์Šตํ–ˆ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„

์ด ๋…ผ๋ฌธ์˜ ๊ฐ€์žฅ ํฐ ํ•œ๊ณ„๋Š” ์ธ์šฉ ํšŸ์ˆ˜(Citation)๋ฅผ ์™„๋ฒฝํ•œ ์ง€ํ‘œ๋กœ ์‚ผ๊ธฐ ์–ด๋ ต๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ธ์šฉ ์ˆ˜๋Š” ์—ฐ๊ตฌ์˜ ์งˆ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ €์ž์˜ ๋ช…์„ฑ์ด๋‚˜ ์—ฐ๊ตฌ ๋ถ„์•ผ์˜ ์ธ๊ธฐ๋„, ์‹ฌ์ง€์–ด ์ •์น˜์ ์ธ ์š”์ธ์—๋„ ์˜ํ–ฅ์„ ๋ฐ›์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ AI๊ฐ€ ํ•™์Šตํ•˜๋Š” โ€˜์ทจํ–ฅโ€™์ด ์ง„์ •ํ•œ ๊ณผํ•™์  ๊ฐ€์น˜๊ฐ€ ์•„๋‹Œ, ๋‹จ์ˆœํžˆ ์ธ์šฉ์„ ์ž˜ ๋ฐ›๋Š” ๋ฒ•์„ ๋ฐฐ์šฐ๋Š” โ€˜์ธ์šฉ ๊ฒŒ์ด๋ฐโ€™์œผ๋กœ ๋น ์งˆ ์œ„ํ—˜์ด ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅํ•œ ์ 

ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ์ธ์šฉ ์ˆ˜ ์™ธ์—๋„ ๋™๋ฃŒ ํ‰๊ฐ€(Peer Review) ์ ์ˆ˜, ์‹ค์ œ ์‚ฐ์—…๊ณ„ ๊ธฐ์—ฌ๋„, ๋‹ค๋ฅธ ๋งค์ฒด์—์„œ์˜ ์–ธ๊ธ‰ ํšŸ์ˆ˜ ๋“ฑ ๋” ๋‹ค๊ฐ์ ์ธ ํ”ผ๋“œ๋ฐฑ ์‹ ํ˜ธ๋ฅผ ํ†ตํ•ฉํ•  ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ˜„์žฌ๋Š” ์ฃผ๋กœ ํ…์ŠคํŠธ(์ดˆ๋ก)๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํŒ๋‹จํ•˜์ง€๋งŒ, ์‹คํ—˜ ๋ฐ์ดํ„ฐ๋‚˜ ์ฝ”๋“œ๊นŒ์ง€ ํฌํ•จํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ(Multimodal) ๋ถ„์„์œผ๋กœ ํ™•์žฅ๋œ๋‹ค๋ฉด ๋”์šฑ ์ •๊ตํ•œ ๊ณผํ•™์  ํ†ต์ฐฐ์„ ์–ป์„ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ถ„์•ผ

์ด ๊ธฐ์ˆ ์€ ์—ฐ๊ตฌ์†Œ๋‚˜ ๋Œ€ํ•™์˜ ์—ฐ๊ตฌ ์ง€์› ๋„๊ตฌ๋กœ ์ฆ‰์‹œ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ž๊ฐ€ ์ƒˆ๋กœ์šด ์•„์ด๋””์–ด๋ฅผ ๋– ์˜ฌ๋ ธ์„ ๋•Œ, ์ด ๋ชจ๋ธ์ด ํ•ด๋‹น ์•„์ด๋””์–ด์˜ ์ž ์žฌ์  ์ž„ํŒฉํŠธ๋ฅผ ๋ฏธ๋ฆฌ ์˜ˆ์ธกํ•˜์—ฌ ๋ฐฉํ–ฅ์„ฑ์„ ์กฐ์ •ํ•˜๋Š” โ€˜AI ๋ฆฌ์„œ์น˜ ์–ด๋“œ๋ฐ”์ด์ €โ€™๋กœ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ˆ˜๋งŽ์€ ์ œ์•ˆ์„œ ์ค‘ ์œ ๋งํ•œ ํ›„๋ณด๋ฅผ ์„ ๋ณ„ํ•˜๋Š” ํŽ€๋”ฉ ์‹ฌ์‚ฌ ๋ณด์กฐ ๋„๊ตฌ๋กœ๋„ ํ™œ์šฉ ๊ฐ€์น˜๊ฐ€ ๋†’์Šต๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

์ด ์‹œ์Šคํ…œ์„ ์ง์ ‘ ๊ตฌ์ถ•ํ•˜๋ ค๋ฉด ๋Œ€๊ทœ๋ชจ์˜ ๋…ผ๋ฌธ ๋ฐ์ดํ„ฐ(์•ฝ 200๋งŒ ๊ฐœ ์ด์ƒ์˜ arXiv ๋…ผ๋ฌธ)์™€ ์ด๋ฅผ ์ „์ฒ˜๋ฆฌํ•  ํŒŒ์ดํ”„๋ผ์ธ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, 30์–ต~300์–ต ํŒŒ๋ผ๋ฏธํ„ฐ ๊ทœ๋ชจ์˜ LLM(Large Language Model)์„ ๋ฏธ์„ธ ์กฐ์ •(Fine-tuning)ํ•˜๊ณ  ๊ฐ•ํ™” ํ•™์Šต์„ ๋Œ๋ ค์•ผ ํ•˜๋ฏ€๋กœ, ๊ณ ์„ฑ๋Šฅ GPU ํด๋Ÿฌ์Šคํ„ฐ(์˜ˆ: A100 ๋˜๋Š” H100 ์—ฌ๋Ÿฌ ๋Œ€)์™€ ์ƒ๋‹นํ•œ ํ•™์Šต ์‹œ๊ฐ„์ด ์†Œ์š”๋ฉ๋‹ˆ๋‹ค. ๋‹ค๋งŒ, ํ•™์Šต๋œ ๋ชจ๋ธ์„ ์ถ”๋ก ๋งŒ ํ•˜๋Š” ๋‹จ๊ณ„๋ผ๋ฉด ์ƒ๋Œ€์ ์œผ๋กœ ์ ์€ ๋ฆฌ์†Œ์Šค๋กœ๋„ ์„œ๋น„์Šค ์šด์˜์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • Large Language Models (LLM): ๋ฐฉ๋Œ€ํ•œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ ํ•™์Šต๋˜์–ด ์ž์—ฐ์–ด๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•˜๋Š” ๊ฑฐ๋Œ€ ์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  • Reinforcement Learning (๊ฐ•ํ™” ํ•™์Šต): ์—์ด์ „ํŠธ๊ฐ€ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ํ–‰๋™์„ ํ•™์Šตํ•˜๋Š” ๊ธฐ๊ณ„ ํ•™์Šต์˜ ํ•œ ์ข…๋ฅ˜์ž…๋‹ˆ๋‹ค.
  • Preference Modeling (์„ ํ˜ธ ๋ชจ๋ธ๋ง): A๋ณด๋‹ค B๊ฐ€ ๋‚ซ๋‹ค๋Š” ์‹์˜ ์ธ๊ฐ„์˜ ์„ ํ˜ธ๋„๋ฅผ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•˜์—ฌ ๋ชจ๋ธ์ด ๊ฐ€์น˜ ํŒ๋‹จ์„ ํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
  • RLHF (Reinforcement Learning from Human Feedback): ์ธ๊ฐ„์˜ ํ”ผ๋“œ๋ฐฑ์„ ๋ณด์ƒ ์‹ ํ˜ธ๋กœ ์‚ฌ์šฉํ•˜์—ฌ LLM์„ ์ธ๊ฐ„์˜ ๊ฐ€์น˜๊ด€์— ๋งž๊ฒŒ ์ •๋ ฌ์‹œํ‚ค๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.
  • Pairwise Comparison (์Œ๋Œ€ ๋น„๊ต): ๋‘ ๊ฐœ์˜ ํ•ญ๋ชฉ์„ ๋†“๊ณ  ์–ด๋А ๊ฒƒ์ด ๋” ๋‚ซ๋Š”์ง€ ์ˆœ์œ„๋ฅผ ๋งค๊ธฐ๋Š” ๋ฐฉ์‹์œผ๋กœ, ๋ชจ๋ธ ํ•™์Šต ์‹œ ์ž์ฃผ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  • Citation Analysis (์ธ์šฉ ๋ถ„์„): ํ•™์ˆ  ๋…ผ๋ฌธ์ด ๋‹ค๋ฅธ ์—ฐ๊ตฌ์ž๋“ค์— ์˜ํ•ด ์ธ์šฉ๋˜๋Š” ํšŸ์ˆ˜๋ฅผ ๋ถ„์„ํ•˜์—ฌ ์—ฐ๊ตฌ์˜ ์˜ํ–ฅ๋ ฅ์„ ์ธก์ •ํ•˜๋Š” ๊ณผํ•™๊ณ„์ธกํ•™์˜ ๋ฐฉ๋ฒ•๋ก ์ž…๋‹ˆ๋‹ค.
  • Group Relative Policy Optimization (GRPO): ์—ฌ๋Ÿฌ ํ›„๋ณด ์ƒ˜ํ”Œ์„ ๊ทธ๋ฃน์œผ๋กœ ์ƒ์„ฑํ•˜์—ฌ ์ƒ๋Œ€์ ์ธ ์ˆœ์œ„๋ฅผ ํ†ตํ•ด ์ •์ฑ…์„ ์ตœ์ ํ™”ํ•˜๋Š” ๊ฐ•ํ™” ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Demystifing Video ReasoningDD-046
๐ŸฅˆInCoder-32B: Code Foundation Model โ€ฆDD-047
๐Ÿฅ‰AI Can Learn Scientific Taste๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
4.SocialOmni: Benchmarking Audio-Visuโ€ฆDD-049
5.MiroThinker-1.7 & H1: Towards Heavyโ€ฆDD-050

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-03-22 | ๐Ÿค– GLM-4.7 Deep Dive