โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-044 Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

arXiv: 2603.05890 Upvotes: 81 | Comments: 4 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 4


์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

์ตœ๊ทผ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์ด ์†Œ์„ค๊ณผ ๊ฐ™์€ ์•„์ฃผ ๊ธด ํ…์ŠคํŠธ๋ฅผ ์“ธ ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์ง€๋งŒ, ๋ชจ๋ธ์ด ์•ž์„œ ์“ด ๋‚ด์šฉ์„ ์žŠ์–ด๋ฒ„๋ฆฌ๊ณ  ์„ค์ •์„ ๋’ค์ง‘๋Š” โ€˜์ผ๊ด€์„ฑ ์˜ค๋ฅ˜โ€™๊ฐ€ ์‹ฌ๊ฐํ•œ ๋ฌธ์ œ๋กœ ๋Œ€๋‘๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ํ‰๊ฐ€ ๋ฐฉ์‹๋“ค์€ ์ฃผ๋กœ ๋ฌธ์žฅ์ด ๋งค๋„๋Ÿฌ์šด์ง€(์œ ์ฐฝ์„ฑ)๋‚˜ ์ค„๊ฑฐ๋ฆฌ๊ฐ€ ์žฌ๋ฏธ์žˆ๋Š”์ง€์—๋งŒ ์ง‘์ค‘ํ•˜์—ฌ, ๊ธด ๊ธ€์„ ์“ธ ๋•Œ ๋ฐœ์ƒํ•˜๋Š” ๋ชจ์ˆœ์„ ์ฒด๊ณ„์ ์œผ๋กœ ์ธก์ •ํ•˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๊ธด ์„œ์‚ฌ ์ƒ์„ฑ์—์„œ์˜ ์ผ๊ด€์„ฑ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ(ConStory-Bench)์™€ ์ด๋ฅผ ์ž๋™์œผ๋กœ ๊ฒ€์ฆํ•˜๋Š” ๋„๊ตฌ(ConStory-Checker)๋ฅผ ์ œ์‹œํ•˜์—ฌ, LLM์ด ์žฅ๊ธฐ์ ์ธ ๊ธฐ์–ต๊ณผ ๋…ผ๋ฆฌ๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ์œ ์ง€ํ•˜๋Š”์ง€ ์ •๋Ÿ‰์ ์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ๊ธธ์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค.


ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ : ๊ธฐ์–ต๋ ฅ ๋‚˜์œ ์†Œ์„ค๊ฐ€

์ด ๋…ผ๋ฌธ์˜ ๋ฌธ์ œ ์˜์‹์€ โ€˜๊ธฐ์–ต๋ ฅ์ด ๋‚˜์œ ์†Œ์„ค๊ฐ€โ€™๋ฅผ ์ƒ๊ฐํ•˜๋ฉด ์‰ฝ์Šต๋‹ˆ๋‹ค. ํ•œ ์ž‘๊ฐ€๊ฐ€ ์†Œ์„ค์„ ์“ฐ๋Š”๋ฐ, 1์žฅ์—์„œ๋Š” ์ฃผ์ธ๊ณต์ด ๋ˆˆ์ด ํŒŒ๋ž€ ๋‚จ์ž๋ผ๊ณ  ์„ค์ •ํ–ˆ๋Š”๋ฐ, 10์žฅ์— ๊ฐ€์„œ๋Š” ๊ฐ‘์ž๊ธฐ ๋ˆˆ์ด ๊ฐˆ์ƒ‰์ธ ์—ฌ์ž๋ผ๊ณ  ๋ฌ˜์‚ฌํ•˜๊ฑฐ๋‚˜, ์ฃฝ์€ ์ธ๋ฌผ์ด ๋‹ค์‹œ ์‚ด์•„๋‚˜๋Š” ๋“ฑ ์„ค์ •์„ ์—‰๋ง์œผ๋กœ ๋งŒ๋“œ๋Š” ์ƒํ™ฉ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ๋…์ž ์ž…์žฅ์—์„œ๋Š” ์ด๋Ÿฐ ๋ชจ์ˆœ ๋•Œ๋ฌธ์— ์ด์•ผ๊ธฐ์— ๋ชฐ์ž…ํ•  ์ˆ˜ ์—†์ฃ . ๊ธฐ์กด ํ‰๊ฐ€๋Š” ๋ฌธ์žฅ์ด ์˜ˆ์˜๊ฒŒ ์“ฐ์—ฌ ์žˆ๋Š”์ง€๋งŒ ํ™•์ธํ–ˆ๋‹ค๋ฉด, ์ด ๋…ผ๋ฌธ์€ โ€œ์•ผ, ๋„ˆ ๋ฐฉ๊ธˆ ์“ด ๊ฑฐ๋ž‘ ์•ž์— ์“ด ๊ฑฐ๋ž‘ ๋งž์ง€ ์•Š๋Š”๋ฐ?โ€๋ผ๊ณ  ๋”ฐ์ง€๋Š” ๋น„ํ‰๊ฐ€๋ฅผ ๋กœ๋ด‡์œผ๋กœ ๋งŒ๋“  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

์ด ์‹œ์Šคํ…œ์€ ํฌ๊ฒŒ ๋‘ ๊ฐ€์ง€ ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค. ๋จผ์ € ConStory-Bench๋Š” ๋ชจ๋ธ์—๊ฒŒ ๊ธด ์ด์•ผ๊ธฐ๋ฅผ ์“ฐ๋ผ๊ณ  ์‹œํ‚ค๋Š” 2,000๊ฐœ์˜ ์‹œํ—˜์ง€ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋ธ์ด ์ด์•ผ๊ธฐ๋ฅผ ์“ฐ๋ฉด, ConStory-Checker๋ผ๋Š” ๊ฒ€์ฆ๊ธฐ๊ฐ€ ํ…์ŠคํŠธ๋ฅผ ๊ผผ๊ผผํžˆ ์ฝ์œผ๋ฉด์„œ ๋ชจ์ˆœ์„ ์ฐพ์•„๋ƒ…๋‹ˆ๋‹ค. ๋‹จ์ˆœํžˆ โ€œํ‹€๋ ธ๋‹คโ€๊ณ  ๋งํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, โ€œ1์žฅ 3์ค„์—์„œ๋Š” A๋ผ๊ณ  ํ–ˆ๋Š”๋ฐ 5์žฅ 2์ค„์—์„œ๋Š” B๋ผ๊ณ  ํ–ˆ์œผ๋ฏ€๋กœ ๋ชจ์ˆœ์ด๋‹คโ€๋ผ๋Š” ์‹์œผ๋กœ ์ •ํ™•ํ•œ ๋ฌธ์žฅ ๋‹จ์œ„์˜ ์ฆ๊ฑฐ(Quotation)๋ฅผ ๋Œ€๋ฉด์„œ ํŒ๋‹จ ๊ทผ๊ฑฐ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‚ฌ๋žŒ์ด ์ง์ ‘ ๊ธด ๊ธ€์„ ๋‹ค ์ฝ์ง€ ์•Š์•„๋„๋„ ์–ด๋””์„œ ์˜ค๋ฅ˜๊ฐ€ ๋‚ฌ๋Š”์ง€ ์ฆ‰์‹œ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜: ์ผ๊ด€์„ฑ ์˜ค๋ฅ˜ ๋ฐ€๋„(CED)

๊ธด ์ด์•ผ๊ธฐ๋ฅผ ์“ฐ๋Š” ๋ชจ๋ธ์„ ๊ณต์ •ํ•˜๊ฒŒ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์—ฐ๊ตฌ์ง„์€ Consistency Error Density(CED)๋ผ๋Š” ์ง€ํ‘œ๋ฅผ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‹จ์ˆœํžˆ ์˜ค๋ฅ˜ ๊ฐœ์ˆ˜๋งŒ ์„ธ๋ฉด ๊ธธ๊ฒŒ ์“ด ๋ชจ๋ธ์ด ๋ถˆ๋ฆฌํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ๋ชจ๋ธ m์ด ์“ด ์ด์•ผ๊ธฐ i์—์„œ ๋ฐœ์ƒํ•œ ์ด ์˜ค๋ฅ˜ ์ˆ˜(e)๋ฅผ ์ด์•ผ๊ธฐ์˜ ์ „์ฒด ๊ธธ์ด(w)๋กœ ๋‚˜๋ˆˆ ๋’ค, 10,000 ๋‹จ์–ด๋‹น ์˜ค๋ฅ˜์œจ๋กœ ํ™˜์‚ฐํ•œ ๊ฐ’์ž…๋‹ˆ๋‹ค. ์ฆ‰, ์ด์•ผ๊ธฐ๊ฐ€ ๊ธธ์–ด์งˆ์ˆ˜๋ก ์‹ค์ˆ˜ํ•  ํ™•๋ฅ ์ด ๋†’๋‹ค๋Š” ์ ์„ ๊ณ ๋ คํ•˜์—ฌ, ๋‹จ์–ด ์ˆ˜ ๋Œ€๋น„ ์–ผ๋งˆ๋‚˜ ์ด˜์ด˜ํ•˜๊ฒŒ ์˜ค๋ฅ˜๊ฐ€ ๋‚˜์˜ค๋Š”์ง€๋ฅผ ์ธก์ •ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.


์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์ด ์—ฐ๊ตฌ๋Š” ConStory-Bench์˜ 2,000๊ฐœ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ƒ์šฉ ๋ชจ๋ธ(์˜ˆ: GPT, Claude ๋“ฑ), ์˜คํ”ˆ ์†Œ์Šค ๋ชจ๋ธ(์˜ˆ: Qwen, DeepSeek ๋“ฑ), ๊ทธ๋ฆฌ๊ณ  ์Šคํ† ๋ฆฌ ์ƒ์„ฑ์— ํŠนํ™”๋œ ๋ชจ๋ธ๊ณผ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ๊นŒ์ง€ ์ด 4๊ฐ€์ง€ ์œ ํ˜•์˜ ์‹œ์Šคํ…œ์„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ถ„์„ ๊ฒฐ๊ณผ, ๋ชจ๋“  ๋ชจ๋ธ์—์„œ ์ผ๊ด€์„ฑ ์˜ค๋ฅ˜๊ฐ€ ๋ช…ํ™•ํ•œ ๊ฒฝํ–ฅ์„ฑ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ฒซ์งธ, ์ด์•ผ๊ธฐ๊ฐ€ ๊ธธ์–ด์งˆ์ˆ˜๋ก(๊ธธ์ด๊ฐ€ ์ฆ๊ฐ€ํ• ์ˆ˜๋ก) ๋ชจ๋ธ์ด ์ดˆ๊ธฐ ์„ค์ •์„ ์žŠ์–ด๋ฒ„๋ฆฌ๋Š” ๋นˆ๋„๊ฐ€ ๋†’์•„์กŒ์Šต๋‹ˆ๋‹ค. ๋‘˜์งธ, ์˜ค๋ฅ˜ ์œ ํ˜• ์ค‘์—์„œ๋Š” โ€˜ํƒ€์ž„๋ผ์ธ ๋ฐ ์ค„๊ฑฐ๋ฆฌ ๋…ผ๋ฆฌโ€™ ์˜ค๋ฅ˜์™€ โ€˜์บ๋ฆญํ„ฐ ์„ค์ •โ€™ ์˜ค๋ฅ˜๊ฐ€ ๊ฐ€์žฅ ๋นˆ๋ฒˆํ•˜๊ฒŒ ๋ฐœ์ƒํ–ˆ์Šต๋‹ˆ๋‹ค. ์…‹์งธ, ๋‹จ์ˆœํžˆ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ์ข‹๋‹ค๊ณ  ํ•ด์„œ ๊ธด ์„œ์‚ฌ์˜ ์ผ๊ด€์„ฑ๊นŒ์ง€ ์™„๋ฒฝํžˆ ๋ณด์žฅ๋˜์ง€๋Š” ์•Š๋Š”๋‹ค๋Š” ์ ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์ตœ์‹  ๋ชจ๋ธ์ผ์ง€๋ผ๋„ ๊ธด ํ˜ธํก์˜ ์ด์•ผ๊ธฐ๋ฅผ ์“ธ ๋•Œ๋Š” ์—ฌ์ „ํžˆ ์•ž๋’ค๊ฐ€ ์•ˆ ๋งž๋Š” ์‹ค์ˆ˜๋ฅผ ํ•˜๋ฉฐ, ์ด๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•œ ์ถ”๊ฐ€์ ์ธ ๊ธฐ์ˆ ์ด ํ•„์š”ํ•จ์„ ์ˆ˜์น˜๋กœ ์ฆ๋ช…ํ–ˆ์Šต๋‹ˆ๋‹ค.


ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๋“ค์€ LLM์„ ํŒ์‚ฌ(Judge)๋กœ ์‚ฌ์šฉํ•˜์—ฌ ์ž๋™ํ™”๋œ ํ‰๊ฐ€ ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ตฌ์ถ•ํ–ˆ์ง€๋งŒ, ํŒ์‚ฌ ๋ชจ๋ธ ์ž์ฒด๊ฐ€ ๊ฐ€์ง„ ํŽธํ–ฅ์„ฑ์ด๋‚˜ ๋ฏธ๋ฌ˜ํ•œ ๋ฌธ๋งฅ์„ ๋†“์น  ์ˆ˜ ์žˆ๋Š” ํ•œ๊ณ„๋ฅผ ์ธ์ •ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ˜„์žฌ์˜ ๋ฒค์น˜๋งˆํฌ๋Š” ์ฃผ๋กœ ํ…์ŠคํŠธ ๋‚ด์˜ ๋ช…์‹œ์ ์ธ ๋ชจ์ˆœ์— ์ง‘์ค‘ํ•˜๊ณ  ์žˆ์–ด, ์•”๋ฌต์ ์ธ ๋ถ„์œ„๊ธฐ๋‚˜ ์‹ฌ๋ฆฌ์  ์ผ๊ด€์„ฑ๊นŒ์ง€ ํ‰๊ฐ€ํ•˜๊ธฐ์—๋Š” ์–ด๋ ต์Šต๋‹ˆ๋‹ค.

ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ์ž๋™ํ™”๋œ ๊ฒ€์ฆ๊ธฐ๋ฅผ ํ†ตํ•ด ๋ฐœ๊ฒฌ๋œ ์˜ค๋ฅ˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ด ๋ชจ๋ธ์„ ์žฌํ•™์Šต์‹œํ‚ค๊ฑฐ๋‚˜, ๋ชจ๋ธ์ด ๊ธด ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•  ๋•Œ ์ค‘๊ฐ„ ์ค‘๊ฐ„ ์„ค์ •์„ ํ™•์ธํ•˜๊ณ  ์ˆ˜์ •ํ•ด์ฃผ๋Š” ๋Šฅ๋™์ ์ธ ํ”ผ๋“œ๋ฐฑ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ฐœ๋ฐœํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋‚˜์•„๊ฐˆ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋‚˜์•„๊ฐ€ ๋‹จ์ˆœํžˆ ์˜ค๋ฅ˜๋ฅผ ์žก๋Š” ๊ฒƒ์„ ๋„˜์–ด, ์˜ค๋ฅ˜๊ฐ€ ๋‚˜์˜ฌ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ์ง€์ ์„ ๋ฏธ๋ฆฌ ์˜ˆ์ธกํ•˜์—ฌ ๋ฐฉ์ง€ํ•˜๋Š” ๊ธฐ์ˆ ๋„ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.


์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์ด ์—ฐ๊ตฌ๋Š” AI๋ฅผ ํ™œ์šฉํ•œ ์ฝ˜ํ…์ธ  ์ œ์ž‘ ํ˜„์žฅ์— ์ฆ‰์‹œ ์ ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์›น์†Œ์„ค์ด๋‚˜ ์‹œ๋‚˜๋ฆฌ์˜ค ์ž‘์„ฑ ๋„์šฐ๋ฏธ, ํ˜น์€ ๋กคํ”Œ๋ ˆ์ž‰ ๊ฒŒ์ž„(RPG)์˜ ์ž๋™ ํ€˜์ŠคํŠธ ์ƒ์„ฑ ์‹œ์Šคํ…œ ๋“ฑ์—์„œ ์ด ConStory-Checker๋ฅผ ํ•„ํ„ฐ๋ง ๋‹จ๊ณ„๋กœ ๋‘๋ฉด, LLM์ด ์ƒ์„ฑํ•œ ๊ธด ๊ธ€์— ์„ค์ • ์ถฉ๋Œ์ด ์žˆ๋Š”์ง€ ์ž๋™์œผ๋กœ ๊ฒ€์‚ฌํ•˜์—ฌ ํ’ˆ์งˆ์„ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค ์ธก๋ฉด์—์„œ๋Š” ๊ฒ€์ฆ์„ ์œ„ํ•œ ๋ณ„๋„์˜ ๊ฐ•๋ ฅํ•œ LLM(์˜ˆ: GPT-4o๊ธ‰)์ด ํ•„์š”ํ•˜๋ฏ€๋กœ API ํ˜ธ์ถœ ๋น„์šฉ์ด ๋ฐœ์ƒํ•˜๋ฉฐ, ์ƒ์„ฑ๋œ ํ…์ŠคํŠธ๋ฅผ ์ „๋ถ€ ๋‹ค์‹œ ๊ฒ€์ฆํ•ด์•ผ ํ•˜๋ฏ€๋กœ ์ฒ˜๋ฆฌ ์‹œ๊ฐ„(Latency)์ด ๋‹ค์†Œ ์†Œ์š”๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋ฐฉ๋Œ€ํ•œ ๋ถ„๋Ÿ‰์˜ ํ…์ŠคํŠธ๋ฅผ ๊ฒ€์ˆ˜ํ•˜๋Š” ์ธ๋ ฅ ๋น„์šฉ์„ ๊ณ ๋ คํ•˜๋ฉด ๋งค์šฐ ํšจ์œจ์ ์ธ ์†”๋ฃจ์…˜์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • Large Language Models (LLM): ๋Œ€๋Ÿ‰์˜ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•˜์—ฌ ์‚ฌ๋žŒ์ฒ˜๋Ÿผ ํ…์ŠคํŠธ๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•˜๋Š” ์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  • Context Window (์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ): ๋ชจ๋ธ์ด ํ•œ ๋ฒˆ์— ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์ตœ๋Œ€ ํ…์ŠคํŠธ ๊ธธ์ด๋กœ, ๊ธธ์ˆ˜๋ก ๊ธด ์ด์•ผ๊ธฐ๋ฅผ ๋” ์ž˜ ๊ธฐ์–ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • Hallucination (ํ• ๋ฃจ์‹œ๋„ค์ด์…˜): AI๊ฐ€ ์‚ฌ์‹ค์ด ์•„๋‹Œ ๋‚ด์šฉ์„ ๋งˆ์น˜ ์ง„์‹ค์ธ ๊ฒƒ์ฒ˜๋Ÿผ ๊ทธ๋Ÿด์‹ธํ•˜๊ฒŒ ์ƒ์„ฑํ•˜๋Š” ํ˜„์ƒ์ž…๋‹ˆ๋‹ค.
  • LLM-as-a-judge (LLM ํŒ์‚ฌ): ๋‹ค๋ฅธ AI์˜ ์ถœ๋ ฅ ๊ฒฐ๊ณผ๋ฅผ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด LLM์„ ํ‰๊ฐ€์ž๋กœ ํ™œ์šฉํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
  • Fine-tuning (ํŒŒ์ธํŠœ๋‹): ์ด๋ฏธ ํ•™์Šต๋œ ๊ฑฐ๋Œ€ ๋ชจ๋ธ์„ ํŠน์ • ์ž‘์—…์ด๋‚˜ ๋ฐ์ดํ„ฐ์— ๋งž์ถฐ ์ถ”๊ฐ€๋กœ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.
  • Retrieval-Augmented Generation (RAG): ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์—์„œ ์ •๋ณด๋ฅผ ์ฐพ์•„์™€ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•  ๋•Œ ํ™œ์šฉํ•˜์—ฌ ์‚ฌ์‹ค ๊ธฐ๋ฐ˜์˜ ๋‹ต๋ณ€์„ ๋•๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.
  • Consistency (์ผ๊ด€์„ฑ): ํ…์ŠคํŠธ ์ „์ฒด์— ๊ฑธ์ณ ๋“ฑ์žฅ์ธ๋ฌผ์˜ ์„ฑ๊ฒฉ, ์‚ฌ๊ฑด์˜ ์‹œ๊ธฐ, ์„ธ๊ณ„๊ด€ ์„ค์ • ๋“ฑ์ด ์„œ๋กœ ๋ชจ์ˆœ๋˜์ง€ ์•Š๊ณ  ์œ ์ง€๋˜๋Š” ์„ฑ์งˆ์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Geometry-Guided Reinforcement Learnโ€ฆDD-041
๐ŸฅˆPenguin-VL: Exploring the Efficiencโ€ฆDD-042
๐Ÿฅ‰OpenClaw-RL: Train Any Agent Simplyโ€ฆDD-043
4.Lost in Stories: Consistency Bugs iโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
5.Holi-Spatial: Evolving Video Streamโ€ฆDD-045

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-03-15 | ๐Ÿค– GLM-4.7 Deep Dive