DD-083 From Context to Skills: Can Language Models Learn from Context Skillfully?

arXiv: 2604.27660 Upvotes: 145 | Comments: 3 순위: 이번 주 Top 2

1. 왜 이 논문이 중요한가?

기존의 언어 모델(LLM)은 방대한 사전 학습 데이터에 의존하여 지식을 활용하지만, 실제 현업에서 마주하는 긴 기술 문서나 새로운 규칙 같은 복잡한 맥락을 즉각적으로 학습하여 활용하는 데에는 한계가 있었습니다. 특히, 이러한 맥락(Context)에서 유용한 규칙이나 절차를 뽑아내어 모델에게 도구로 제공하는 ‘스킬(Skill)’ 생성은 사람이 직접 주석을 달아야 했기에 비용이 너무 많이 들고 외부 피드백이 없어 자동화가 어렵다는 문제가 있었습니다.

이 논문은 Ctx2Skill이라는 프레임워크를 통해 사람의 개입이나 외부 피드백 없이도, 모델이 스스로 문맥을 읽고 필요한 스킬을 발견, 정제, 선택하여 자신의 능력을 향상시킬 수 있다는 것을 처음으로 증명했습니다. 이는 언어 모델이 단순한 텍스트 생성기를 넘어, 주어진 환경에서 스스로 진화하여 새로운 지식과 절차를 습득할 수 있는 지능형 에이전트로 발전할 수 있음을 보여주었다는 점에서 매우 중요합니다.

2. 핵심 아이디어 쉽게 이해하기

일상생활 비유: ‘스파링 훈련을 하는 격투기 선수’

이 논문의 핵심 아이디어는 마치 두 명의 격투기 선수가 서로 스파링을 하며 실력을 키우는 과정과 같습니다.

보통 언어 모델이 어려운 매뉴얼을 보고 문제를 푸는 것은, 선수가 매뉴얼을 읽고 바로 시합에 나가는 것과 같아서 실수가 많습니다. 사람이 매뉴얼을 읽고 “이건 왼손으로 막을 때 써라”라고 스킬을 정리해주면 좋지만, 매뉴얼이 너무 길면 사람도 힘듭니다.

Ctx2Skill은 모델을 두 사람, 도전자(Challenger)와 해결사(Reasoner)로 나눕니다. 도전자는 매뉴얼(Context)을 바탕으로 연습 문제를 내고, 해결사는 그 문제를 풉니다. 여기에 심판(Judge)이 채점을 합니다. 만약 해결사가 문제를 틀리면, 자신의 부족함을 깨닫고 “다음엔 이렇게 해결하자”라고 스스로 스킬을 수정합니다. 반대로 도전자의 문제가 너무 쉬우면, 도전자는 “더 까다로운 문제를 내야지”라고 자신의 출제 스킬을 높입니다. 이렇게 서로 경쟁하며 서로의 스킬을 끊임없이 업그레이드하는 것입니다.

단계별 동작 과정

시스템은 크게 네 가지 단계로 순환하며 작동합니다.

과제 생성: 도전자는 현재 가진 스킬을 바탕으로 긴 문맥(Context)에서 중요한 부분을 골라 해결사를 테스트할 문제와 채점 기준(Rubric)을 만듭니다.
문제 해결 및 채점: 해결사는 자신의 스킬을 사용해 문제를 해결하려 시도합니다. 중립적인 심판이 이 결과를 보고 맞았는지 틀렸는지(O/X) 판정합니다.
스킬 진화 (Skill Evolution): 결과에 따라 제안자(Proposer)와 생성자(Generator)가 작동합니다. 해결사가 틀렸다면, 어디서 실패했는지 분석해서 텍스트로 된 스킬(Skill)을 수정하여 라이브러리에 추가합니다. 도전자가 너무 쉬운 문제를 냈다면 도전자의 스킬을 업데이트하여 더 어려운 문제를 내도록 합니다.
교차 시점 재생 (Cross-Time Replay): 계속 경쟁하다 보면, 아주 특이한 예외만 맞히는 특화된 스킬만 늘어날 위험이 있습니다. 이를 방지하기 위해 과거의 문제들을 다시 꺼내 풀어보며, 가장 범용적으로 성능이 좋은 스킬 세트를 선택하여 일반화 능력을 잃지 않게 합니다.

핵심 알고리즘 구조

이 과정은 수식으로 표현하면 다음과 같은 순환 과정으로 볼 수 있습니다. 시점 t에서의 스킬 세트 $S_t$가 주어졌을 때, 다음과 같이 업데이트됩니다.

$S_{t+1} = \text{Evolve}(S_t, \text{Verdict}(\text{Solve}(\text{Generate}(S_t))))$

여기서 $\text{Evolve}$는 실패 분석을 통해 텍스트 스킬을 수정하는 함수이며, $\text{Cross-Time Replay}$ 메커니즘은 이 과정에서 최적의 일반화 성능을 내는 $S_{best}$를 유지하도록 보장하는 안전장치 역할을 합니다.

3. 실험 결과 분석

벤치마크 및 설정

이 논문은 언어 모델의 문맥 학습 능력을 평가하기 위해 고안된 CL-bench를 사용했습니다. 이 벤치마크는 단순한 독해 능력을 테스트하는 것이 아니라, 500개의 복잡한 문맥과 1,899개의 작업, 31,607개의 검증 기준(Rubric)을 포함하며, 모델이 문맥 안에 있는 새로운 지식을 학습하여 문제를 해결하는지를 측정합니다. 평가는 GPT-5.1을 심판으로 사용하여 매우 엄격하게 이루어졌습니다.

성능 향상 수치

실험 결과에 따르면 Ctx2Skill을 적용하지 않은 최신 모델들(GPT-5.1, Claude Opus 4.5)의 전체 문제 해결율은 약 21% 수준에 머물렀습니다. 반면, Ctx2Skill 프레임워크를 통해 스스로 스킬을 학습한 모델은 모든 카테고리(영역 지식 추론, 규칙 시스템 적용, 절차적 작업 수행, 경험적 발견 및 시뮬레이션)에서 일관되게 성능이 향상되었습니다. 논문에 제시된 표에서 붉은색으로 표시된 부분은 스킬을 추가했을 때 얻는 성능 향상을 나타내며, 이 향상 폭은 단순한 프롬프트 엔지니어링으로는 달성하기 힘든 수준입니다.

주목할 만한 성과

가장 인상적인 점은 모델의 종류에 상관없이 스킬이 전이(Transfer) 가능다는 것입니다. 한 모델이 학습한 스킬을 다른 모델에도 적용했을 때 성능이 향상되었습니다. 이는 Ctx2Skill이 생성하는 스킬이 특정 모델의 파라미터에 의존하는 것이 아니라, 문맥 자체에 내재된 객관적인 절차적 지식을 잘 포착하고 있음을 의미합니다.

4. 한계점과 향후 연구 방향

저자가 언급한 한계 및 위험 요소

저자들은 적대적 붕괴(Adversarial Collapse)에 대해 언급하며 이를 해결하기 위해 Cross-Time Replay를 제안했지만, 여전히 자가 학습(Self-play) 과정에서 지역 최적해(Local Optima)에 빠질 위험이 존재합니다. 즉, 도전자가 너무 기이한 문제를 계속 생성하고 해결사가 그 문제만 맞히는 엉뚱한 방향으로 진화할 가능성을 완전히 배제할 수는 없습니다.

개선 가능한 점

현재의 프레임워크는 텍스트 기반의 스킬 생성과 수정에 집중되어 있습니다. 향후 연구에서는 텍스트뿐만 아니라 코드 실행이나 외부 도구 호출을 포함한 더 복잡한 형태의 스킬을 자동으로 생성할 수 있도록 확장할 수 있습니다. 또한, 현재는 순차적인 반복 과정이 많은 연산 리소스를 소모하므로, 이 과정을 더 효율적으로 병렬화하여 학습 속도를 높이는 것도 중요한 과제입니다.

5. 실무 적용 가능성

바로 적용 가능한 분야

Ctx2Skill은 복잡한 문서를 읽고 업무를 처리해야 하는 분야에 즉시 적용할 수 있습니다. 예를 들어, 급변하는 법률 규정이나 기술 매뉴얼, 의료 진료 지침 등이 담긴 긴 문서를 모델에게 제공했을 때, 모델이 스스로 그 문서에서 핵심 룰을 추출하여 ‘업무 매뉴얼(스킬)‘을 만들고 이를 바탕으로 고객 문의를 처리하거나 장애를 진단하는 시스템을 구축할 수 있습니다.

필요한 리소스

이 방식은 모델의 파라미터를 업데이트하는 미세 조정(Fine-tuning) 과정이 없으므로 막대한 GPU 학습 리소스는 필요하지 않습니다. 대신, 도전자, 해결사, 심판 에이전트들이 수많은 토큰을 생성하고 평가하는 ‘추론 시간(Inference-time)’ 연산이 많이 발생합니다. 따라서 고품질의 언어 모델 API를 충분히 호출할 수 있는 비용 예산이나, 빠른 추론 속도를 내는 로컬 추론 서버가 필수적입니다.

6. 이 논문을 이해하기 위한 사전 지식

파라메트릭 지식 (Parametric Knowledge): 언어 모델이 사전 학습 단계에서 가중치(Weights)에 저장해 둔 내재된 지식입니다. 모델이 사전에 학습하지 않은 최신 정보는 알 수 없습니다.
맥락 학습 (Context Learning): 모델의 파라미터를 수정하지 않고, 프롬프트에 제공된 문맥(Context)이나 예시를 통해 새로운 작업을 수행하는 방법을 학습하는 능력입니다.
추론 시간 스킬 증강 (Inference-time Skill Augmentation): 모델이 문제를 해결할 때, 외부에서 주어지거나 미리 정의된 자연어 형태의 규칙이나 절차(Skill)를 참고하여 추론 능력을 높이는 기법입니다.
자가 플레이 (Self-play): 강화학습에서 자주 쓰이는 방법으로, 에이전트가 자기 자신 또는 다른 에이전트와 게임을 하며 경쟁하고 협력하여 실력을 향상시키는 학습 방식입니다. (예: 알파고)
적대적 붕괴 (Adversarial Collapse): 자가 플레이 과정에서 에이전트들이 특정한 패턴에만 과도하게 최적화되어, 일반적인 상황에서는 성능이 떨어지거나 서로 무의미한 패턴만 반복하게 되는 현상입니다.
제너레이티브 에이전트 (Generative Agent): 대규모 언어 모델(LLM)을 기반으로 하여, 스스로 계획을 세우고 행동하며 다른 에이전트와 상호작용할 수 있는 자율적인 AI 시스템을 말합니다.

📚 이번 주 관련 Deep Dive

순위	논문	Deep Dive
🥇	MolmoAct2: Action Reasoning Models …	DD-082
🥈	From Context to Skills: Can Languag…	📍 현재 문서
🥉	Stream-R1: Reliability-Perplexity A…	DD-084
4.	RLDX-1 Technical Report	DD-085
5.	ARIS: Autonomous Research via Adver…	DD-086

📅 생성일: 2026-05-10 | 🤖 GLM-4.7 Deep Dive

Quartz 4

탐색기

From Context to Skills: Can Language Models Learn from Context Skillfully?