DD-077 Recursive Multi-Agent Systems

arXiv: 2604.25917 기관: Stanford University Upvotes: 240 | Comments: 3 순위: 이번 주 Top 1

1. 왜 이 논문이 중요한가?

기존의 멀티 에이전트 시스템(Multi-Agent Systems)은 에이전트 간의 협력을 위해 텍스트를 주고받아야 했기 때문에 속도가 느리고, 전체 시스템을 통합하여 학습시키기가 매우 어렵다는 한계가 있었습니다. 이 논문은 텍스트 대신 모델의 내부 상태인 잠재 공간(Latent Space)을 통해 에이전트들이 직접 생각을 주고받게 하고, 전체 시스템을 하나의 순환 구조로 학습시키는 RecursiveMAS를 제안하여 이 문제를 해결했습니다. 이를 통해 개별 에이전트의 능력을 뛰어넘는 시스템 차원의 지능이 효율적으로 확장될 수 있는 길을 열었다는 점에서 매우 중요합니다.

2. 핵심 아이디어 쉽게 이해하기

일상생활 비유

이 논문의 핵심 아이디어는 ‘전문가 팀의 텔레파시 회의’와 같습니다. 기존 방식은 수학자, 프로그래머, 작가로 구성된 팀이 회의를 할 때, 한 사람이 의견을 말로 적어서 종이에 넘겨주면, 다른 사람이 그걸 읽고 이해한 뒤 다시 적어서 넘겨주는 식이었습니다. 이 과정에서 말하고, 적고, 읽는 시간이 낭비됩니다. 반면, 이 논문의 방식(RecursiveMAS)은 각 전문가의 머리에 특별한 장치(RecursiveLink)를 달아서, 말로 하지 않고 머릿속 생각(잠재 상태)만을 서로의 뇌에 직접 전송하는 방식입니다. 마지막 전문가의 생각이 다시 첫 번째 전문가에게 돌아가며, 팀 전체가 하나의 거대한 뇌처럼 순고하며 답을 점점 더 똑똑하게 다듬어 나갑니다.

단계별 동작 과정

시스템은 크게 세 가지 단계로 작동합니다. 첫째, 내부 순환(Inner Link) 단계에서 각 에이전트는 자신이 생성한 생각의 핵심(마지막 레이어의 히든 상태)을 추출하여 이를 다시 자신의 입력으로 넣어 스스로의 생각을 더 깊게 반추합니다. 둘째, 외부 연결(Outer Link) 단계에서 에이전트 A가 다듬은 생각을 텍스트로 변환하지 않고, 곧바로 에이전트 B의 입력 임베딩 층으로 주입하여 B가 A의 고도화된 생각을 바탕으로 일을 시작하게 합니다. 셋째, 전체 시스템 순환 단계에서는 마지막 에이전트가 내놓은 결과가 다시 첫 번째 에이전트로 피드백되어, 에이전트 팀 전체가 문제를 해결할 때까지 이 과정을 반복하며 답을 정제해 나갑니다.

핵심 알고리즘과 수식

학습은 두 단계의 루프(Loop)로 진행됩니다. 먼저 내부 루프(Inner Loop)에서는 각 에이전트가 올바른 답을 생각해낼 수 있도록, 에이전트가 생성한 잠재 생각(H)과 정답 텍스트(y)를 임베딩한 값 사이의 코사인 유사도(Cosine Similarity)를 최대화하는 방식으로 RecursiveLink를 훈련합니다. 수식으로는 $\mathcal{L}{\mathrm{in}} = 1 - \cos(\mathcal{R}{\mathrm{in}}(H), \mathrm{Emb}_{\theta_i}(y))$와 같이 나타내며, 이는 에이전트의 생각이 정답과 같은 방향을 가리키도록 벡터를 정렬하는 역할을 합니다. 이후 외부 루프(Outer Loop)에서는 에이전트 간의 연결을 최적화하여 전체 시스템의 성능을 끌어올립니다.

3. 실험 결과 분석

테스트 벤치마크

연구진은 수학 및 과학적 추론(Mathematical and Scientific Reasoning), 코드 생성(Code Generation), 검색(Search) 등 복잡한 사고가 필요한 다양한 벤치마크에서 RecursiveMAS의 성능을 검증했습니다. 이러한 작업은 단일 모델이 해결하기 어렵고 다양한 전문 지식이 필요하여 멀티 에이전트 시스템의 효율성을 입증하기에 적합한 도메인입니다.

기존 SOTA 대비 성능

실험 결과, RecursiveMAS는 텍스트 기반의 기존 최신 기술(SOTA) 대비 일관되게 더 높은 정확도(Accuracy)를 기록했습니다. 구체적인 수치는 논문의 표를 통해 확인해야 하겠지만, 단순히 정답률을 높인 것을 넘어서, 추론 과정에서 발생할 수 있는 오류를 순환 과정에서 스스로 수정하며 성능을 개선했음을 보여주었습니다.

주목할 만한 성과

가장 인상적인 점은 정확도 향상뿐만 아니라 효율성의 획기적 개선입니다. 에이전트 간의 텍스트 생성 및 파싱 과정을 생략하고 잠재 상태(Latent State)를 직접 전달함으로써, 추론 시간(Inference Time)과 토큰 사용량(Token Usage)을 크게 줄였습니다.这意味着 즉, 더 빠른 속도와 더 적은 비용으로 더 똑똑한 결과를 얻을 수 있음을 입증한 것입니다.

4. 한계점과 향후 연구 방향

저자가 언급한 한계

저자들은 이론적인 분석을 통해 훈련 역학(Training Dynamics)의 안정성과 계산 복잡도를 증명했지만, 실제로 서로 매우 다른 구조를 가진 이질적인(Heterogeneous) 에이전트들이 많아질수록 잠재 공간(Latent Space)을 정렬하는 데 어려움이 있을 수 있음을 시사합니다. 또한, 순환(Recursion) 깊이가 깊어질 경우 발생할 수 있는 정보의 왜곡이나 소실 가능성도 고려해야 합니다.

개선 가능한 점

향후 연구에서는 더 다양한 도메인의 전문가 에이전트를 시스템에 통합하고, 에이전트 간의 통신을 더욱 효율적으로 제어하는 메커니즘이 개발될 것입니다. 또한, 현재의 순환 구조를 더 복잡한 네트워크 형태나 계층 구조로 확장하여, 더 대규모의 협업 지능을 구현하는 방향으로 나아갈 것입니다.

5. 실무 적용 가능성

어디에 바로 적용 가능?

이 기술은 복잡한 단계가 필요한 소프트웨어 개발 프로세스에 즉시 적용할 수 있습니다. 예를 들어, 기획자, 개발자, 테스터 역할을 하는 에이전트들이 RecursiveMAS로 연결되어, 코드를 작성하고 검증하는 과정을 텍스트 주고받음 없이 즉각적으로 수행하는 시스템을 구축할 수 있습니다. 또한, 복잡한 금융 분석이나 의료 진단과 같이 여러 전문가의 협의가 필수적인 분야에서도 빛을 발할 것입니다.

필요한 리소스

이 프레임워크를 구축하기 위해서는 각 역할을 수행할 사전 훈련된 대규모 언어 모델(LLM)들이 필요합니다. 다만, RecursiveMAS의 큰 장점은 모델 전체를 재훈련(Fine-tuning)하는 것이 아니라 가벼운 어댑터 역할을 하는 RecursiveLink만 학습시키면 된다는 점입니다. 따라서 전체 모델을 업데이트하는 것보다 훨씬 적은 GPU 메모리와 학습 시간으로 시스템을 최적화할 수 있습니다.

6. 이 논문을 이해하기 위한 사전 지식

잠재 공간(Latent Space): 데이터가 사람이 이해하기 어려운 고차원의 숫자 형태로 압축되어 있는 공간으로, 모델이 데이터의 의미를 내부적으로 처리하는 곳입니다.
멀티 에이전트 시스템(Multi-Agent Systems): 여러 개의 인공지능 에이전트가 각자의 역할을 가지고 상호작용하며 공동의 목표를 달성하는 시스템입니다.
오토리그레시브 생성(Auto-regressive Generation): 모델이 이전에 생성한 토큰을 다시 입력으로 사용하여 다음 토큰을 순차적으로 예측하는 방식입니다.
코사인 유사도(Cosine Similarity): 두 벡터 간의 각도의 코사인 값을 이용해 방향성이 얼마나 같은지를 측정하는 지표입니다.
임베딩 층(Embedding Layer): 텍스트와 같은 입력 데이터를 모델이 처리할 수 있는 숫자 벡터로 변환하는 신경망의 초기 층입니다.
역전파(Backpropagation): 신경망의 출력 오차를 줄이기 위해 각 파라미터가 오차에 얼마나 기여했는지를 계산하여 가중치를 업데이트하는 알고리즘입니다.
순환 신경망(Recurrent Neural Networks): 이전 단계의 정보가 현재 단계의 입력으로 들어가는 순환 구조를 가진 신경망으로, 시계열 데이터나 순차적인 데이터 처리에 사용됩니다.

📚 이번 주 관련 Deep Dive

순위	논문	Deep Dive
🥇	Recursive Multi-Agent Systems	📍 현재 문서
🥈	Agentic World Modeling: Foundations…	DD-078
🥉	Heterogeneous Scientific Foundation…	DD-079
4.	From Skills to Talent: Organising H…	DD-080
5.	World-R1: Reinforcing 3D Constraint…	DD-081

📅 생성일: 2026-05-03 | 🤖 GLM-4.7 Deep Dive

Quartz 4

탐색기

Recursive Multi-Agent Systems