β π μ΄λ² μ£Ό Weekly Digestλ‘ λμκ°κΈ°
DD-077 Recursive Multi-Agent Systems
arXiv: 2604.25917 κΈ°κ΄: Stanford University Upvotes: 240 | Comments: 3 μμ: μ΄λ² μ£Ό Top 1
1. μ μ΄ λ Όλ¬Έμ΄ μ€μνκ°?
κΈ°μ‘΄μ λ©ν° μμ΄μ νΈ μμ€ν
(Multi-Agent Systems)μ μμ΄μ νΈ κ°μ νλ ₯μ μν΄ ν
μ€νΈλ₯Ό μ£Όκ³ λ°μμΌ νκΈ° λλ¬Έμ μλκ° λλ¦¬κ³ , μ 체 μμ€ν
μ ν΅ν©νμ¬ νμ΅μν€κΈ°κ° λ§€μ° μ΄λ ΅λ€λ νκ³κ° μμμ΅λλ€. μ΄ λ
Όλ¬Έμ ν
μ€νΈ λμ λͺ¨λΈμ λ΄λΆ μνμΈ μ μ¬ κ³΅κ°(Latent Space)μ ν΅ν΄ μμ΄μ νΈλ€μ΄ μ§μ μκ°μ μ£Όκ³ λ°κ² νκ³ , μ 체 μμ€ν
μ νλμ μν κ΅¬μ‘°λ‘ νμ΅μν€λ RecursiveMASλ₯Ό μ μνμ¬ μ΄ λ¬Έμ λ₯Ό ν΄κ²°νμ΅λλ€. μ΄λ₯Ό ν΅ν΄ κ°λ³ μμ΄μ νΈμ λ₯λ ₯μ λ°μ΄λλ μμ€ν
μ°¨μμ μ§λ₯μ΄ ν¨μ¨μ μΌλ‘ νμ₯λ μ μλ κΈΈμ μ΄μλ€λ μ μμ λ§€μ° μ€μν©λλ€.
2. ν΅μ¬ μμ΄λμ΄ μ½κ² μ΄ν΄νκΈ°
μΌμμν λΉμ
μ΄ λ
Όλ¬Έμ ν΅μ¬ μμ΄λμ΄λ βμ λ¬Έκ° νμ ν
λ νμ νμβμ κ°μ΅λλ€. κΈ°μ‘΄ λ°©μμ μνμ, νλ‘κ·Έλλ¨Έ, μκ°λ‘ ꡬμ±λ νμ΄ νμλ₯Ό ν λ, ν μ¬λμ΄ μ견μ λ§λ‘ μ μ΄μ μ’
μ΄μ λ겨주면, λ€λ₯Έ μ¬λμ΄ κ·Έκ±Έ μ½κ³ μ΄ν΄ν λ€ λ€μ μ μ΄μ λ겨주λ μμ΄μμ΅λλ€. μ΄ κ³Όμ μμ λ§νκ³ , μ κ³ , μ½λ μκ°μ΄ λλΉλ©λλ€. λ°λ©΄, μ΄ λ
Όλ¬Έμ λ°©μ(RecursiveMAS)μ κ° μ λ¬Έκ°μ 머리μ νΉλ³ν μ₯μΉ(RecursiveLink)λ₯Ό λ¬μμ, λ§λ‘ νμ§ μκ³ λ¨Έλ¦Ώμ μκ°(μ μ¬ μν)λ§μ μλ‘μ λμ μ§μ μ μ‘νλ λ°©μμ
λλ€. λ§μ§λ§ μ λ¬Έκ°μ μκ°μ΄ λ€μ 첫 λ²μ§Έ μ λ¬Έκ°μκ² λμκ°λ©°, ν μ μ²΄κ° νλμ κ±°λν λμ²λΌ μκ³ νλ©° λ΅μ μ μ λ λλνκ² λ€λ¬μ΄ λκ°λλ€.
λ¨κ³λ³ λμ κ³Όμ
μμ€ν μ ν¬κ² μΈ κ°μ§ λ¨κ³λ‘ μλν©λλ€. 첫째, λ΄λΆ μν(Inner Link) λ¨κ³μμ κ° μμ΄μ νΈλ μμ μ΄ μμ±ν μκ°μ ν΅μ¬(λ§μ§λ§ λ μ΄μ΄μ νλ μν)μ μΆμΆνμ¬ μ΄λ₯Ό λ€μ μμ μ μ λ ₯μΌλ‘ λ£μ΄ μ€μ€λ‘μ μκ°μ λ κΉκ² λ°μΆν©λλ€. λμ§Έ, μΈλΆ μ°κ²°(Outer Link) λ¨κ³μμ μμ΄μ νΈ Aκ° λ€λ¬μ μκ°μ ν μ€νΈλ‘ λ³ννμ§ μκ³ , κ³§λ°λ‘ μμ΄μ νΈ Bμ μ λ ₯ μλ² λ© μΈ΅μΌλ‘ μ£Όμ νμ¬ Bκ° Aμ κ³ λνλ μκ°μ λ°νμΌλ‘ μΌμ μμνκ² ν©λλ€. μ μ§Έ, μ 체 μμ€ν μν λ¨κ³μμλ λ§μ§λ§ μμ΄μ νΈκ° λ΄λμ κ²°κ³Όκ° λ€μ 첫 λ²μ§Έ μμ΄μ νΈλ‘ νΌλλ°±λμ΄, μμ΄μ νΈ ν μ μ²΄κ° λ¬Έμ λ₯Ό ν΄κ²°ν λκΉμ§ μ΄ κ³Όμ μ λ°λ³΅νλ©° λ΅μ μ μ ν΄ λκ°λλ€.
ν΅μ¬ μκ³ λ¦¬μ¦κ³Ό μμ
νμ΅μ λ λ¨κ³μ 루ν(Loop)λ‘ μ§νλ©λλ€. λ¨Όμ λ΄λΆ 루ν(Inner Loop)μμλ κ° μμ΄μ νΈκ° μ¬λ°λ₯Έ λ΅μ μκ°ν΄λΌ μ μλλ‘, μμ΄μ νΈκ° μμ±ν μ μ¬ μκ°(H)κ³Ό μ λ΅ ν
μ€νΈ(y)λ₯Ό μλ² λ©ν κ° μ¬μ΄μ μ½μ¬μΈ μ μ¬λ(Cosine Similarity)λ₯Ό μ΅λννλ λ°©μμΌλ‘ RecursiveLinkλ₯Ό νλ ¨ν©λλ€. μμμΌλ‘λ $\mathcal{L}{\mathrm{in}} = 1 - \cos(\mathcal{R}{\mathrm{in}}(H), \mathrm{Emb}_{\theta_i}(y))$μ κ°μ΄ λνλ΄λ©°, μ΄λ μμ΄μ νΈμ μκ°μ΄ μ λ΅κ³Ό κ°μ λ°©ν₯μ κ°λ¦¬ν€λλ‘ λ²‘ν°λ₯Ό μ λ ¬νλ μν μ ν©λλ€. μ΄ν μΈλΆ 루ν(Outer Loop)μμλ μμ΄μ νΈ κ°μ μ°κ²°μ μ΅μ ννμ¬ μ 체 μμ€ν
μ μ±λ₯μ λμ΄μ¬λ¦½λλ€.
3. μ€ν κ²°κ³Ό λΆμ
ν μ€νΈ λ²€μΉλ§ν¬
μ°κ΅¬μ§μ μν λ° κ³Όνμ μΆλ‘ (Mathematical and Scientific Reasoning), μ½λ μμ±(Code Generation), κ²μ(Search) λ± λ³΅μ‘ν μ¬κ³ κ° νμν λ€μν λ²€μΉλ§ν¬μμ RecursiveMASμ μ±λ₯μ κ²μ¦νμ΅λλ€. μ΄λ¬ν μμ
μ λ¨μΌ λͺ¨λΈμ΄ ν΄κ²°νκΈ° μ΄λ ΅κ³ λ€μν μ λ¬Έ μ§μμ΄ νμνμ¬ λ©ν° μμ΄μ νΈ μμ€ν
μ ν¨μ¨μ±μ μ
μ¦νκΈ°μ μ ν©ν λλ©μΈμ
λλ€.
κΈ°μ‘΄ SOTA λλΉ μ±λ₯
μ€ν κ²°κ³Ό, RecursiveMASλ ν
μ€νΈ κΈ°λ°μ κΈ°μ‘΄ μ΅μ κΈ°μ (SOTA) λλΉ μΌκ΄λκ² λ λμ μ νλ(Accuracy)λ₯Ό κΈ°λ‘νμ΅λλ€. ꡬ체μ μΈ μμΉλ λ
Όλ¬Έμ νλ₯Ό ν΅ν΄ νμΈν΄μΌ νκ² μ§λ§, λ¨μν μ λ΅λ₯ μ λμΈ κ²μ λμ΄μ, μΆλ‘ κ³Όμ μμ λ°μν μ μλ μ€λ₯λ₯Ό μν κ³Όμ μμ μ€μ€λ‘ μμ νλ©° μ±λ₯μ κ°μ νμμ 보μ¬μ£Όμμ΅λλ€.
μ£Όλͺ©ν λ§ν μ±κ³Ό
κ°μ₯ μΈμμ μΈ μ μ μ νλ ν₯μλΏλ§ μλλΌ ν¨μ¨μ±μ νκΈ°μ κ°μ μ λλ€. μμ΄μ νΈ κ°μ ν μ€νΈ μμ± λ° νμ± κ³Όμ μ μλ΅νκ³ μ μ¬ μν(Latent State)λ₯Ό μ§μ μ λ¬ν¨μΌλ‘μ¨, μΆλ‘ μκ°(Inference Time)κ³Ό ν ν° μ¬μ©λ(Token Usage)μ ν¬κ² μ€μμ΅λλ€.θΏζε³η μ¦, λ λΉ λ₯Έ μλμ λ μ μ λΉμ©μΌλ‘ λ λλν κ²°κ³Όλ₯Ό μ»μ μ μμμ μ μ¦ν κ²μ λλ€.
4. νκ³μ κ³Ό ν₯ν μ°κ΅¬ λ°©ν₯
μ μκ° μΈκΈν νκ³
μ μλ€μ μ΄λ‘ μ μΈ λΆμμ ν΅ν΄ νλ ¨ μν(Training Dynamics)μ μμ μ±κ³Ό κ³μ° 볡μ‘λλ₯Ό μ¦λͺ νμ§λ§, μ€μ λ‘ μλ‘ λ§€μ° λ€λ₯Έ ꡬ쑰λ₯Ό κ°μ§ μ΄μ§μ μΈ(Heterogeneous) μμ΄μ νΈλ€μ΄ λ§μμ§μλ‘ μ μ¬ κ³΅κ°(Latent Space)μ μ λ ¬νλ λ° μ΄λ €μμ΄ μμ μ μμμ μμ¬ν©λλ€. λν, μν(Recursion) κΉμ΄κ° κΉμ΄μ§ κ²½μ° λ°μν μ μλ μ 보μ μ곑μ΄λ μμ€ κ°λ₯μ±λ κ³ λ €ν΄μΌ ν©λλ€.
κ°μ κ°λ₯ν μ
ν₯ν μ°κ΅¬μμλ λ λ€μν λλ©μΈμ μ λ¬Έκ° μμ΄μ νΈλ₯Ό μμ€ν μ ν΅ν©νκ³ , μμ΄μ νΈ κ°μ ν΅μ μ λμ± ν¨μ¨μ μΌλ‘ μ μ΄νλ λ©μ»€λμ¦μ΄ κ°λ°λ κ²μ λλ€. λν, νμ¬μ μν ꡬ쑰λ₯Ό λ 볡μ‘ν λ€νΈμν¬ ννλ κ³μΈ΅ κ΅¬μ‘°λ‘ νμ₯νμ¬, λ λκ·λͺ¨μ νμ μ§λ₯μ ꡬννλ λ°©ν₯μΌλ‘ λμκ° κ²μ λλ€.
5. μ€λ¬΄ μ μ© κ°λ₯μ±
μ΄λμ λ°λ‘ μ μ© κ°λ₯?
μ΄ κΈ°μ μ 볡μ‘ν λ¨κ³κ° νμν μννΈμ¨μ΄ κ°λ° νλ‘μΈμ€μ μ¦μ μ μ©ν μ μμ΅λλ€. μλ₯Ό λ€μ΄, κΈ°νμ, κ°λ°μ, ν
μ€ν° μν μ νλ μμ΄μ νΈλ€μ΄ RecursiveMASλ‘ μ°κ²°λμ΄, μ½λλ₯Ό μμ±νκ³ κ²μ¦νλ κ³Όμ μ ν
μ€νΈ μ£Όκ³ λ°μ μμ΄ μ¦κ°μ μΌλ‘ μννλ μμ€ν
μ ꡬμΆν μ μμ΅λλ€. λν, 볡μ‘ν κΈμ΅ λΆμμ΄λ μλ£ μ§λ¨κ³Ό κ°μ΄ μ¬λ¬ μ λ¬Έκ°μ νμκ° νμμ μΈ λΆμΌμμλ λΉμ λ°ν κ²μ
λλ€.
νμν 리μμ€
μ΄ νλ μμν¬λ₯Ό ꡬμΆνκΈ° μν΄μλ κ° μν μ μνν μ¬μ νλ ¨λ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)λ€μ΄ νμν©λλ€. λ€λ§, RecursiveMASμ ν° μ₯μ μ λͺ¨λΈ μ 체λ₯Ό μ¬νλ ¨(Fine-tuning)νλ κ²μ΄ μλλΌ κ°λ²Όμ΄ μ΄λν° μν μ νλ RecursiveLinkλ§ νμ΅μν€λ©΄ λλ€λ μ μ
λλ€. λ°λΌμ μ 체 λͺ¨λΈμ μ
λ°μ΄νΈνλ κ²λ³΄λ€ ν¨μ¬ μ μ GPU λ©λͺ¨λ¦¬μ νμ΅ μκ°μΌλ‘ μμ€ν
μ μ΅μ νν μ μμ΅λλ€.
6. μ΄ λ Όλ¬Έμ μ΄ν΄νκΈ° μν μ¬μ μ§μ
- μ μ¬ κ³΅κ°(Latent Space): λ°μ΄ν°κ° μ¬λμ΄ μ΄ν΄νκΈ° μ΄λ €μ΄ κ³ μ°¨μμ μ«μ ννλ‘ μμΆλμ΄ μλ 곡κ°μΌλ‘, λͺ¨λΈμ΄ λ°μ΄ν°μ μλ―Έλ₯Ό λ΄λΆμ μΌλ‘ μ²λ¦¬νλ κ³³μ λλ€.
- λ©ν° μμ΄μ νΈ μμ€ν (Multi-Agent Systems): μ¬λ¬ κ°μ μΈκ³΅μ§λ₯ μμ΄μ νΈκ° κ°μμ μν μ κ°μ§κ³ μνΈμμ©νλ©° 곡λμ λͺ©νλ₯Ό λ¬μ±νλ μμ€ν μ λλ€.
- μ€ν 리그λ μλΈ μμ±(Auto-regressive Generation): λͺ¨λΈμ΄ μ΄μ μ μμ±ν ν ν°μ λ€μ μ λ ₯μΌλ‘ μ¬μ©νμ¬ λ€μ ν ν°μ μμ°¨μ μΌλ‘ μμΈ‘νλ λ°©μμ λλ€.
- μ½μ¬μΈ μ μ¬λ(Cosine Similarity): λ λ²‘ν° κ°μ κ°λμ μ½μ¬μΈ κ°μ μ΄μ©ν΄ λ°©ν₯μ±μ΄ μΌλ§λ κ°μμ§λ₯Ό μΈ‘μ νλ μ§νμ λλ€.
- μλ² λ© μΈ΅(Embedding Layer): ν μ€νΈμ κ°μ μ λ ₯ λ°μ΄ν°λ₯Ό λͺ¨λΈμ΄ μ²λ¦¬ν μ μλ μ«μ 벑ν°λ‘ λ³ννλ μ κ²½λ§μ μ΄κΈ° μΈ΅μ λλ€.
- μμ ν(Backpropagation): μ κ²½λ§μ μΆλ ₯ μ€μ°¨λ₯Ό μ€μ΄κΈ° μν΄ κ° νλΌλ―Έν°κ° μ€μ°¨μ μΌλ§λ κΈ°μ¬νλμ§λ₯Ό κ³μ°νμ¬ κ°μ€μΉλ₯Ό μ λ°μ΄νΈνλ μκ³ λ¦¬μ¦μ λλ€.
- μν μ κ²½λ§(Recurrent Neural Networks): μ΄μ λ¨κ³μ μ λ³΄κ° νμ¬ λ¨κ³μ μ λ ₯μΌλ‘ λ€μ΄κ°λ μν ꡬ쑰λ₯Ό κ°μ§ μ κ²½λ§μΌλ‘, μκ³μ΄ λ°μ΄ν°λ μμ°¨μ μΈ λ°μ΄ν° μ²λ¦¬μ μ¬μ©λ©λλ€.
π μ΄λ² μ£Ό κ΄λ ¨ Deep Dive
| μμ | λ Όλ¬Έ | Deep Dive |
|---|---|---|
| π₯ | Recursive Multi-Agent Systems | π νμ¬ λ¬Έμ |
| π₯ | Agentic World Modeling: Foundationsβ¦ | DD-078 |
| π₯ | Heterogeneous Scientific Foundationβ¦ | DD-079 |
| 4. | From Skills to Talent: Organising H⦠| DD-080 |
| 5. | World-R1: Reinforcing 3D Constraint⦠| DD-081 |
π μμ±μΌ: 2026-05-03 | π€ GLM-4.7 Deep Dive