β π μ΄λ² μ£Ό Weekly Digestλ‘ λμκ°κΈ°
DD-106 GrepSeek: Training Search Agents for Direct Corpus Interaction
arXiv: 2605.29307 κΈ°κ΄: University of Massachusetts Amherst Upvotes: 102 | Comments: 5 μμ: μ΄λ² μ£Ό Top 5
1. μ μ΄ λ Όλ¬Έμ΄ μ€μνκ°?
κΈ°μ‘΄μ κ²μ μ¦κ° μμ±(RAG) λ°©μμ 미리 λ§λ€μ΄μ§ μΈλ±μ€λ₯Ό ν΅ν΄ λ¬Έμ λ¨μλ‘ μ 보λ₯Ό μ°ΎκΈ° λλ¬Έμ, μνλ μ λ³΄κ° λ¬Έμμ μμ μ‘°κ°μ μ¨μ΄ μμΌλ©΄ μ νν μ°Ύμλ΄κΈ° μ΄λ ΅κ³ λΆνμν μ λ³΄κ° μμ΄λ λ¬Έμ κ° μμμ΅λλ€. μ΄ λ Όλ¬Έμ κ±°λ μΈμ΄ λͺ¨λΈ(LLM)μ΄ λ§μΉ νλ‘κ·Έλλ¨Έμ²λΌ μ λμ€ μ Έ λͺ λ Ήμ΄λ₯Ό μ§μ μ¬μ©ν΄ μμ ν μ€νΈ μλ£λ₯Ό μ μ μ΄ λ€μ§κ³ μ‘°κ°λ΄λ βμ λ° μμ μβ κ²μ λ°©μμ μ μνμ¬ μ΄ νκ³λ₯Ό 극볡νμ΅λλ€. μ΄λ₯Ό ν΅ν΄ λ³λμ κ²μ μΈλ±μ€ κ΅¬μΆ λΉμ©μ μμ κ³ , μ¬λ¬ λ¨κ³μ μΆλ‘ μ΄ νμν 볡μ‘ν μ§λ¬Έμμλ κΈ°μ‘΄ λ°©λ²λ³΄λ€ ν¨μ¬ λ μ νν λ΅μ μ°ΎμλΌ μ μμμ μ μ¦νμ΅λλ€.
2. ν΅μ¬ μμ΄λμ΄ μ½κ² μ΄ν΄νκΈ°
μΌμμν λΉμ
κΈ°μ‘΄μ κ²μ λ°©μμ λμκ΄μ κ°μ μ¬μμκ² βμ°μ μμ€ μ± μ’ μ£ΌμΈμβλΌκ³ λ§νλ©΄, μ¬μκ° κ΄λ ¨ λμλ€μ νκΊΌλ²μ κ°μ Έλ€μ£Όλ κ²κ³Ό κ°μ΅λλ€. μ± μ ν΅μ§Έλ‘ λ°μ보λ λ΄κ° μ°Ύλ λ¬Έμ₯μ΄ μ΄λ μλμ§ μΌμΌμ΄ μ°ΎμμΌ νκ³ , μλ±ν μ± μ΄ μμ¬ μμ μλ μμ΅λλ€. λ°λ©΄, μ΄ λ Όλ¬Έμ λ°©μμΈ GrepSeekμ νμ μ΄ λμκ΄μ λ³΄κ΄ μ°½κ³ μ μ§μ λ€μ΄κ° μμ λ±μ λ€κ³ μ± μ₯μ μ§μ νμΌλ©° β2010λ λ ν μ± μ€μμ λΉ¨κ° νμ§κ° μλ μ± μ 15λ²μ§Έ μ€μ μ°Ύμμ€βλΌκ³ ꡬ체μ μΌλ‘ μ§μνλ κ²κ³Ό κ°μ΅λλ€. ν¨μ¬ λ μ κ΅νκ³ μνλ μ λ³΄λ§ λ± λΌμ΄λΌ μ μλ€λ λ»μ λλ€.
λ¨κ³λ³ λμ λ°©μ
μ΄ μμ€ν
μ ν¬κ² νμ΅κ³Ό μ€ν λ λΆλΆμΌλ‘ λλ©λλ€. λ¨Όμ νμ΅ λ¨κ³μμλ λ΅μ μκ³ μλ μ μλκ³Ό λͺ¨λ₯΄λ νμ μν μ λλλλ€. μ μλμ μ¬λ°λ₯Έ κ²μ κ³Όμ μ 보μ¬μ£Όκ³ νμμ μ΄λ₯Ό λ°λΌ νλ©° μ΄λ€ λͺ
λ Ήμ΄λ₯Ό μ¨μΌ μ 보λ₯Ό μ°Ύμ μ μλμ§ λ°°μλλ€. μ΄ν κ°ν νμ΅ λ¨κ³μμλ νμμ΄ μ€μ€λ‘ μνμ°©μ€λ₯Ό κ²ͺμΌλ©° λ΅μ λ§νμ λ 보μμ λ°μ, λ λλν κ²μ μ λ΅μ μ€μ€λ‘ κ°λ°ν΄ λκ°λλ€. μ€μ λ‘ μ§λ¬Έμ΄ λ€μ΄μ€λ©΄ μμ΄μ νΈλ ν
μ€νΈκ° λ΄κΈ΄ ν΄λλ₯Ό νκ²½μΌλ‘ μΈμνκ³ , grepμ΄λ awk κ°μ κ²μ λͺ
λ Ήμ΄λ₯Ό λ§μΉ κ²μ μΊλ¦ν°κ° μ€ν¬μ μ°λ―μ΄ μ°μμΌλ‘ μ¬μ©νμ¬ λ΅μ΄ λ λ§ν λ¨μλ₯Ό μΆμΆνκ³ μ‘°ν©ν©λλ€.
ν΅μ¬ μκ³ λ¦¬μ¦ λ° κ΅¬μ‘°
κ°μ₯ μ€μν κΈ°μ μ νΉμ§μ βμ§μ λ§λμΉ μνΈμμ©(DCI)βμ΄λΌλ κ°λ κ³Ό λ λ¨κ³ νμ΅ νμ΄νλΌμΈμ λλ€. 첫 λ²μ§Έλ κ°λ νμ΅(SFT) λ¨κ³λ‘, λ΅μ μλ Tutorμ λ΅μ λͺ¨λ₯΄λ Plannerκ° νλ ₯νμ¬ μ λ΅μ μ°ΎμλΈ κ²μ λͺ λ Ήμ΄ νμ μ λ°μ΄ν°λ‘ λ§λλλ€. λ λ²μ§Έλ κ°ν νμ΅(RL) λ¨κ³λ‘, GRPO(Group Relative Policy Optimization) μκ³ λ¦¬μ¦μ μ¬μ©νμ¬ μμ΄μ νΈκ° μ€μ€λ‘ νννλ©° μ λ΅λ₯ μ λμ΄λ λ°©ν₯μΌλ‘ νλμ μμ ν©λλ€. μ΄ κ³Όμ μ ν΅ν΄ μμ΄μ νΈλ λ¨μν ν€μλλ₯Ό μ°Ύλ κ²μ λμ΄, νΉμ λ¨μ΄ μλ€ λ¬Έλ§₯μ 보거λ μ¬λ¬ νμΌμ 건λ λ°λ λ±ηι«ηΊ§(high-level) κ²μ μ λ΅μ νμ΅νκ² λ©λλ€.
3. μ€ν κ²°κ³Ό λΆμ
ν μ€νΈ λ²€μΉλ§ν¬
μ°κ΅¬μ§μ μ§λ¬Έμ λν λ΅μ΄ λ¬Έμ νλμ μλ βλ¨μΌ λ¨κ³(Single-hop)β μ§λ¬Έ λ°μ΄ν°μ μΌλ‘λ NaturalQuestions(NQ), TriviaQA, PopQAλ₯Ό μ¬μ©νμ΅λλ€. λ μ€μνκ²λ, μ¬λ¬ λ¬Έμλ₯Ό μ€κ°λ©° μ 보λ₯Ό μ°κ²°ν΄μΌ νλ βλ€μ€ λ¨κ³(Multi-hop)β μ§λ¬Έ λ°μ΄ν°μ μΈ HotpotQA, 2WikiMultihopQA, MuSiQue, Bamboogleμ μ¬μ©νμ¬ λ³΅μ‘ν μΆλ‘ λ₯λ ₯μ ν μ€νΈνμ΅λλ€. μ¬μ©λ λ°μ΄ν°λ μ½ 2100λ§ κ°μ λ¬Έμκ° ν¬ν¨λ 2018λ μν€λ°±κ³Ό λ€νμ λλ€.
κΈ°μ‘΄ μ΅μ κΈ°μ λλΉ μ±λ₯
λ€μ€ λ¨κ³ μΆλ‘ μ΄ νμν HotpotQAμ κ°μ μ΄λ €μ΄ λ²€μΉλ§ν¬μμ GrepSeekμ κΈ°μ‘΄μ κ³ λ°λ μλ² λ©(Dense Embedding) κΈ°λ° κ²μ λͺ¨λΈλ€μ ν° νμΌλ‘ μμ°μ΅λλ€. νΉν μλ―Έμ μΌλ‘ μ μ¬νμ§λ§ μ€μ λ‘λ λ€λ₯Έ μν°ν°λ₯Ό νΌλνλ βμλ―Έμ νΌμ¬(Semantic Conflation)β μ€λ₯κ° μ¦μ μν©μμ, GrepSeekμ μ νν λ¨μ΄ ν¨ν΄μ λ§€μΉνλ λ₯λ ₯μ λ°νν΄ κΈ°μ‘΄ λͺ¨λΈλ€μ΄ μ€ν¨νλ λ¬Έμ λ€μ ν΄κ²°νμ΅λλ€. μλ₯Ό λ€μ΄ λΉμ·ν μ΄λ¦μ κ°μ§ λ μ¬λμ μ νν ꡬλ³νκ±°λ, νΉμ μ«μλ κΈ°νΈλ₯Ό ν¬ν¨ν μ λ°ν μ 보λ₯Ό μ°Ύμλ΄λ λ° λ°μ΄λ μ±λ₯(F1 μ μ κΈ°μ€)μ 보μμ΅λλ€.
μ£Όλͺ©ν λ§ν μ±κ³Ό
μ΄ λ Όλ¬Έμ κ°μ₯ ν° μ±κ³Ό μ€ νλλ 볡μ‘ν μΆλ‘ λ¬Έμ μμ κ²μ ν¨μ¨μ±κ³Ό μ νλλ₯Ό λμμ μ‘μλ€λ μ μ λλ€. λν, κ±°λν corpus(λ§λμΉ)μ λν΄ μ¬μ μ μΈλ±μ±μ ν νμ μμ΄ ν μ€νΈ νμΌλ§ μμΌλ©΄ μ¦μ κ²μμ΄ κ°λ₯νλ€λ μ μ μ μ¦νμ΅λλ€. μ΄λ λ©λͺ¨λ¦¬ μ¬μ©λμ ν¬κ² μ€μ΄κ³ , κ²μ μμ€ν ꡬμΆμ λλ λΉμ©κ³Ό μκ°μ νκΈ°μ μΌλ‘ μ κ°ν μ μμμ μμ¬ν©λλ€.
4. νκ³μ κ³Ό ν₯ν μ°κ΅¬ λ°©ν₯
μ μκ° μΈκΈν νκ³
μ μλ€μ GrepSeekμ΄ μλ²½νμ§ μμμ μΈμ νλ©°, νΉν λ°©λν corpus μ 체λ₯Ό μ²μλΆν° νμ΄μΌ νλ μΌλΆ 쿼리μμλ μΈλ±μ€ κΈ°λ° κ²μλ³΄λ€ μλκ° λ릴 μ μλ€κ³ μ§μ νμ΅λλ€. λν, μμ΄μ νΈκ° μμ±νλ μ Έ λͺ λ Ήμ΄μ μ€λ₯κ° μκ±°λ λΉν¨μ¨μ μΈ κ²½λ‘λ₯Ό νμνλ κ²½μ° κ³μ° 리μμ€κ° λλΉλ μ μμ΅λλ€. λ Όλ¬Έμ μμ£Ό κΈ΄ λ¬Έμ λ΄μμμ μ 보 μΆμΆμ΄λ, λΉμ ν ν μ€νΈκ° μλ ꡬ쑰νλ λ°μ΄ν° μ²λ¦¬μλ μΆκ°μ μΈ μ΅μ νκ° νμνλ€κ³ μΈκΈνμ΅λλ€.
κ°μ κ°λ₯ν μ
ν₯ν μ°κ΅¬μμλ ν μ€νΈ κ²μλΏλ§ μλλΌ μ΄λ―Έμ§λ ν, μ½λμ κ°μ λ©ν°λͺ¨λ¬ λ°μ΄ν°λ₯Ό μ§μ λ€λ£° μ μλ λͺ λ Ήμ΄ μΈνΈλ‘ νμ₯ν μ μμ΅λλ€. λν, κ²μ μλλ₯Ό λμ΄κΈ° μν΄ corpusλ₯Ό μ§λ₯μ μΌλ‘ μ€λ©(Sharding)νμ¬ λ³λ ¬ μ²λ¦¬νλ μμ§μ λ κ³ λννκ±°λ, μμ΄μ νΈκ° μμ μ κ²μ μ€μκ° νΌλλ°±μ ν΅ν΄ λͺ λ Ήμ΄λ₯Ό μ¦μ μμ νλ λ©μ»€λμ¦μ λμ νλ λ°©ν₯μΌλ‘ λ°μ ν κ²μ λλ€.
5. μ€λ¬΄ μ μ© κ°λ₯μ±
μ΄λμ λ°λ‘ μ μ© κ°λ₯?
μ΄ κΈ°μ μ λ°©λν λ‘κ·Έ νμΌμ΄λ μμ€ μ½λ μ μ₯μ, λ²λ₯ λ¬Έμ, μλ£ κΈ°λ‘ λ±μμ μ λ°ν μ 보λ₯Ό μ°ΎμμΌ νλ κΈ°μ νκ²½μ λ§€μ° μ ν©ν©λλ€. μλ₯Ό λ€μ΄, κ°λ°μκ° μμ² κ°μ λ‘κ·Έ νμΌμμ νΉμ μλ¬ μ½λκ° λ°μν μμ μ νμ λ¬Έλ§₯μ μ νν νμ ν΄μΌ ν λ, λ¨μ ν€μλ κ²μμ΄ μλ GrepSeek μμ΄μ νΈμκ² βμλ¬ μ½λ Aκ° λ°μνκ³ 5μ΄ λ€μ μ½λ Bκ° νΈμΆλ λ‘κ·Έλ₯Ό μ°Ύμμ€βλΌκ³ μμ²νλ©΄ μ νν μμΈ λΆμμ΄ κ°λ₯ν΄μ§λλ€.
νμν 리μμ€
μ΄ μμ€ν μ ꡬλνλ €λ©΄ Qwen 3.5μ κ°μ μ±λ₯μ΄ μ’μ κ±°λ μΈμ΄ λͺ¨λΈ(LLM)μ΄ νμνλ©°, λ Όλ¬Έμμλ 90μ΅(9B) κ°μμ 270μ΅(27B) κ°μ νλΌλ―Έν°λ₯Ό κ°μ§ λͺ¨λΈμ μ¬μ©νμ΅λλ€. λν, ν μ€νΈ νμΌμ μ μ₯νκ³ κ²μ λͺ λ Ήμ΄λ₯Ό μ€νν μ μλ 리λ μ€ κΈ°λ°μ μλ² νκ²½μ΄ κ΅¬μΆλμ΄μΌ ν©λλ€. νμ΅ κ³Όμ μ μλΉν GPU μ°μ° μμμ μλͺ¨ν μ μμ§λ§, μΌλ¨ νμ΅λ λͺ¨λΈμ μΆλ‘ λ§ ν λλ μλμ μΌλ‘ μ μ μμμΌλ‘λ κ³ νμ§μ κ²μμ΄ κ°λ₯ν©λλ€.
6. μ΄ λ Όλ¬Έμ μ΄ν΄νκΈ° μν μ¬μ μ§μ
- RAG (Retrieval-Augmented Generation): μΈμ΄ λͺ¨λΈμ΄ μΈλΆμ μ΅μ μ 보λ μ¬μ€μ κ²μνμ¬ λ΅λ³μ μμ±νλ κΈ°μ λ‘, λͺ¨λΈμ΄ μμ§ λͺ»νλ μ 보λ λ΅ν μ μκ² ν΄μ€λλ€.
- LLM Agent (Large Language Model Agent): λ¨μν ν μ€νΈλ₯Ό μμ±νλ κ²μ λμ΄, μ€μ€λ‘ μκ°νκ³ λꡬ(κ³μ°κΈ°, κ²μ μμ§ λ±)λ₯Ό μ¬μ©νμ¬ μ¬μ©μμ λͺ©νλ₯Ό λ¬μ±νλ μμ€ν μ λλ€.
- Unix Shell Commands: 리λ
μ€ μ΄μ체μ μμ ν
μ€νΈλ₯Ό μ²λ¦¬νκ³ νμΌμ λ€λ£¨λ λͺ
λ Ήμ΄λ€λ‘,
grep(ν¨ν΄ μ°ΎκΈ°),awk(λ°μ΄ν° μΆμΆ),sed(νΈμ§) λ±μ΄ λνμ μ λλ€. - Reinforcement Learning (κ°ν νμ΅): μμ΄μ νΈκ° νκ²½κ³Ό μνΈμμ©νλ©° 보μμ ν΅ν΄ μ΅μ μ νλ μ λ΅μ μ€μ€λ‘ νμ΅νλ λ¨Έμ λ¬λμ ν λ°©μμ λλ€.
- GRPO (Group Relative Policy Optimization): κ°ν νμ΅μ ν¨μ¨μ λμ΄κΈ° μν΄ μ¬λ¬ ν보 κ΅°μ λΉκ΅νμ¬ μ μ± μ μ λ°μ΄νΈνλ μ΅μ μ΅μ ν μκ³ λ¦¬μ¦μ λλ€.
- Multi-hop Reasoning (λ€μ€ λ¨κ³ μΆλ‘ ): λ΅μ μ»κΈ° μν΄ ν λ²μ κ²μμΌλ‘ λλμ§ μκ³ , μ°Ύμ μ 보λ₯Ό λ°νμΌλ‘ λ€μ κ²μνκ³ μΆλ‘ μ κ±°λν΄μΌ νλ 볡μ‘ν μ¬κ³ κ³Όμ μ λ§ν©λλ€.
- Dense Retrieval (κ³ λ°λ κ²μ): ν μ€νΈλ₯Ό μ«μλ‘ λ 벑ν°λ‘ λ³ννμ¬ λ²‘ν° κ°μ μ μ¬λλ₯Ό κ³μ°ν΄ κ΄λ ¨ λ¬Έμλ₯Ό μ°Ύλ μ΅μ κ²μ λ°©μμ λλ€.
π μ΄λ² μ£Ό κ΄λ ¨ Deep Dive
| μμ | λ Όλ¬Έ | Deep Dive |
|---|---|---|
| π₯ | Crafter: A Multi-Agent Harness for β¦ | DD-102 |
| π₯ | On the Scaling of PEFT: Towards Milβ¦ | DD-103 |
| π₯ | Domino: Decoupling Causal Modeling β¦ | DD-104 |
| 4. | COLLEAGUE.SKILL: Automated AI Skill⦠| DD-105 |
| 5. | GrepSeek: Training Search Agents foβ¦ | π νμ¬ λ¬Έμ |
π μμ±μΌ: 2026-06-07 | π€ GLM-4.7 Deep Dive