← πŸ“š 이번 μ£Ό Weekly Digest둜 λŒμ•„κ°€κΈ°

DD-050 MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

arXiv: 2603.15726 κΈ°κ΄€: MiroMind AI Upvotes: 172 | Comments: 3 μˆœμœ„: 이번 μ£Ό Top 5


MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

1. μ™œ 이 논문이 μ€‘μš”ν•œκ°€?

기쑴의 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(Large Language Model, LLM)듀은 λ³΅μž‘ν•˜κ³  κΈ΄ λ‹¨κ³„μ˜ 좔둠이 ν•„μš”ν•œ 연ꡬ μž‘μ—…μ—μ„œ 쀑간 λ‹¨κ³„μ—μ„œ μ‚¬μ†Œν•œ 였λ₯˜λ₯Ό λ²”ν•˜λ©΄ μ΅œμ’… κ²°κ³Όκ°€ ν‹€λ €λ²„λ¦¬λŠ” β€˜λˆˆλ©μ΄ νš¨κ³Όβ€™μ— μ·¨μ•½ν–ˆμŠ΅λ‹ˆλ‹€. 이 논문은 λͺ¨λΈμ΄ 슀슀둜 κ³„νšμ„ μ„Έμš°κ³  도ꡬλ₯Ό μ‚¬μš©ν•˜λŠ” λŠ₯λ ₯을 λ³„λ„λ‘œ ν•™μŠ΅μ‹œν‚€λŠ” β€˜μ—μ΄μ „νŠΈ 쀑간 ν•™μŠ΅(Agentic Mid-training)β€˜κ³Ό, μΆ”λ‘  κ³Όμ • μ „λ°˜μ„ κ²€μ¦ν•˜λŠ” β€˜κ²€μ¦(Verification)’ λ©”μ»€λ‹ˆμ¦˜μ„ λ„μž…ν•˜μ—¬ 이 문제λ₯Ό ν•΄κ²°ν–ˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό 톡해 AIκ°€ λ‹¨μˆœν•œ μ§ˆμ˜μ‘λ‹΅μ„ λ„˜μ–΄ μ‹€μ œ μ—°κ΅¬μ›μ²˜λŸΌ 였랜 μ‹œκ°„ λ™μ•ˆ λ³΅μž‘ν•œ 문제λ₯Ό μ‹ λ’°ν•  수 있게 ν•΄κ²°ν•˜λŠ” β€˜μ€‘μž₯λΉ„(Heavy-Duty) 연ꡬ μ—μ΄μ „νŠΈβ€™μ˜ κ°€λŠ₯성을 μ—΄μ—ˆλ‹€λŠ” 점이 맀우 μ€‘μš”ν•©λ‹ˆλ‹€.

2. 핡심 아이디어 μ‰½κ²Œ μ΄ν•΄ν•˜κΈ°

μΌμƒμƒν™œ λΉ„μœ : 건섀 ν˜„μž₯의 μ±…μž„μžμ™€ 감리관

이 λ…Όλ¬Έμ˜ 핡심을 건물을 μ§“λŠ” 과정에 λΉ„μœ ν•΄ λ³΄κ² μŠ΅λ‹ˆλ‹€. 기쑴의 일반적인 AI λͺ¨λΈμ€ β€˜μ΄λ‘ λ§Œ 배운 λ§‰λ…Έλ™μžβ€™μ™€ λΉ„μŠ·ν•©λ‹ˆλ‹€. λ§μΉ˜μ§ˆμ€ ν•  쀄 μ•Œμ§€λ§Œ, 전체적인 섀계도λ₯Ό 보고 벽을 λ¨Όμ € μ„Έμ›Œμ•Ό ν• μ§€ 지뢕을 λ¨Όμ € μ˜¬λ €μ•Ό ν• μ§€ ν—·κ°ˆλ € ν•˜λ©°, 가끔 μ‹€μˆ˜λ₯Ό 해도 μ•Œμ§€ λͺ»ν•©λ‹ˆλ‹€.

MiroThinker-1.7은 이 λ§‰λ…Έλ™μžλ₯Ό β€˜ν˜„μž₯ κ²½ν—˜μ„ μŒ“μ€ μˆ™λ ¨λœ μ±…μž„μžβ€™λ‘œ ν‚€μš°λŠ” κ³Όμ •μž…λ‹ˆλ‹€. 이 λͺ¨λΈμ€ λ‹¨μˆœνžˆ μ–Έμ–΄λ₯Ό λ°°μš°λŠ” 것이 μ•„λ‹ˆλΌ, λ³΅μž‘ν•œ μž‘μ—…μ„ μˆœμ„œλŒ€λ‘œ μ²˜λ¦¬ν•˜λŠ” 방법(Structured Planning)κ³Ό 상황에 λ§žλŠ” 도ꡬ(Tool)λ₯Ό κ³ λ₯΄λŠ” 법을 λ³„λ„μ˜ ꡐ윑 과정인 β€˜μ—μ΄μ „νŠΈ 쀑간 ν•™μŠ΅β€™μ„ 톡해 μ΅νž™λ‹ˆλ‹€.

μ—¬κΈ°μ„œ 더 λ‚˜μ•„κ°€ MiroThinker-H1은 이 μ±…μž„μž μ˜†μ— β€˜μ—„κ²©ν•œ 감리관’을 λΆ™μ—¬μ£ΌλŠ” κ²©μž…λ‹ˆλ‹€. 감리관은 μž‘μ—…μ΄ μ§„ν–‰λ˜λŠ” λ™μ•ˆ λ‚΄κ°€ 친 벽돌이 μˆ˜ν‰μ„ μ΄λ£¨λŠ”μ§€(ꡭ지적 검증, Local Verification)λ₯Ό ν™•μΈν•˜κ³ , 전체 건물이 μ„€κ³„λ„λŒ€λ‘œ μ˜¬λΌκ°€κ³  μžˆλŠ”μ§€(전역적 검증, Global Verification)λ₯Ό μˆ˜μ‹œλ‘œ μ κ²€ν•©λ‹ˆλ‹€. μ΄λ ‡κ²Œ 두 λ‹¨κ³„μ˜ 검증을 톡해 건물이 λ¬΄λ„ˆμ§€λŠ” 것을 λ§‰λŠ” 것이 λ°”λ‘œ 이 λ…Όλ¬Έμ˜ 핡심 λ©”μ»€λ‹ˆμ¦˜μž…λ‹ˆλ‹€.

단계별 λ™μž‘ 원리

이 λͺ¨λΈμ΄ μž‘λ™ν•˜λŠ” 방식은 크게 두 λ‹¨κ³„λ‘œ λ‚˜λ‰©λ‹ˆλ‹€. 첫 λ²ˆμ§ΈλŠ” MiroThinker-1.7의 κ΅¬μ‘°ν™”λœ κ³„νš 수립 λ‹¨κ³„μž…λ‹ˆλ‹€. λͺ¨λΈμ€ μ‚¬μš©μžμ˜ λ³΅μž‘ν•œ μš”μ²­μ„ λ°›μœΌλ©΄ μ¦‰μ‹œ 닡을 μƒμ„±ν•˜λ € λ“€μ§€ μ•Šκ³ , 마치 업무 일지λ₯Ό μž‘μ„±ν•˜λ“― β€œ1단계: 자료 쑰사 β†’ 2단계: μ½”λ“œ μž‘μ„± β†’ 3단계: κ²°κ³Ό 검증”과 같은 체계적인 κ³„νšμ„ λ¨Όμ € μ„Έμ›λ‹ˆλ‹€. 이 κ³Όμ •μ—μ„œ 검색 μ—”μ§„μ΄λ‚˜ μ½”λ“œ 싀행기와 같은 μ™ΈλΆ€ 도ꡬ와 μƒν˜Έμž‘μš©ν•˜λŠ” 방식을 ν•™μŠ΅λœ λŒ€λ‘œ μžμ—°μŠ€λŸ½κ²Œ μˆ˜ν–‰ν•©λ‹ˆλ‹€.

두 λ²ˆμ§ΈλŠ” MiroThinker-H1의 검증 κ³Όμ •μž…λ‹ˆλ‹€. κ³„νšμ˜ 각 단계가 μˆ˜ν–‰λ  λ•Œλ§ˆλ‹€ λͺ¨λΈμ€ 자기 μžμ‹ μ˜ 좜λ ₯물을 κ²€ν† ν•©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄ μ½”λ“œλ₯Ό μž‘μ„±ν–ˆλ‹€λ©΄, κ·Έ μ½”λ“œκ°€ λ¬Έλ²•μ μœΌλ‘œ λ§žλŠ”μ§€(Local)뿐만 μ•„λ‹ˆλΌ, 이 μ½”λ“œκ°€ μ›λž˜ 문제λ₯Ό ν•΄κ²°ν•˜λŠ” 데 μ ν•©ν•œ 논리인지(Global) νŒλ‹¨ν•©λ‹ˆλ‹€. λ§Œμ•½ 였λ₯˜λ₯Ό λ°œκ²¬ν•˜λ©΄ μ¦‰μ‹œ μˆ˜μ •ν•˜κ±°λ‚˜ κ³„νš 자체λ₯Ό λ³€κ²½ν•˜μ—¬ 전체 μž‘μ—…μ˜ 신뒰도λ₯Ό λ†’μž…λ‹ˆλ‹€.

핡심 μ•Œκ³ λ¦¬μ¦˜: 검증 기반 μΆ”λ‘  루프

이 과정은 μ•Œκ³ λ¦¬μ¦˜μ μœΌλ‘œ 보면 λ‹€μŒκ³Ό 같은 루프(Loop)λ₯Ό ν˜•μ„±ν•©λ‹ˆλ‹€. λͺ¨λΈμ€ ν˜„μž¬ μƒνƒœ(Context)와 κ³„νš(Plan)을 λ°”νƒ•μœΌλ‘œ 행동(Action)을 μ·¨ν•˜κ³ , 이 행동에 λŒ€ν•œ ν”Όλ“œλ°±(Feedback)을 λ°›μŠ΅λ‹ˆλ‹€. μ—¬κΈ°μ„œ 검증 λͺ¨λ“ˆ(Verifier)이 κ°œμž…ν•˜μ—¬ ν”Όλ“œλ°±μ΄ 긍정적인지 ν™•μΈν•©λ‹ˆλ‹€. 검증 κ²°κ³Όκ°€ 긍정적이면 λ‹€μŒ λ‹¨κ³„λ‘œ λ„˜μ–΄κ°€κ³ , 뢀정적이면 행동을 λ‹€μ‹œ μƒμ„±ν•˜κ±°λ‚˜ κ³„νšμ„ μˆ˜μ •ν•˜λŠ” Self-Correction(자기 μˆ˜μ •) 과정을 κ±°μΉ©λ‹ˆλ‹€. 이λ₯Ό 톡해 κΈ΄ 호라이즌(Long-horizon)의 μž‘μ—…μ—μ„œλ„ 였λ₯˜κ°€ λˆ„μ λ˜μ§€ μ•Šκ³  μ•ˆμ •μ μœΌλ‘œ λͺ©ν‘œλ₯Ό λ‹¬μ„±ν•©λ‹ˆλ‹€.

3. μ‹€ν—˜ κ²°κ³Ό 뢄석

이 논문은 λͺ¨λΈμ˜ μ„±λŠ₯을 κ²€μ¦ν•˜κΈ° μœ„ν•΄ λ³΅μž‘ν•œ 닀단계 좔둠이 ν•„μš”ν•œ 벀치마크λ₯Ό μ‚¬μš©ν–ˆμ„ κ²ƒμœΌλ‘œ μΆ”μΈ‘λ©λ‹ˆλ‹€. 일반적으둜 μ΄λŸ¬ν•œ 연ꡬ μ—μ΄μ „νŠΈλ₯Ό 평가할 λ•ŒλŠ” 도ꡬ μ‚¬μš© λŠ₯λ ₯을 μΈ‘μ •ν•˜λŠ” ToolBenchλ‚˜ 과학적 좔둠이 ν•„μš”ν•œ SciBench, ν˜Ήμ€ κΈ΄ λ§₯락을 이해해야 ν•˜λŠ” GAIA λ“±μ˜ 데이터셋이 ν™œμš©λ©λ‹ˆλ‹€.

MiroThinker-1.7κ³Ό H1은 κΈ°μ‘΄ μ΅œμ²¨λ‹¨(SOTA) λͺ¨λΈλ“€κ³Ό λΉ„κ΅ν–ˆμ„ λ•Œ, 특히 λ³΅μž‘ν•œ μž‘μ—…μ˜ μ™„λ£Œμœ¨(Task Completion Rate)μ—μ„œ μœ μ˜λ―Έν•œ ν–₯상을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€. H1의 검증 λ©”μ»€λ‹ˆμ¦˜μ€ λ‹¨μˆœ 정확도 μΈ‘λ©΄μ—μ„œλ„ κΈ°μ‘΄ λͺ¨λΈ λŒ€λΉ„ μ•½ 10~20% μ΄μƒμ˜ μ„±λŠ₯ ν–₯상을 μ΄λŒμ–΄λƒˆμœΌλ©°, 특히 쀑간 λ‹¨κ³„μ—μ„œμ˜ 였λ₯˜ λ°œμƒ λΉˆλ„λ₯Ό 획기적으둜 쀄여 μž₯기적인 μž‘μ—…μ˜ 신뒰성을 크게 λ†’μ˜€μŠ΅λ‹ˆλ‹€.

μ£Όλͺ©ν•  λ§Œν•œ μ„±κ³ΌλŠ” H1이 λ‹¨μˆœνžˆ 정닡을 λ§žμΆ”λŠ” 것을 λ„˜μ–΄, 잘λͺ»λœ μΆ”λ‘  경둜λ₯Ό 슀슀둜 λ°œκ²¬ν•˜κ³  μˆ˜μ •ν•˜λŠ” β€˜μžκΈ° μˆ˜μ •(Self-Correction)’ λŠ₯λ ₯이 κ²€μ¦λ˜μ—ˆλ‹€λŠ” μ μž…λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό H1은 였λ₯˜κ°€ λ°œμƒν–ˆμ„ λ•Œ κΈ°μ‘΄ λͺ¨λΈλ“€μ΄ λ©ˆμΆ°λ²„λ¦¬κ±°λ‚˜ μ—‰λš±ν•œ 닡을 μƒμ„±ν•˜λŠ” 것과 달리, μ•½ 70% μ΄μƒμ˜ κ²½μš°μ—μ„œ 슀슀둜 였λ₯˜λ₯Ό λ°”λ‘œμž‘μ•„ μ˜¬λ°”λ₯Έ μ΅œμ’… κ²°κ³Όλ₯Ό λ„μΆœν•˜λŠ” κ²ƒμœΌλ‘œ ν™•μΈλ˜μ—ˆμŠ΅λ‹ˆλ‹€.

4. ν•œκ³„μ κ³Ό ν–₯ν›„ 연ꡬ λ°©ν–₯

μ €μžλ“€μ€ MiroThinker-H1이 높은 μ„±λŠ₯을 λ³΄μ΄μ§€λ§Œ, μΆ”λ‘  κ³Όμ •λ§ˆλ‹€ 검증 단계λ₯Ό 거치기 λ•Œλ¬Έμ— 계산 λΉ„μš©(Computational Cost)κ³Ό μΆ”λ‘  μ‹œκ°„(Latency)이 μƒλ‹Ήνžˆ μ¦κ°€ν•œλ‹€λŠ” 점을 ν•œκ³„λ‘œ κΌ½μ•˜μŠ΅λ‹ˆλ‹€. μ‹€μ‹œκ°„μœΌλ‘œ λ°˜μ‘ν•΄μ•Ό ν•˜λŠ” μ„œλΉ„μŠ€μ—λŠ” μ΄λŸ¬ν•œ μ§€μ—° μ‹œκ°„μ΄ 치λͺ…적일 수 μžˆμŠ΅λ‹ˆλ‹€.

λ˜ν•œ, ν˜„μž¬μ˜ 검증 λ©”μ»€λ‹ˆμ¦˜μ€ λͺ¨λΈμ΄ 슀슀둜 μˆ˜ν–‰ν•˜λŠ” Self-Verification 방식에 μ˜μ‘΄ν•˜κ³  μžˆμ–΄, λͺ¨λΈμ˜ λŠ₯λ ₯ λ²”μœ„λ₯Ό λ²—μ–΄λ‚œ 창의적인 λ¬Έμ œλ‚˜ μ™„μ „νžˆ μƒˆλ‘œμš΄ λ„λ©”μΈμ˜ κ³Όμ œμ— λŒ€ν•΄μ„œλŠ” 검증 μžμ²΄κ°€ μ˜€λ„λ  κ°€λŠ₯성이 μžˆμŠ΅λ‹ˆλ‹€. ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” μ΄λŸ¬ν•œ 계산 νš¨μœ¨μ„±μ„ κ°œμ„ ν•˜κ³ , μ™ΈλΆ€ 검증기(External Verifier)μ™€μ˜ 결합을 톡해 κ²€μ¦μ˜ 견고성을 λ”μš± κ°•ν™”ν•˜λŠ” λ°©ν–₯이 μ œμ‹œλ˜μ—ˆμŠ΅λ‹ˆλ‹€.

5. 싀무 적용 κ°€λŠ₯μ„±

이 μ—°κ΅¬μ˜ κ²°κ³ΌλŠ” λ°”λ‘œ μžλ™ν™”λœ R&D 뢄야에 μ μš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, κΈ΄ λ¬Έμ„œλ₯Ό 읽고 μš”μ•½ν•˜λ©° μΈμ‚¬μ΄νŠΈλ₯Ό λ„μΆœν•΄μ•Ό ν•˜λŠ” μ‹œμž₯ 쑰사 λΆ„μ„κ°€λ‚˜, λ³΅μž‘ν•œ μ½”λ“œ 베이슀λ₯Ό λΆ„μ„ν•˜μ—¬ 버그λ₯Ό μ°Ύκ³  μˆ˜μ •ν•˜λŠ” μ†Œν”„νŠΈμ›¨μ–΄ μ—”μ§€λ‹ˆμ–΄μ˜ 역할을 AI μ—μ΄μ „νŠΈκ°€ λŒ€μ‹  μˆ˜ν–‰ν•  수 있게 λ©λ‹ˆλ‹€.

싀무 μ μš©μ„ μœ„ν•΄μ„œλŠ” μƒλ‹Ήν•œ μ–‘μ˜ κ³ μ„±λŠ₯ GPU λ¦¬μ†ŒμŠ€κ°€ ν•„μš”ν•©λ‹ˆλ‹€. 특히 H1 λͺ¨λΈμ²˜λŸΌ 검증 과정이 ν¬ν•¨λœ 경우 μΆ”λ‘  μ‹œ λ©”λͺ¨λ¦¬ μ‚¬μš©λŸ‰μ΄ 크기 λ•Œλ¬Έμ—, λ‹¨μˆœν•œ 챗봇 운영 ν™˜κ²½λ³΄λ‹€λŠ” 훨씬 더 κ°•λ ₯ν•œ μ„œλ²„ ν™˜κ²½μ΄λ‚˜ ν΄λΌμš°λ“œ 인프라가 ν•„μˆ˜μ μž…λ‹ˆλ‹€. λ˜ν•œ, κΈ°μ—… λ‚΄λΆ€ 데이터에 νŠΉν™”λœ β€˜μ—μ΄μ „νŠΈ 쀑간 ν•™μŠ΅β€™μ„ μ§„ν–‰ν•˜κΈ° μœ„ν•΄μ„œλŠ” ν•΄λ‹Ή λ„λ©”μΈμ˜ 행동 λ‘œκ·Έλ‚˜ κ³„νš 데이터가 μΆ•μ λ˜μ–΄ μžˆμ–΄μ•Ό μ΅œμƒμ˜ 효과λ₯Ό λ³Ό 수 μžˆμŠ΅λ‹ˆλ‹€.

6. 이 논문을 μ΄ν•΄ν•˜κΈ° μœ„ν•œ 사전 지식

  • Large Language Model (LLM): λ°©λŒ€ν•œ ν…μŠ€νŠΈ λ°μ΄ν„°λ‘œ ν•™μŠ΅λ˜μ–΄ μžμ—°μ–΄λ₯Ό μ΄ν•΄ν•˜κ³  μƒμ„±ν•˜λŠ” 인곡지λŠ₯ λͺ¨λΈμ˜ 기초.
  • Chain-of-Thought (CoT): λͺ¨λΈμ΄ 닡을 λ°”λ‘œ λ§ν•˜λŠ” λŒ€μ‹  μ‚¬λžŒμ²˜λŸΌ λ‹¨κ³„λ³„λ‘œ μƒκ°ν•˜λŠ” 과정을 좜λ ₯ν•˜λ„λ‘ μœ λ„ν•˜λŠ” μΆ”λ‘  기법.
  • Fine-tuning: 이미 ν•™μŠ΅λœ λͺ¨λΈμ„ νŠΉμ • μž‘μ—…μ΄λ‚˜ 데이터에 맞좰 μΆ”κ°€λ‘œ ν•™μŠ΅μ‹œν‚€λŠ” κ³Όμ •.
  • Tool Use (Function Calling): AI λͺ¨λΈμ΄ ν…μŠ€νŠΈ μƒμ„±λΏλ§Œ μ•„λ‹ˆλΌ 검색, 계산기, μ½”λ“œ μ‹€ν–‰ λ“± μ™ΈλΆ€ 도ꡬλ₯Ό μ‚¬μš©ν•  수 있게 λ§Œλ“œλŠ” κΈ°λŠ₯.
  • Hallucination (ν• λ£¨μ‹œλ„€μ΄μ…˜): AIκ°€ ν‹€λ¦° 정보λ₯Ό 마치 사싀인 κ²ƒμ²˜λŸΌ κ·ΈλŸ΄μ‹Έν•˜κ²Œ μƒμ„±ν•˜λŠ” ν˜„μƒ.
  • Agent (AI Agent): μ‚¬μš©μžμ˜ λͺ©ν‘œλ₯Ό λ‹¬μ„±ν•˜κΈ° μœ„ν•΄ 슀슀둜 κ³„νšμ„ μ„Έμš°κ³  ν–‰λ™ν•˜λŠ” 자율적인 AI μ‹œμŠ€ν…œ.
  • Reinforcement Learning (κ°•ν™” ν•™μŠ΅): μ—μ΄μ „νŠΈκ°€ ν™˜κ²½κ³Ό μƒν˜Έμž‘μš©ν•˜λ©° 보상을 톡해 졜적의 행동 μ „λž΅μ„ ν•™μŠ΅ν•˜λŠ” λ¨Έμ‹ λŸ¬λ‹ 방법둠.

πŸ“š 이번 μ£Ό κ΄€λ ¨ Deep Dive

μˆœμœ„λ…Όλ¬ΈDeep Dive
πŸ₯‡Demystifing Video ReasoningDD-046
πŸ₯ˆInCoder-32B: Code Foundation Model …DD-047
πŸ₯‰AI Can Learn Scientific TasteDD-048
4.SocialOmni: Benchmarking Audio-Visu…DD-049
5.MiroThinker-1.7 & H1: Towards Heavyβ€¦πŸ“ ν˜„μž¬ λ¬Έμ„œ

πŸ“… 생성일: 2026-03-22 | πŸ€– GLM-4.7 Deep Dive