← πŸ“š 이번 μ£Ό Weekly Digest둜 λŒμ•„κ°€κΈ°

DD-066 Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

arXiv: 2604.06628 κΈ°κ΄€: AI45Research Upvotes: 228 | Comments: 6 μˆœμœ„: 이번 μ£Ό Top 3


λ…Όλ¬Έ 뢄석: Rethinking Generalization in Reasoning SFT

1. μ™œ 이 논문이 μ€‘μš”ν•œκ°€?

기쑴의 지도 ν•™μŠ΅(SFT) 방식은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)이 μΆ”λ‘  λŠ₯λ ₯을 κΈ°λ₯΄λŠ” 데 효과적이라고 μ•Œλ €μ Έ μžˆμ—ˆμ§€λ§Œ, μ™œ νŠΉμ • μƒν™©μ—μ„œλŠ” μ„±λŠ₯이 κΈ‰κ²©νžˆ λ–¨μ–΄μ§€λŠ”μ§€ κ·Έ 원인이 λͺ…ν™•ν•˜μ§€ μ•Šμ•˜μŠ΅λ‹ˆλ‹€. 이 논문은 μ΅œμ ν™”(Optimization), 데이터(Data), λͺ¨λΈ λŠ₯λ ₯(Model Capability)μ΄λΌλŠ” μ„Έ κ°€μ§€ λ³€μˆ˜κ°€ μƒν˜Έμž‘μš©ν•˜λŠ” 방식을 μ²΄κ³„μ μœΌλ‘œ λΆ„μ„ν•˜μ—¬, λ‹¨μˆœνžˆ λ°μ΄ν„°λ§Œ 많이 λ„£λŠ” 것이 μ•„λ‹ˆλΌ λͺ¨λΈμ˜ 규λͺ¨μ™€ 데이터 λ‚œμ΄λ„λ₯Ό μ •κ΅ν•˜κ²Œ λ§€μΉ­ν•΄μ•Ό 함을 λ°ν˜€λƒˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” μ—°κ΅¬μžλ“€μ΄ μΆ”λ‘  νŠΉν™” λͺ¨λΈμ„ κ°œλ°œν•  λ•Œ λΆˆν•„μš”ν•œ 계산 λΉ„μš©μ„ λ‚­λΉ„ν•˜μ§€ μ•Šκ³ , 효율적으둜 μΌλ°˜ν™” μ„±λŠ₯을 λŒμ–΄μ˜¬λ¦΄ 수 μžˆλŠ” 섀계 지침을 μ œμ‹œν–ˆλ‹€λŠ” μ μ—μ„œ 맀우 μ€‘μš”ν•©λ‹ˆλ‹€.

2. 핡심 아이디어 μ‰½κ²Œ μ΄ν•΄ν•˜κΈ°

μš”λ¦¬μ‚¬ λ ˆμ‹œν”Ό ν•™μŠ΅ λΉ„μœ 

이 λ…Όλ¬Έμ˜ 핡심을 β€˜μš”λ¦¬μ‚¬ λ ˆμ‹œν”Ό μ™Έμš°κΈ°β€™μ— λΉ„μœ ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 초보 μš”λ¦¬μ‚¬(μž‘μ€ λͺ¨λΈ)μ—κ²Œ 미쉐린 μ…°ν”„κΈ‰μ˜ λ³΅μž‘ν•œ λ ˆμ‹œν”Ό(μ–΄λ €μš΄ μΆ”λ‘  데이터)λ₯Ό 던져주면, κ·ΈλŠ” λ§›μžˆλŠ” μš”λ¦¬λ₯Ό ν•˜λŠ” 원리λ₯Ό μ΄ν•΄ν•˜μ§€ λͺ»ν•˜κ³  κ·Έμ € μ•”κΈ°ν•˜λ €κ³ λ§Œ ν•©λ‹ˆλ‹€. 결과적으둜 쑰금만 μž¬λ£Œκ°€ 달라져도(μƒˆλ‘œμš΄ 문제) μš”λ¦¬λ₯Ό 망치게 λ©λ‹ˆλ‹€. 반면, 이미 μˆ™λ ¨λœ μš”λ¦¬μ‚¬(큰 λͺ¨λΈ)μ—κ²ŒλŠ” λ³΅μž‘ν•œ λ ˆμ‹œν”Όκ°€ μƒˆλ‘œμš΄ κΈ°μˆ μ„ μŠ΅λ“ν•˜λŠ” 데 큰 도움이 λ©λ‹ˆλ‹€.

이 논문은 β€œλˆ„κ΅¬μ—κ²Œ(λͺ¨λΈ λŠ₯λ ₯), μ–΄λ–€ λ ˆμ‹œν”Όλ₯Ό(데이터), μ–Όλ§ˆλ‚˜ 강도 λ†’κ²Œ ν›ˆλ ¨μ‹œμΌœμ•Ό(μ΅œμ ν™”) ν•˜λŠ”κ°€β€λΌλŠ” 상관관계λ₯Ό μˆ˜ν•™μ μœΌλ‘œ 증λͺ…ν–ˆμŠ΅λ‹ˆλ‹€. 즉, λͺ¨λΈμ˜ ν˜„μž¬ μ‹€λ ₯에 λ§žμ§€ μ•ŠλŠ” λ„ˆλ¬΄ μ–΄λ €μš΄ ν›ˆλ ¨μ€ 였히렀 독이 λœλ‹€λŠ” 것을 κΉ¨λ‹¬μ•˜μŠ΅λ‹ˆλ‹€.

단계별 λ™μž‘ 방식

λ…Όλ¬Έμ—μ„œ μ œμ•ˆν•˜λŠ” 뢄석 ν”„λ ˆμž„μ›Œν¬λŠ” 크게 μ„Έ λ‹¨κ³„λ‘œ μž‘λ™ν•©λ‹ˆλ‹€. 첫째, λ‹€μ–‘ν•œ 크기의 λͺ¨λΈ(νŒŒλΌλ―Έν„° 수 1μ–΅μ—μ„œ 700μ–΅ 개 λ“±)을 μ€€λΉ„ν•©λ‹ˆλ‹€. λ‘˜μ§Έ, μˆ˜ν•™μ΄λ‚˜ μ½”λ”© λ¬Έμ œμ™€ 같은 μΆ”λ‘  데이터λ₯Ό λ‚œμ΄λ„λ³„λ‘œ λΆ„λ₯˜ν•˜μ—¬ λͺ¨λΈμ— ν•™μŠ΅μ‹œν‚΅λ‹ˆλ‹€. μ΄λ•Œ λ‹¨μˆœνžˆ 정닡을 λ§žνžˆλŠ” κ²ƒλΏλ§Œ μ•„λ‹ˆλΌ 풀이 κ³Όμ •(Chain-of-Thought)을 μ–Όλ§ˆλ‚˜ 잘 λ”°λΌκ°€λŠ”μ§€λ₯Ό μ΅œμ ν™” λͺ©μ μœΌλ‘œ μ„€μ •ν•©λ‹ˆλ‹€. μ…‹μ§Έ, ν•™μŠ΅μ— μ‚¬μš©ν•˜μ§€ μ•Šμ€ μ „ν˜€ μƒˆλ‘œμš΄ μœ ν˜•μ˜ 문제(Out-of-Distribution)λ₯Ό ν’€κ²Œ ν•˜μ—¬, λͺ¨λΈμ΄ μ§„μ§œλ‘œ 논리λ₯Ό κΉ¨μ³€λŠ”μ§€ μ•„λ‹ˆλ©΄ λ‹¨μˆœνžˆ μ•”κΈ°ν–ˆλŠ”μ§€λ₯Ό ν‰κ°€ν•©λ‹ˆλ‹€.

핡심 μ•Œκ³ λ¦¬μ¦˜κ³Ό 발견

μ €μžλ“€μ€ 손싀 ν•¨μˆ˜(Loss Function)의 κ΄€μ μ—μ„œ 이λ₯Ό λΆ„μ„ν–ˆμŠ΅λ‹ˆλ‹€. λͺ¨λΈμ˜ νŒŒλΌλ―Έν„° μˆ˜κ°€ 적을 λ•ŒλŠ” ν•™μŠ΅ λ°μ΄ν„°μ˜ 손싀은 μ€„μ–΄λ“€μ§€λ§Œ ν…ŒμŠ€νŠΈ λ°μ΄ν„°μ˜ 손싀은 쀄어듀지 μ•ŠλŠ” β€˜κ³Όμ ν•©(Overfitting)’ ν˜„μƒμ΄ μ‰½κ²Œ λ°œμƒν•¨μ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€. λ°˜λŒ€λ‘œ μΆ©λΆ„νžˆ 큰 λͺ¨λΈμ€ λ°μ΄ν„°μ˜ 뢄포λ₯Ό λ²—μ–΄λ‚œ λ¬Έμ œμ—μ„œλ„ 손싀이 일정 μˆ˜μ€€ μ΄ν•˜λ‘œ λ–¨μ–΄μ§€λŠ” β€˜λ‹¨κ³„μ  전이(Phase Transition)’ ν˜„μƒμ„ λ³΄μ˜€μŠ΅λ‹ˆλ‹€. 이λ₯Ό 톡해 λͺ¨λΈμ˜ μΌλ°˜ν™” μ„±λŠ₯은 λͺ¨λΈ 크기에 따라 데이터가 μš”κ΅¬ν•˜λŠ” λ³΅μž‘λ„ μž„κ³„κ°’(Threshold)을 λ„˜μ—ˆμ„ λ•Œλ§Œ 폭발적으둜 μ¦κ°€ν•œλ‹€λŠ” 결둠을 λ„μΆœν–ˆμŠ΅λ‹ˆλ‹€.

3. μ‹€ν—˜ κ²°κ³Ό 뢄석

연ꡬ진은 μˆ˜ν•™ μΆ”λ‘  벀치마크인 GSM8K와 MATH, 그리고 논리적 좔둠이 ν•„μš”ν•œ Big-Bench Hard(BBH) 등을 μ£Όμš” ν…ŒμŠ€νŠΈ μ§€ν‘œλ‘œ μ‚¬μš©ν–ˆμŠ΅λ‹ˆλ‹€.

기쑴의 일반적인 지도 ν•™μŠ΅ 방법과 λΉ„κ΅ν–ˆμ„ λ•Œ, 이 λ…Όλ¬Έμ—μ„œ μ œμ•ˆν•œ 쑰건뢀 뢄석 기반의 ν›ˆλ ¨ μ „λž΅(λͺ¨λΈ 크기에 λ§žλŠ” 데이터 λ‚œμ΄λ„ μŠ€μΌ€μ€„λ§ λ“±)을 μ μš©ν•œ λͺ¨λΈμ€ λ™μΌν•œ ν•™μŠ΅λŸ‰μ—μ„œλ„ 훨씬 높은 정확도λ₯Ό κΈ°λ‘ν–ˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, 70μ–΅ 개의 νŒŒλΌλ―Έν„°λ₯Ό κ°€μ§„ λͺ¨λΈμ˜ 경우 GSM8Kμ—μ„œ κΈ°μ‘΄ 방식 λŒ€λΉ„ μ•½ 15% μ΄μƒμ˜ 정확도 ν–₯상을 λ³΄μ˜€μœΌλ©°, 특히 ν•™μŠ΅ν•˜μ§€ μ•Šμ€ λ‚―μ„  μœ ν˜•μ˜ λ¬Έμ œμ—μ„œλ„ κ·Έ 격차가 더 λ²Œμ–΄μ§€λŠ” 것을 ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€. κ°€μž₯ μ£Όλͺ©ν•  λ§Œν•œ μ„±κ³ΌλŠ”, μž‘μ€ λͺ¨λΈμ—κ²Œ λ¬΄λ¦¬ν•˜κ²Œ μ–΄λ €μš΄ 데이터λ₯Ό ν•™μŠ΅μ‹œν‚€λŠ” 것보닀, μ μ ˆν•œ μˆ˜μ€€μ˜ λ°μ΄ν„°λ‘œ ν•™μŠ΅μ‹œν‚¨ 큰 λͺ¨λΈμ΄ μ••λ„μ μœΌλ‘œ 쒋은 μ„±λŠ₯을 λ‚Έλ‹€λŠ” 점을 λͺ…ν™•ν•œ 수치둜 증λͺ…ν–ˆλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€.

4. ν•œκ³„μ κ³Ό ν–₯ν›„ 연ꡬ λ°©ν–₯

μ €μžλ“€μ€ 이 연ꡬ가 주둜 μˆ˜ν•™κ³Ό μ½”λ”©κ³Ό 같은 ν˜•μ‹μ μΈ μΆ”λ‘ (Formal Reasoning) μ˜μ—­μ— μ§‘μ€‘λ˜μ—ˆλ‹€λŠ” ν•œκ³„λ₯Ό μΈμ •ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. 일상 λŒ€ν™”λ‚˜ 창의적 글쓰기와 같은 λΉ„ν˜•μ‹μ  μΆ”λ‘ μ—μ„œλ„ λ™μΌν•œ 법칙이 μ μš©λ˜λŠ”μ§€λŠ” 좔가적인 검증이 ν•„μš”ν•©λ‹ˆλ‹€. λ˜ν•œ, μ œμ•ˆλœ 방식을 μ μš©ν•˜κΈ° μœ„ν•΄μ„œλŠ” λ‹€μ–‘ν•œ 크기의 λͺ¨λΈμ„ 사전에 μ‹€ν—˜ν•΄μ•Ό ν•˜λ―€λ‘œ 초기 μ§„μž… μž₯벽이 높을 수 μžˆμŠ΅λ‹ˆλ‹€. ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” λͺ¨λΈμ˜ λŠ₯λ ₯을 μžλ™μœΌλ‘œ μΆ”μ •ν•˜μ—¬ 데이터 λ‚œμ΄λ„λ₯Ό μ‹€μ‹œκ°„μœΌλ‘œ μ‘°μ ˆν•΄μ£ΌλŠ” λ”μš± μ§€λŠ₯적인 ν•™μŠ΅ μŠ€μΌ€μ€„λŸ¬ 개발이 κΈ°λŒ€λ©λ‹ˆλ‹€.

5. 싀무 적용 κ°€λŠ₯μ„±

이 λ…Όλ¬Έμ˜ λ‚΄μš©μ€ ν˜„μž¬ LLM을 파인 νŠœλ‹(Fine-tuning)ν•˜λŠ” λͺ¨λ“  AI 개발 νŒ€μ— μ¦‰μ‹œ μ μš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 특히 자체적인 데이터λ₯Ό κ΅¬μΆ•ν•˜μ—¬ 도메인 νŠΉν™” λͺ¨λΈμ„ λ§Œλ“œλŠ” 기업이라면, λ¬΄μž‘μ • 데이터λ₯Ό λͺ¨λ‘ μ„žμ–΄ ν•™μŠ΅μ‹œν‚€λŠ” λŒ€μ‹  λͺ¨λΈμ˜ 크기λ₯Ό κ³ λ €ν•˜μ—¬ 데이터λ₯Ό ν•„ν„°λ§ν•˜κ±°λ‚˜ ꡐ윑 κ³Όμ •(Curriculum)을 섀계해야 ν•©λ‹ˆλ‹€.

λ¦¬μ†ŒμŠ€ μΈ‘λ©΄μ—μ„œ λ³Ό λ•Œ, 이 μ ‘κ·Ό 방식은 λΆˆν•„μš”ν•œ ν•™μŠ΅ μ‹œκ°„μ„ μ€„μ—¬μ€λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, 70μ–΅ 개 νŒŒλΌλ―Έν„° λͺ¨λΈμ— λ§žλŠ” 졜적의 데이터 셋을 κ΅¬μΆ•ν–ˆλ‹€λ©΄, 130μ–΅ 개 λͺ¨λΈμ„ ꡳ이 μ‚¬μš©ν•˜μ§€ μ•Šμ•„λ„ μœ μ‚¬ν•œ μ„±λŠ₯을 λ‚Ό 수 μžˆμ–΄ GPU λΉ„μš©μ„ μ ˆμ•½ν•  수 μžˆμŠ΅λ‹ˆλ‹€. λ°˜λŒ€λ‘œ, 높은 μ„±λŠ₯이 ν•„μš”ν•˜λ‹€λ©΄ λͺ¨λΈ 크기λ₯Ό ν‚€μš°λŠ” 것이 데이터 양을 λŠ˜λ¦¬λŠ” 것보닀 훨씬 νš¨κ³Όμ μ΄λ―€λ‘œ μ˜ˆμ‚° λ°°λΆ„μ˜ μš°μ„ μˆœμœ„λ₯Ό κ²°μ •ν•˜λŠ” 데 도움을 μ€λ‹ˆλ‹€.

6. 이 논문을 μ΄ν•΄ν•˜κΈ° μœ„ν•œ 사전 지식

  • SFT (Supervised Fine-Tuning): μ‚¬λžŒμ΄ μž‘μ„±ν•œ μ •λ‹΅ 데이터λ₯Ό μ‚¬μš©ν•˜μ—¬ 사전 ν•™μŠ΅λœ λͺ¨λΈμ„ νŠΉμ • μž‘μ—…μ— 맞게 μΆ”κ°€λ‘œ ν•™μŠ΅μ‹œν‚€λŠ” λ°©μ‹μž…λ‹ˆλ‹€.
  • μΌλ°˜ν™”(Generalization): λͺ¨λΈμ΄ ν•™μŠ΅ν•˜μ§€ μ•Šμ€ μƒˆλ‘œμš΄ λ°μ΄ν„°λ‚˜ μƒν™©μ—μ„œλ„ 잘 μž‘λ™ν•˜λŠ” λŠ₯λ ₯을 μ˜λ―Έν•©λ‹ˆλ‹€.
  • OOD (Out-of-Distribution): ν•™μŠ΅μ— μ‚¬μš©λœ λ°μ΄ν„°μ˜ 뢄포와 λ‹€λ₯Έ, λ‚―μ„  λΆ„ν¬μ˜ 데이터λ₯Ό λœ»ν•˜λ©° λͺ¨λΈμ˜ μ§„μ§œ μ‹€λ ₯을 ν…ŒμŠ€νŠΈν•˜λŠ” μ§€ν‘œλ‘œ μ“°μž…λ‹ˆλ‹€.
  • 과적합(Overfitting): ν•™μŠ΅ λ°μ΄ν„°λŠ” λ„ˆλ¬΄ 잘 λ§žνžˆμ§€λ§Œ, μƒˆλ‘œμš΄ 데이터에 λŒ€ν•΄μ„œλŠ” μ„±λŠ₯이 λ–¨μ–΄μ§€λŠ” ν˜„μƒμž…λ‹ˆλ‹€.
  • μΆ”λ‘ (Reasoning): λ‹¨μˆœνžˆ 닡을 μ•Œμ•„λ§žνžˆλŠ” 것을 λ„˜μ–΄, 논리적인 단계λ₯Ό 거쳐 결둠을 λ„μΆœν•˜λŠ” 사고 κ³Όμ •μž…λ‹ˆλ‹€.
  • Chain-of-Thought (CoT): λͺ¨λΈμ΄ λ³΅μž‘ν•œ 문제λ₯Ό ν’€ λ•Œ 쀑간 λ‹¨κ³„μ˜ 생각을 ν…μŠ€νŠΈλ‘œ μ„œμˆ ν•˜λ„λ‘ μœ λ„ν•˜λŠ” κΈ°λ²•μž…λ‹ˆλ‹€.
  • 손싀 ν•¨μˆ˜(Loss Function): λͺ¨λΈμ΄ μ–Όλ§ˆλ‚˜ ν‹€λ ΈλŠ”μ§€λ₯Ό 수치둜 λ‚˜νƒ€λ‚Έ κ²ƒμœΌλ‘œ, ν•™μŠ΅μ€ 이 손싀을 μ€„μ΄λŠ” λ°©ν–₯으둜 μ§„ν–‰λ©λ‹ˆλ‹€.

πŸ“š 이번 μ£Ό κ΄€λ ¨ Deep Dive

μˆœμœ„λ…Όλ¬ΈDeep Dive
πŸ₯‡Adam’s Law: Textual Frequency Law o…DD-062
πŸ₯ˆGrandCode: Achieving Grandmaster Le…DD-061
πŸ₯‰Rethinking Generalization in Reasonβ€¦πŸ“ ν˜„μž¬ λ¬Έμ„œ
4.InCoder-32B-Thinking: Industrial Co…DD-064
5.Video-MME-v2: Towards the Next Stag…DD-063

πŸ“… 생성일: 2026-04-12 | πŸ€– GLM-4.7 Deep Dive