β π μ΄λ² μ£Ό Weekly Digestλ‘ λμκ°κΈ°
DD-066 Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability
arXiv: 2604.06628 κΈ°κ΄: AI45Research Upvotes: 228 | Comments: 6 μμ: μ΄λ² μ£Ό Top 3
λ Όλ¬Έ λΆμ: Rethinking Generalization in Reasoning SFT
1. μ μ΄ λ Όλ¬Έμ΄ μ€μνκ°?
κΈ°μ‘΄μ μ§λ νμ΅(SFT) λ°©μμ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ΄ μΆλ‘ λ₯λ ₯μ κΈ°λ₯΄λ λ° ν¨κ³Όμ μ΄λΌκ³ μλ €μ Έ μμμ§λ§, μ νΉμ μν©μμλ μ±λ₯μ΄ κΈκ²©ν λ¨μ΄μ§λμ§ κ·Έ μμΈμ΄ λͺ ννμ§ μμμ΅λλ€. μ΄ λ Όλ¬Έμ μ΅μ ν(Optimization), λ°μ΄ν°(Data), λͺ¨λΈ λ₯λ ₯(Model Capability)μ΄λΌλ μΈ κ°μ§ λ³μκ° μνΈμμ©νλ λ°©μμ 체κ³μ μΌλ‘ λΆμνμ¬, λ¨μν λ°μ΄ν°λ§ λ§μ΄ λ£λ κ²μ΄ μλλΌ λͺ¨λΈμ κ·λͺ¨μ λ°μ΄ν° λμ΄λλ₯Ό μ κ΅νκ² λ§€μΉν΄μΌ ν¨μ λ°νλμ΅λλ€. μ΄λ μ°κ΅¬μλ€μ΄ μΆλ‘ νΉν λͺ¨λΈμ κ°λ°ν λ λΆνμν κ³μ° λΉμ©μ λλΉνμ§ μκ³ , ν¨μ¨μ μΌλ‘ μΌλ°ν μ±λ₯μ λμ΄μ¬λ¦΄ μ μλ μ€κ³ μ§μΉ¨μ μ μνλ€λ μ μμ λ§€μ° μ€μν©λλ€.
2. ν΅μ¬ μμ΄λμ΄ μ½κ² μ΄ν΄νκΈ°
μλ¦¬μ¬ λ μνΌ νμ΅ λΉμ
μ΄ λ Όλ¬Έμ ν΅μ¬μ βμλ¦¬μ¬ λ μνΌ μΈμ°κΈ°βμ λΉμ ν μ μμ΅λλ€. μ΄λ³΄ μ리μ¬(μμ λͺ¨λΈ)μκ² λ―Έμλ¦° μ °νκΈμ 볡μ‘ν λ μνΌ(μ΄λ €μ΄ μΆλ‘ λ°μ΄ν°)λ₯Ό λμ Έμ£Όλ©΄, κ·Έλ λ§μλ μ리λ₯Ό νλ μ리λ₯Ό μ΄ν΄νμ§ λͺ»νκ³ κ·Έμ μκΈ°νλ €κ³ λ§ ν©λλ€. κ²°κ³Όμ μΌλ‘ μ‘°κΈλ§ μ¬λ£κ° λ¬λΌμ Έλ(μλ‘μ΄ λ¬Έμ ) μ리λ₯Ό λ§μΉκ² λ©λλ€. λ°λ©΄, μ΄λ―Έ μλ ¨λ μ리μ¬(ν° λͺ¨λΈ)μκ²λ 볡μ‘ν λ μνΌκ° μλ‘μ΄ κΈ°μ μ μ΅λνλ λ° ν° λμμ΄ λ©λλ€.
μ΄ λ Όλ¬Έμ βλꡬμκ²(λͺ¨λΈ λ₯λ ₯), μ΄λ€ λ μνΌλ₯Ό(λ°μ΄ν°), μΌλ§λ κ°λ λκ² νλ ¨μμΌμΌ(μ΅μ ν) νλκ°βλΌλ μκ΄κ΄κ³λ₯Ό μνμ μΌλ‘ μ¦λͺ νμ΅λλ€. μ¦, λͺ¨λΈμ νμ¬ μ€λ ₯μ λ§μ§ μλ λ무 μ΄λ €μ΄ νλ ¨μ μ€νλ € λ μ΄ λλ€λ κ²μ κΉ¨λ¬μμ΅λλ€.
λ¨κ³λ³ λμ λ°©μ
λ Όλ¬Έμμ μ μνλ λΆμ νλ μμν¬λ ν¬κ² μΈ λ¨κ³λ‘ μλν©λλ€. 첫째, λ€μν ν¬κΈ°μ λͺ¨λΈ(νλΌλ―Έν° μ 1μ΅μμ 700μ΅ κ° λ±)μ μ€λΉν©λλ€. λμ§Έ, μνμ΄λ μ½λ© λ¬Έμ μ κ°μ μΆλ‘ λ°μ΄ν°λ₯Ό λμ΄λλ³λ‘ λΆλ₯νμ¬ λͺ¨λΈμ νμ΅μν΅λλ€. μ΄λ λ¨μν μ λ΅μ λ§νλ κ²λΏλ§ μλλΌ νμ΄ κ³Όμ (Chain-of-Thought)μ μΌλ§λ μ λ°λΌκ°λμ§λ₯Ό μ΅μ ν λͺ©μ μΌλ‘ μ€μ ν©λλ€. μ μ§Έ, νμ΅μ μ¬μ©νμ§ μμ μ ν μλ‘μ΄ μ νμ λ¬Έμ (Out-of-Distribution)λ₯Ό νκ² νμ¬, λͺ¨λΈμ΄ μ§μ§λ‘ λ Όλ¦¬λ₯Ό κΉ¨μ³€λμ§ μλλ©΄ λ¨μν μκΈ°νλμ§λ₯Ό νκ°ν©λλ€.
ν΅μ¬ μκ³ λ¦¬μ¦κ³Ό λ°κ²¬
μ μλ€μ μμ€ ν¨μ(Loss Function)μ κ΄μ μμ μ΄λ₯Ό λΆμνμ΅λλ€. λͺ¨λΈμ νλΌλ―Έν° μκ° μ μ λλ νμ΅ λ°μ΄ν°μ μμ€μ μ€μ΄λ€μ§λ§ ν μ€νΈ λ°μ΄ν°μ μμ€μ μ€μ΄λ€μ§ μλ βκ³Όμ ν©(Overfitting)β νμμ΄ μ½κ² λ°μν¨μ λ°κ²¬νμ΅λλ€. λ°λλ‘ μΆ©λΆν ν° λͺ¨λΈμ λ°μ΄ν°μ λΆν¬λ₯Ό λ²μ΄λ λ¬Έμ μμλ μμ€μ΄ μΌμ μμ€ μ΄νλ‘ λ¨μ΄μ§λ βλ¨κ³μ μ μ΄(Phase Transition)β νμμ 보μμ΅λλ€. μ΄λ₯Ό ν΅ν΄ λͺ¨λΈμ μΌλ°ν μ±λ₯μ λͺ¨λΈ ν¬κΈ°μ λ°λΌ λ°μ΄ν°κ° μꡬνλ 볡μ‘λ μκ³κ°(Threshold)μ λμμ λλ§ νλ°μ μΌλ‘ μ¦κ°νλ€λ κ²°λ‘ μ λμΆνμ΅λλ€.
3. μ€ν κ²°κ³Ό λΆμ
μ°κ΅¬μ§μ μν μΆλ‘ λ²€μΉλ§ν¬μΈ GSM8Kμ MATH, κ·Έλ¦¬κ³ λ Όλ¦¬μ μΆλ‘ μ΄ νμν Big-Bench Hard(BBH) λ±μ μ£Όμ ν μ€νΈ μ§νλ‘ μ¬μ©νμ΅λλ€.
κΈ°μ‘΄μ μΌλ°μ μΈ μ§λ νμ΅ λ°©λ²κ³Ό λΉκ΅νμ λ, μ΄ λ Όλ¬Έμμ μ μν μ‘°κ±΄λΆ λΆμ κΈ°λ°μ νλ ¨ μ λ΅(λͺ¨λΈ ν¬κΈ°μ λ§λ λ°μ΄ν° λμ΄λ μ€μΌμ€λ§ λ±)μ μ μ©ν λͺ¨λΈμ λμΌν νμ΅λμμλ ν¨μ¬ λμ μ νλλ₯Ό κΈ°λ‘νμ΅λλ€. μλ₯Ό λ€μ΄, 70μ΅ κ°μ νλΌλ―Έν°λ₯Ό κ°μ§ λͺ¨λΈμ κ²½μ° GSM8Kμμ κΈ°μ‘΄ λ°©μ λλΉ μ½ 15% μ΄μμ μ νλ ν₯μμ 보μμΌλ©°, νΉν νμ΅νμ§ μμ λ―μ μ νμ λ¬Έμ μμλ κ·Έ κ²©μ°¨κ° λ λ²μ΄μ§λ κ²μ νμΈνμ΅λλ€. κ°μ₯ μ£Όλͺ©ν λ§ν μ±κ³Όλ, μμ λͺ¨λΈμκ² λ¬΄λ¦¬νκ² μ΄λ €μ΄ λ°μ΄ν°λ₯Ό νμ΅μν€λ κ²λ³΄λ€, μ μ ν μμ€μ λ°μ΄ν°λ‘ νμ΅μν¨ ν° λͺ¨λΈμ΄ μλμ μΌλ‘ μ’μ μ±λ₯μ λΈλ€λ μ μ λͺ νν μμΉλ‘ μ¦λͺ νλ€λ κ²μ λλ€.
4. νκ³μ κ³Ό ν₯ν μ°κ΅¬ λ°©ν₯
μ μλ€μ μ΄ μ°κ΅¬κ° μ£Όλ‘ μνκ³Ό μ½λ©κ³Ό κ°μ νμμ μΈ μΆλ‘ (Formal Reasoning) μμμ μ§μ€λμλ€λ νκ³λ₯Ό μΈμ νκ³ μμ΅λλ€. μΌμ λνλ μ°½μμ κΈμ°κΈ°μ κ°μ λΉνμμ μΆλ‘ μμλ λμΌν λ²μΉμ΄ μ μ©λλμ§λ μΆκ°μ μΈ κ²μ¦μ΄ νμν©λλ€. λν, μ μλ λ°©μμ μ μ©νκΈ° μν΄μλ λ€μν ν¬κΈ°μ λͺ¨λΈμ μ¬μ μ μ€νν΄μΌ νλ―λ‘ μ΄κΈ° μ§μ μ₯λ²½μ΄ λμ μ μμ΅λλ€. ν₯ν μ°κ΅¬μμλ λͺ¨λΈμ λ₯λ ₯μ μλμΌλ‘ μΆμ νμ¬ λ°μ΄ν° λμ΄λλ₯Ό μ€μκ°μΌλ‘ μ‘°μ ν΄μ£Όλ λμ± μ§λ₯μ μΈ νμ΅ μ€μΌμ€λ¬ κ°λ°μ΄ κΈ°λλ©λλ€.
5. μ€λ¬΄ μ μ© κ°λ₯μ±
μ΄ λ Όλ¬Έμ λ΄μ©μ νμ¬ LLMμ νμΈ νλ(Fine-tuning)νλ λͺ¨λ AI κ°λ° νμ μ¦μ μ μ©ν μ μμ΅λλ€. νΉν μ체μ μΈ λ°μ΄ν°λ₯Ό ꡬμΆνμ¬ λλ©μΈ νΉν λͺ¨λΈμ λ§λλ κΈ°μ μ΄λΌλ©΄, 무μμ λ°μ΄ν°λ₯Ό λͺ¨λ μμ΄ νμ΅μν€λ λμ λͺ¨λΈμ ν¬κΈ°λ₯Ό κ³ λ €νμ¬ λ°μ΄ν°λ₯Ό νν°λ§νκ±°λ κ΅μ‘ κ³Όμ (Curriculum)μ μ€κ³ν΄μΌ ν©λλ€.
리μμ€ μΈ‘λ©΄μμ λ³Ό λ, μ΄ μ κ·Ό λ°©μμ λΆνμν νμ΅ μκ°μ μ€μ¬μ€λλ€. μλ₯Ό λ€μ΄, 70μ΅ κ° νλΌλ―Έν° λͺ¨λΈμ λ§λ μ΅μ μ λ°μ΄ν° μ μ ꡬμΆνλ€λ©΄, 130μ΅ κ° λͺ¨λΈμ κ΅³μ΄ μ¬μ©νμ§ μμλ μ μ¬ν μ±λ₯μ λΌ μ μμ΄ GPU λΉμ©μ μ μ½ν μ μμ΅λλ€. λ°λλ‘, λμ μ±λ₯μ΄ νμνλ€λ©΄ λͺ¨λΈ ν¬κΈ°λ₯Ό ν€μ°λ κ²μ΄ λ°μ΄ν° μμ λ리λ κ²λ³΄λ€ ν¨μ¬ ν¨κ³Όμ μ΄λ―λ‘ μμ° λ°°λΆμ μ°μ μμλ₯Ό κ²°μ νλ λ° λμμ μ€λλ€.
6. μ΄ λ Όλ¬Έμ μ΄ν΄νκΈ° μν μ¬μ μ§μ
- SFT (Supervised Fine-Tuning): μ¬λμ΄ μμ±ν μ λ΅ λ°μ΄ν°λ₯Ό μ¬μ©νμ¬ μ¬μ νμ΅λ λͺ¨λΈμ νΉμ μμ μ λ§κ² μΆκ°λ‘ νμ΅μν€λ λ°©μμ λλ€.
- μΌλ°ν(Generalization): λͺ¨λΈμ΄ νμ΅νμ§ μμ μλ‘μ΄ λ°μ΄ν°λ μν©μμλ μ μλνλ λ₯λ ₯μ μλ―Έν©λλ€.
- OOD (Out-of-Distribution): νμ΅μ μ¬μ©λ λ°μ΄ν°μ λΆν¬μ λ€λ₯Έ, λ―μ λΆν¬μ λ°μ΄ν°λ₯Ό λ»νλ©° λͺ¨λΈμ μ§μ§ μ€λ ₯μ ν μ€νΈνλ μ§νλ‘ μ°μ λλ€.
- κ³Όμ ν©(Overfitting): νμ΅ λ°μ΄ν°λ λ무 μ λ§νμ§λ§, μλ‘μ΄ λ°μ΄ν°μ λν΄μλ μ±λ₯μ΄ λ¨μ΄μ§λ νμμ λλ€.
- μΆλ‘ (Reasoning): λ¨μν λ΅μ μμλ§νλ κ²μ λμ΄, λ Όλ¦¬μ μΈ λ¨κ³λ₯Ό κ±°μ³ κ²°λ‘ μ λμΆνλ μ¬κ³ κ³Όμ μ λλ€.
- Chain-of-Thought (CoT): λͺ¨λΈμ΄ 볡μ‘ν λ¬Έμ λ₯Ό ν λ μ€κ° λ¨κ³μ μκ°μ ν μ€νΈλ‘ μμ νλλ‘ μ λνλ κΈ°λ²μ λλ€.
- μμ€ ν¨μ(Loss Function): λͺ¨λΈμ΄ μΌλ§λ νλ Έλμ§λ₯Ό μμΉλ‘ λνλΈ κ²μΌλ‘, νμ΅μ μ΄ μμ€μ μ€μ΄λ λ°©ν₯μΌλ‘ μ§νλ©λλ€.
π μ΄λ² μ£Ό κ΄λ ¨ Deep Dive
| μμ | λ Όλ¬Έ | Deep Dive |
|---|---|---|
| π₯ | Adamβs Law: Textual Frequency Law oβ¦ | DD-062 |
| π₯ | GrandCode: Achieving Grandmaster Leβ¦ | DD-061 |
| π₯ | Rethinking Generalization in Reasonβ¦ | π νμ¬ λ¬Έμ |
| 4. | InCoder-32B-Thinking: Industrial Co⦠| DD-064 |
| 5. | Video-MME-v2: Towards the Next Stag⦠| DD-063 |
π μμ±μΌ: 2026-04-12 | π€ GLM-4.7 Deep Dive