β π μ΄λ² μ£Ό Weekly Digestλ‘ λμκ°κΈ°
DD-100 LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding
arXiv: 2605.27365 κΈ°κ΄: NVIDIA Upvotes: 127 | Comments: 4 μμ: μ΄λ² μ£Ό Top 4
LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding
1. μ μ΄ λ Όλ¬Έμ΄ μ€μνκ°?
κΈ°μ‘΄μ λΉμ -μΈμ΄ λͺ¨λΈ(Vision-Language Models)λ€μ 물체μ μμΉλ₯Ό μ°Ύμ λ μ’νλ₯Ό ν ν° νλνλ μμ°¨μ μΌλ‘ μμ±ν΄μΌ νμ΅λλ€. μ΄λ λ§μΉ λ¬Έμ₯μ νκΈ°νλ κ²μ²λΌ λλ¦¬κ³ , μ’ν κ° κ°μ μ°κ΄μ±μ μ λλ‘ λ°μνμ§ λͺ»νλ ꡬ쑰μ μΈ νκ³κ° μμμ΅λλ€. μ΄ λ Όλ¬Έμ μ’νλ₯Ό νλμ λ©μ΄λ¦¬(Block)λ‘ λ¬Άμ΄μ λ³λ ¬μ μΌλ‘ ν΄μνλ λ³λ ¬ λ°μ€ λμ½λ©(Parallel Box Decoding) λ°©μμ μ μν©λλ€. μ΄λ₯Ό ν΅ν΄ κΈ°μ‘΄ λ°©μλ³΄λ€ μ΅λ 2.5λ°° λΉ λ₯Έ μλμ λ λμ μ νλλ₯Ό λμμ λ¬μ±νμ¬, μ€μκ° λ‘λ΄ κ³΅νμ΄λ λνν μμ΄μ νΈ λ± μ€μ μ°μ νμ₯μ VLMμ μ μ©νλ κΈΈμ μ΄μλ€λ μ μμ λ§€μ° μ€μν©λλ€.
2. ν΅μ¬ μμ΄λμ΄ μ½κ² μ΄ν΄νκΈ°
μΌμμν λΉμ
μΉκ΅¬μκ² βμ± μ μμ μλ μ¬κ³Όβμ μμΉλ₯Ό μλ €μ£Όλ μν©μ μμν΄ λ³΄μΈμ. κΈ°μ‘΄μ λ°©μ(Sequential Decoding)μ λ§μΉ μ’νλ₯Ό βκ°λ‘ 100, μΈλ‘ 200, λλΉ 50, λμ΄ 50βμ΄λΌκ³ μ«μλ₯Ό νλμ© μ²μ²ν λ°μ μ λ κ²κ³Ό κ°μ΅λλ€. μ΄ λ°©μμ μ«μλ₯Ό μ λ μλκ° λλ¦¬κ³ , μμ μ«μλ₯Ό μλͺ» μ μΌλ©΄ λ€μ μ«μλ λ€ μλ§μ΄ λ κ°λ₯μ±μ΄ ν½λλ€.
λ°λ©΄, μ΄ λ Όλ¬Έμμ μ μνλ λ°©μ(Parallel Box Decoding)μ 미리 μ€λΉλ βμ¬κ³Ό μμΉ μ€ν°μ»€βλ₯Ό λμμ μ°μ΄λ΄λ κ²κ³Ό κ°μ΅λλ€. μ’νμ κ° μ«μλ₯Ό λ°λ‘λ°λ‘ μμ±νλ κ² μλλΌ, λ°μ€(Box)λΌλ νλμ μμ±λ λ¨μ(Atomic Unit)λ₯Ό ν΅μ§Έλ‘ μμΈ‘ν©λλ€. μ΄λ κ² νλ©΄ μ«μ κ°μ μ°κ²°μ±μ΄ μ μ§λκ³ , μ€ν°μ»€λ₯Ό ν λ²μ μ°μ΄λ΄λ― μ²λ¦¬ν μ μμ΄ ν¨μ¬ λΉ λ₯΄κ³ μ νν©λλ€.
λ¨κ³λ³ λμ κ³Όμ
- μ΄λ―Έμ§μ ν μ€νΈ μ λ ₯: λͺ¨λΈμ μ΄λ―Έμ§λ₯Ό λ³΄κ³ (Moon-ViT μΈμ½λ μ¬μ©), μ¬μ©μκ° μ λ ₯ν ν μ€νΈ(βλΉ¨κ° μλμ°¨ μ°Ύμμ€β)λ₯Ό μ΄ν΄ν©λλ€.
- λΉμ ν ν° μΆμΆ: μ΄λ―Έμ§λ₯Ό μλ³Έ ν΄μλ κ·Έλλ‘ λΆμνμ¬ κ³΅κ°μ μΈ λν μΌμ΄ μ΄μμλ λΉμ ν ν°λ€λ‘ λ³νν©λλ€.
- λΈλ‘ κΈ°λ° μμΈ‘ (Block-Based Prediction): κΈ°μ‘΄μ²λΌ ν ν°μ νλμ© μμ±νλ λμ , λ°μ΄λ© λ°μ€(Bounding Box) μ 보λ₯Ό λ΄μ μΌμ κΈΈμ΄(L=6)μ βλΈλ‘βμ ν λ¨μλ‘ μμΈ‘ν©λλ€.
- λ³λ ¬ λμ½λ©: μ΄ λΈλ‘ λ΄λΆμ μ’ν μ 보λ€μ μλ‘ κΈ΄λ°νκ² μ°κ²°λμ΄ μμΌλ―λ‘, λͺ¨λΈμ μ΄λ₯Ό λ 립λ μ¬λ¬ ν ν°μ΄ μλ νλμ λ¬ΆμμΌλ‘ μ²λ¦¬νμ¬ λ³λ ¬μ μΌλ‘ μΆλ‘ ν©λλ€.
ν΅μ¬ μμκ³Ό μκ³ λ¦¬μ¦
κΈ°μ‘΄μ λ€μ ν ν° μμΈ‘(Next Token Prediction, NTP) λ°©μμ ν ν° $t$κ° μ΄μ ν ν°λ€μ μμ‘΄νμ¬ μμ°¨μ μΌλ‘ μμ±λμ§λ§, LocateAnythingμ βλΈλ‘β $B$λ₯Ό κΈ°λ³Έ λ¨μλ‘ μ¬μ©ν©λλ€.
λͺ¨λΈμ μ΄λ―Έμ§ μ 보 $Z$μ ν μ€νΈ 쿼리 $\mathcal{E}$λ₯Ό λ°νμΌλ‘ μ 체 λ°μ€ λΈλ‘ μνμ€ $\mathbf{B} = (b_1, b_2, \dots, b_N)$μ κ²°ν© νλ₯ μ μΆκ΅¬ν©λλ€.
$$P(\mathbf{B} \mid \mathcal{Z}, \mathcal{E}) = \prod_{i=1}^{N} P(b_i \mid b_{<i}, Z, \mathcal{E})$$
μ¬κΈ°μ κ° λΈλ‘ $b_i$λ <box> μμ ν ν°, μ’ν κ°λ€, κ·Έλ¦¬κ³ </box> μ’
λ£ ν ν°μ ν¬ν¨νλ μμμ λ¨μμ
λλ€. μ΄ μμμ ν΅μ¬μ $b_i$ λ΄λΆμ μ’ν ν ν°λ€μ κ°λ³μ μΌλ‘ μμ±νλ κ² μλλΌ, λΈλ‘ λ¨μλ‘ ν λ²μ νμ΅νκ³ μΆλ‘ ν¨μΌλ‘μ¨ κΈ°ννμ μμ§μ±μ μ μ§νλ€λ μ μ
λλ€.
3. μ€ν κ²°κ³Ό λΆμ
λ²€μΉλ§ν¬ λ° μ±λ₯
μ°κ΅¬μ§μ κ°μ²΄ νμ§μ νμ€ λ°μ΄ν°μ μΈ COCOμ κΈ΄ 꼬리 λΆν¬(Long-tailed)λ₯Ό κ°μ§ LVIS λ°μ΄ν°μ μμ μ±λ₯μ μΈ‘μ νμ΅λλ€.
- μ νλ: LocateAnythingμ Grounding DINOμ κ°μ κ°λ ₯ν μ€νμ νμ§κΈ°(Open-set Detector)λ€μ μ μΉκ³ μ΅κ³ μμ€(SOTA)μ μ νλ(F1 Score)λ₯Ό κΈ°λ‘νμ΅λλ€. νΉν LVIS λ°μ΄ν°μ μμ ν¬κ· ν΄λμ€(Rare Class)μ λν νμ§ μ±λ₯μ΄ ν¬κ² ν₯μλμμ΅λλ€.
- μλ (Throughput): BPS(Boxes Per Second, μ΄λΉ μμ± κ°λ₯ν λ°μ€ μ) μ§νμμ κΈ°μ‘΄ κ²½μ λ°©μ λλΉ μ΅λ 2.5λ°° λΉ λ₯Έ μ²λ¦¬ μλλ₯Ό 보μ¬μ£Όμμ΅λλ€. μ΄λ λ³λ ¬ λμ½λ©μ΄ μ€μ λ‘ μΌλ§λ λ§μ μΆλ‘ μκ°μ λ¨μΆμν€λμ§λ₯Ό μ¦λͺ ν©λλ€.
- λ°μ΄ν° ν¨κ³Ό: 1μ΅ 3,800λ§ κ°(138M)μ λ°©λν νλ ¨ λ°μ΄ν°(LocateAnything-Data)λ₯Ό μ¬μ©νμ¬, μ μ μμ λ°μ΄ν°λ‘ νλ ¨λ λͺ¨λΈλ³΄λ€ ν¨μ¬ λ λμ μ λ°λμ μΌλ°ν μ±λ₯μ 보μμ΅λλ€.
μ£Όλͺ©ν λ§ν μ±κ³Ό
μ΄ λͺ¨λΈμ λ¨μν μ μ§λ μ΄λ―Έμ§μμλ§ μνλ κ²μ΄ μλλλ€. μ€μκ°μΌλ‘ μμ§μ΄λ νκ²½μ΄λ μλ§μ κ°μ²΄κ° λμ³ μλ λ°μ§λ μν©(Dense Detection)μμλ μ μ°νκ² λμ²ν μ μλλ‘ νλ ¨λμμ΅λλ€. μ΄λ μ€μ λ‘λ΄μ΄ μμ¨ μ£Όνμ νκ±°λ 볡μ‘ν UI νλ©΄μ μ μ΄ν΄μΌ νλ μν©μμ λ§€μ° μ€μν νΉμ±μ λλ€.
4. νκ³μ κ³Ό ν₯ν μ°κ΅¬ λ°©ν₯
μ μκ° μΈκΈν νκ³
νμ¬ λͺ¨λΈμ μ£Όλ‘ μ§λ νμ΅(Supervised Fine-Tuning)μ μμ‘΄νμ¬ νμ΅λμμ΅λλ€. μ¦, μ¬λμ΄ μ λ΅μ λͺ¨λ λ¬μμ€ λ°μ΄ν°λ₯Ό ν΅ν΄ νμ΅νκΈ° λλ¬Έμ, μ λ΅μ΄ μλ μλ‘μ΄ μν©μμ μ€μ€λ‘ μ’νλ₯Ό μμΈ‘νλ μ μ± μ μ΅μ ννλ λ°μλ νκ³κ° μμ μ μμ΅λλ€.
ν₯ν μ°κ΅¬ λ°©ν₯ λ° κ°μ μ
μ μλ€μ μ΄ λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ κ°ν νμ΅(Reinforcement Learning) λμ μ μ μν©λλ€. μ’ν μμΈ‘μ λν 보μ μμ€ν μ λμ νλ©΄, λͺ¨λΈμ΄ μ€μ€λ‘ λ μ νν μμΉλ₯Ό μ°Ύμκ°λ μ μ± μ νμ΅ν μ μμ κ²μ λλ€. λν, νμ¬λ λΈλ‘ λμ½λ©μ΄ μ€ν¨νμ λ λ€μ μλνλ(Fallback) λΉλλ₯Ό μ€μ΄κ³ , λ ν¨κ³Όμ μΈ νμ(Exploration) μ λ΅μ μ°κ΅¬νμ¬ μΆλ‘ μ κ²¬κ³ ν¨(Robustness)μ λμ΄λ κ²μ΄ νμν©λλ€.
5. μ€λ¬΄ μ μ© κ°λ₯μ±
λ°λ‘ μ μ© κ°λ₯ν λΆμΌ
- μ€μκ° λ‘λ΄ λ° μμ¨ μ£Όν: λ‘λ΄μ΄ βμ κΈ° μλ 물건μ μ§μ΄μ€βλΌλ μ§μλ₯Ό λ°μμ λ, λλ¦¬μ§ μκ³ μ¦κ°μ μΌλ‘ μμΉλ₯Ό νμ ν΄ λ¬Όμ²΄λ₯Ό μ§μ΄ μ¬λ¦΄ μ μμ΅λλ€.
- μλν UI ν μ€ν λ° μμ΄μ νΈ: μ»΄ν¨ν° νλ©΄μ UI μμ(λ²νΌ, μ λ ₯μ°½ λ±)λ₯Ό λ§€μ° λΉ λ₯΄κ² μΈμνμ¬ λ§μ°μ€λ₯Ό μ μ΄νλ RPA(λ‘λ΄ νλ‘μΈμ€ μλν)λ μλν ν μ€ν λꡬμ μ¦μ νμ©ν μ μμ΅λλ€.
- λνν λΉλμ€ κ²μ: κΈ΄ λΉλμ€ μμμμ μ¬μ©μκ° λ¬»λ νΉμ μ₯λ©΄μ΄λ κ°μ²΄λ₯Ό μ€μκ°μΌλ‘ λΉ λ₯΄κ² μ°Ύμλ΄λ μλΉμ€λ₯Ό λ§λ€ μ μμ΅λλ€.
νμν 리μμ€
- μΆλ‘ (Inference) νκ²½: λ³λ ¬ λμ½λ© λλΆμ κΈ°μ‘΄ VLM보λ€λ μ μ μ°μ°λμΌλ‘ λμνμ§λ§, μ¬μ ν κ³ ν΄μλ μ΄λ―Έμ§λ₯Ό μ²λ¦¬νλ Moon-ViT μΈμ½λμ Qwen2.5 μΈμ΄ λͺ¨λΈμ λλ €μΌ νλ―λ‘ A100μ΄λ H100κ³Ό κ°μ κ³ μ±λ₯ GPUκ° νμν©λλ€.
- λ°μ΄ν°: νμ΅μ μν΄μλ 1μ΅ 3,800λ§ κ°μ κ±°λν λ°μ΄ν°μ μ΄ νμνμ§λ§, μ΄λ―Έ νλ ¨λ λͺ¨λΈμ μ¬μ©νλ€λ©΄ λ³λμ λ°μ΄ν° μμ§ μμ΄ λ°λ‘ νμ© κ°λ₯ν©λλ€.
6. μ΄ λ Όλ¬Έμ μ΄ν΄νκΈ° μν μ¬μ μ§μ
- λΉμ -μΈμ΄ λͺ¨λΈ (Vision-Language Model, VLM): μ΄λ―Έμ§μ ν μ€νΈλ₯Ό λμμ μ΄ν΄νκ³ μ²λ¦¬ν μ μλ μΈκ³΅μ§λ₯ λͺ¨λΈλ‘, GPT-4oλ CLIP λ±μ΄ μ¬κΈ°μ μν©λλ€.
- λΉμ κ·ΈλΌμ΄λ© (Visual Grounding): ν μ€νΈλ‘ μ€λͺ λ λμμ΄ μ΄λ―Έμ§ λ΄μμ μ΄λμ μμΉνλμ§ μ°Ύμλ΄λ μμ μ λλ€.
- λ€μ ν ν° μμΈ‘ (Next Token Prediction, NTP): ChatGPTμ κ°μ μΈμ΄ λͺ¨λΈμ΄ λ€μμ μ¬ λ¨μ΄λ₯Ό λ§μΆλ λ°©μμΌλ‘, λ¬Έμ₯μ μμ°¨μ μΌλ‘ μμ±νλ νμ€μ μΈ λ°©λ²μ λλ€.
- λ°μ΄λ© λ°μ€ (Bounding Box): μ΄λ―Έμ§ μ κ°μ²΄μ μμΉλ₯Ό λνλ΄κΈ° μν΄ κ·Έλ¦¬λ μ¬κ°ν ν λ리 μμμ λλ€.
- μ§λ νμ΅ (Supervised Fine-Tuning, SFT): λͺ¨λΈμ΄ μ λ΅μ΄ λΌλ²¨λ§λ λ°μ΄ν°λ₯Ό μ¬μ©νμ¬ νΉμ μμ μ μννλλ‘ λ―ΈμΈ μ‘°μ νλ νμ΅ λ°©μμ λλ€.
- λ³λ ¬ μ²λ¦¬ (Parallelism): μ¬λ¬ μμ μ λμμ μ€ννμ¬ μλλ₯Ό λμ΄λ μ»΄ν¨ν κΈ°λ²μ λλ€.
- IoU (Intersection over Union): λͺ¨λΈμ΄ μμΈ‘ν λ°μ€μ μ€μ μ λ΅ λ°μ€κ° μΌλ§λ κ²ΉμΉλμ§λ₯Ό λνλ΄λ μ§ν(0~1 μ¬μ΄μ κ°)λ‘, κ°μ²΄ νμ§ μ±λ₯μ νκ°ν λ μλλ€.
π μ΄λ² μ£Ό κ΄λ ¨ Deep Dive
| μμ | λ Όλ¬Έ | Deep Dive |
|---|---|---|
| π₯ | Gamma-World: Generative Multi-Agentβ¦ | DD-097 |
| π₯ | SkillOpt: Executive Strategy for Seβ¦ | DD-098 |
| π₯ | DVAO: Dynamic Variance-adaptive Advβ¦ | DD-099 |
| 4. | LocateAnything: Fast and High-Qualiβ¦ | π νμ¬ λ¬Έμ |
| 5. | AgentDoG 1.5: A Lightweight and Sca⦠| DD-101 |
π μμ±μΌ: 2026-05-31 | π€ GLM-4.7 Deep Dive