← πŸ“š 이번 μ£Ό Weekly Digest둜 λŒμ•„κ°€κΈ°

DD-100 LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding

arXiv: 2605.27365 κΈ°κ΄€: NVIDIA Upvotes: 127 | Comments: 4 μˆœμœ„: 이번 μ£Ό Top 4


LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding

1. μ™œ 이 논문이 μ€‘μš”ν•œκ°€?

기쑴의 λΉ„μ „-μ–Έμ–΄ λͺ¨λΈ(Vision-Language Models)듀은 물체의 μœ„μΉ˜λ₯Ό 찾을 λ•Œ μ’Œν‘œλ₯Ό 토큰 ν•˜λ‚˜ν•˜λ‚˜ 순차적으둜 생성해야 ν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” 마치 λ¬Έμž₯을 ν•„κΈ°ν•˜λŠ” κ²ƒμ²˜λŸΌ 느리고, μ’Œν‘œ κ°’ κ°„μ˜ 연관성을 μ œλŒ€λ‘œ λ°˜μ˜ν•˜μ§€ λͺ»ν•˜λŠ” ꡬ쑰적인 ν•œκ³„κ°€ μžˆμ—ˆμŠ΅λ‹ˆλ‹€. 이 논문은 μ’Œν‘œλ₯Ό ν•˜λ‚˜μ˜ 덩어리(Block)둜 λ¬Άμ–΄μ„œ λ³‘λ ¬μ μœΌλ‘œ ν•΄μ„ν•˜λŠ” 병렬 λ°•μŠ€ λ””μ½”λ”©(Parallel Box Decoding) 방식을 μ œμ•ˆν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 κΈ°μ‘΄ 방식보닀 μ΅œλŒ€ 2.5λ°° λΉ λ₯Έ 속도와 더 높은 정확도λ₯Ό λ™μ‹œμ— λ‹¬μ„±ν•˜μ—¬, μ‹€μ‹œκ°„ λ‘œλ΄‡ κ³΅ν•™μ΄λ‚˜ λŒ€ν™”ν˜• μ—μ΄μ „νŠΈ λ“± μ‹€μ œ μ‚°μ—… ν˜„μž₯에 VLM을 μ μš©ν•˜λŠ” 길을 μ—΄μ—ˆλ‹€λŠ” μ μ—μ„œ 맀우 μ€‘μš”ν•©λ‹ˆλ‹€.

2. 핡심 아이디어 μ‰½κ²Œ μ΄ν•΄ν•˜κΈ°

μΌμƒμƒν™œ λΉ„μœ 

μΉœκ΅¬μ—κ²Œ β€œμ±…μƒ μœ„μ— μžˆλŠ” μ‚¬κ³Όβ€μ˜ μœ„μΉ˜λ₯Ό μ•Œλ €μ£ΌλŠ” 상황을 상상해 λ³΄μ„Έμš”. 기쑴의 방식(Sequential Decoding)은 마치 μ’Œν‘œλ₯Ό β€œκ°€λ‘œ 100, μ„Έλ‘œ 200, λ„ˆλΉ„ 50, 높이 50”이라고 숫자λ₯Ό ν•˜λ‚˜μ”© 천천히 λ°›μ•„ μ λŠ” 것과 κ°™μŠ΅λ‹ˆλ‹€. 이 방식은 숫자λ₯Ό μ λŠ” 속도가 느리고, μ•žμ˜ 숫자λ₯Ό 잘λͺ» 적으면 λ’€μ˜ μˆ«μžλ„ λ‹€ 엉망이 될 κ°€λŠ₯성이 ν½λ‹ˆλ‹€.

반면, 이 λ…Όλ¬Έμ—μ„œ μ œμ•ˆν•˜λŠ” 방식(Parallel Box Decoding)은 미리 μ€€λΉ„λœ β€˜μ‚¬κ³Ό μœ„μΉ˜ μŠ€ν‹°μ»€β€™λ₯Ό λ™μ‹œμ— μ°μ–΄λ‚΄λŠ” 것과 κ°™μŠ΅λ‹ˆλ‹€. μ’Œν‘œμ˜ 각 숫자λ₯Ό λ”°λ‘œλ”°λ‘œ μƒμ„±ν•˜λŠ” 게 μ•„λ‹ˆλΌ, λ°•μŠ€(Box)λΌλŠ” ν•˜λ‚˜μ˜ μ™„μ„±λœ λ‹¨μœ„(Atomic Unit)λ₯Ό ν†΅μ§Έλ‘œ μ˜ˆμΈ‘ν•©λ‹ˆλ‹€. μ΄λ ‡κ²Œ ν•˜λ©΄ 숫자 κ°„μ˜ 연결성이 μœ μ§€λ˜κ³ , μŠ€ν‹°μ»€λ₯Ό ν•œ λ²ˆμ— 찍어내듯 μ²˜λ¦¬ν•  수 μžˆμ–΄ 훨씬 λΉ λ₯΄κ³  μ •ν™•ν•©λ‹ˆλ‹€.

단계별 λ™μž‘ κ³Όμ •

  1. 이미지와 ν…μŠ€νŠΈ μž…λ ₯: λͺ¨λΈμ€ 이미지λ₯Ό 보고(Moon-ViT 인코더 μ‚¬μš©), μ‚¬μš©μžκ°€ μž…λ ₯ν•œ ν…μŠ€νŠΈ(β€œλΉ¨κ°„ μžλ™μ°¨ μ°Ύμ•„μ€˜β€)λ₯Ό μ΄ν•΄ν•©λ‹ˆλ‹€.
  2. λΉ„μ „ 토큰 μΆ”μΆœ: 이미지λ₯Ό 원본 해상도 κ·ΈλŒ€λ‘œ λΆ„μ„ν•˜μ—¬ 곡간적인 λ””ν…ŒμΌμ΄ μ‚΄μ•„μžˆλŠ” λΉ„μ „ ν† ν°λ“€λ‘œ λ³€ν™˜ν•©λ‹ˆλ‹€.
  3. 블둝 기반 예츑 (Block-Based Prediction): 기쑴처럼 토큰을 ν•˜λ‚˜μ”© μƒμ„±ν•˜λŠ” λŒ€μ‹ , λ°”μš΄λ”© λ°•μŠ€(Bounding Box) 정보λ₯Ό 담은 일정 길이(L=6)의 β€˜λΈ”λ‘β€™μ„ ν•œ λ‹¨μœ„λ‘œ μ˜ˆμΈ‘ν•©λ‹ˆλ‹€.
  4. 병렬 λ””μ½”λ”©: 이 블둝 λ‚΄λΆ€μ˜ μ’Œν‘œ 정보듀은 μ„œλ‘œ κΈ΄λ°€ν•˜κ²Œ μ—°κ²°λ˜μ–΄ μžˆμœΌλ―€λ‘œ, λͺ¨λΈμ€ 이λ₯Ό λ…λ¦½λœ μ—¬λŸ¬ 토큰이 μ•„λ‹Œ ν•˜λ‚˜μ˜ 묢음으둜 μ²˜λ¦¬ν•˜μ—¬ λ³‘λ ¬μ μœΌλ‘œ μΆ”λ‘ ν•©λ‹ˆλ‹€.

핡심 μˆ˜μ‹κ³Ό μ•Œκ³ λ¦¬μ¦˜

기쑴의 λ‹€μŒ 토큰 예츑(Next Token Prediction, NTP) 방식은 토큰 $t$κ°€ 이전 토큰듀에 μ˜μ‘΄ν•˜μ—¬ 순차적으둜 μƒμ„±λ˜μ§€λ§Œ, LocateAnything은 β€˜λΈ”λ‘β€™ $B$λ₯Ό κΈ°λ³Έ λ‹¨μœ„λ‘œ μ‚¬μš©ν•©λ‹ˆλ‹€.

λͺ¨λΈμ€ 이미지 정보 $Z$와 ν…μŠ€νŠΈ 쿼리 $\mathcal{E}$λ₯Ό λ°”νƒ•μœΌλ‘œ 전체 λ°•μŠ€ 블둝 μ‹œν€€μŠ€ $\mathbf{B} = (b_1, b_2, \dots, b_N)$의 κ²°ν•© ν™•λ₯ μ„ μΆ”κ΅¬ν•©λ‹ˆλ‹€.

$$P(\mathbf{B} \mid \mathcal{Z}, \mathcal{E}) = \prod_{i=1}^{N} P(b_i \mid b_{<i}, Z, \mathcal{E})$$

μ—¬κΈ°μ„œ 각 블둝 $b_i$λŠ” <box> μ‹œμž‘ 토큰, μ’Œν‘œ κ°’λ“€, 그리고 </box> μ’…λ£Œ 토큰을 ν¬ν•¨ν•˜λŠ” μ›μžμ  λ‹¨μœ„μž…λ‹ˆλ‹€. 이 μˆ˜μ‹μ˜ 핡심은 $b_i$ λ‚΄λΆ€μ˜ μ’Œν‘œ 토큰듀을 κ°œλ³„μ μœΌλ‘œ μƒμ„±ν•˜λŠ” 게 μ•„λ‹ˆλΌ, 블둝 λ‹¨μœ„λ‘œ ν•œ λ²ˆμ— ν•™μŠ΅ν•˜κ³  μΆ”λ‘ ν•¨μœΌλ‘œμ¨ κΈ°ν•˜ν•™μ  응집성을 μœ μ§€ν•œλ‹€λŠ” μ μž…λ‹ˆλ‹€.

3. μ‹€ν—˜ κ²°κ³Ό 뢄석

벀치마크 및 μ„±λŠ₯

연ꡬ진은 객체 νƒμ§€μ˜ ν‘œμ€€ 데이터셋인 COCO와 κΈ΄ 꼬리 뢄포(Long-tailed)λ₯Ό κ°€μ§„ LVIS λ°μ΄ν„°μ…‹μ—μ„œ μ„±λŠ₯을 μΈ‘μ •ν–ˆμŠ΅λ‹ˆλ‹€.

  • 정확도: LocateAnything은 Grounding DINO와 같은 κ°•λ ₯ν•œ μ˜€ν”ˆμ…‹ 탐지기(Open-set Detector)듀을 제치고 졜고 μˆ˜μ€€(SOTA)의 정확도(F1 Score)λ₯Ό κΈ°λ‘ν–ˆμŠ΅λ‹ˆλ‹€. 특히 LVIS λ°μ΄ν„°μ…‹μ—μ„œ 희귀 클래슀(Rare Class)에 λŒ€ν•œ 탐지 μ„±λŠ₯이 크게 ν–₯μƒλ˜μ—ˆμŠ΅λ‹ˆλ‹€.
  • 속도 (Throughput): BPS(Boxes Per Second, μ΄ˆλ‹Ή 생성 κ°€λŠ₯ν•œ λ°•μŠ€ 수) μ§€ν‘œμ—μ„œ κΈ°μ‘΄ 경쟁 방식 λŒ€λΉ„ μ΅œλŒ€ 2.5λ°° λΉ λ₯Έ 처리 속도λ₯Ό λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” 병렬 디코딩이 μ‹€μ œλ‘œ μ–Όλ§ˆλ‚˜ λ§Žμ€ μΆ”λ‘  μ‹œκ°„μ„ λ‹¨μΆ•μ‹œν‚€λŠ”μ§€λ₯Ό 증λͺ…ν•©λ‹ˆλ‹€.
  • 데이터 효과: 1μ–΅ 3,800만 개(138M)의 λ°©λŒ€ν•œ ν›ˆλ ¨ 데이터(LocateAnything-Data)λ₯Ό μ‚¬μš©ν•˜μ—¬, 적은 μ–‘μ˜ λ°μ΄ν„°λ‘œ ν›ˆλ ¨λœ λͺ¨λΈλ³΄λ‹€ 훨씬 더 높은 정밀도와 μΌλ°˜ν™” μ„±λŠ₯을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

μ£Όλͺ©ν•  λ§Œν•œ μ„±κ³Ό

이 λͺ¨λΈμ€ λ‹¨μˆœνžˆ μ •μ§€λœ μ΄λ―Έμ§€μ—μ„œλ§Œ μž˜ν•˜λŠ” 것이 μ•„λ‹™λ‹ˆλ‹€. μ‹€μ‹œκ°„μœΌλ‘œ μ›€μ§μ΄λŠ” ν™˜κ²½μ΄λ‚˜ μˆ˜λ§Žμ€ 객체가 뭉쳐 μžˆλŠ” λ°€μ§‘λœ 상황(Dense Detection)μ—μ„œλ„ μœ μ—°ν•˜κ²Œ λŒ€μ²˜ν•  수 μžˆλ„λ‘ ν›ˆλ ¨λ˜μ—ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” μ‹€μ œ λ‘œλ΄‡μ΄ 자율 주행을 ν•˜κ±°λ‚˜ λ³΅μž‘ν•œ UI 화면을 μ œμ–΄ν•΄μ•Ό ν•˜λŠ” μƒν™©μ—μ„œ 맀우 μ€‘μš”ν•œ νŠΉμ„±μž…λ‹ˆλ‹€.

4. ν•œκ³„μ κ³Ό ν–₯ν›„ 연ꡬ λ°©ν–₯

μ €μžκ°€ μ–ΈκΈ‰ν•œ ν•œκ³„

ν˜„μž¬ λͺ¨λΈμ€ 주둜 지도 ν•™μŠ΅(Supervised Fine-Tuning)에 μ˜μ‘΄ν•˜μ—¬ ν•™μŠ΅λ˜μ—ˆμŠ΅λ‹ˆλ‹€. 즉, μ‚¬λžŒμ΄ 정닡을 λͺ¨λ‘ 달아쀀 데이터λ₯Ό 톡해 ν•™μŠ΅ν–ˆκΈ° λ•Œλ¬Έμ—, 정닡이 μ—†λŠ” μƒˆλ‘œμš΄ μƒν™©μ—μ„œ 슀슀둜 μ’Œν‘œλ₯Ό μ˜ˆμΈ‘ν•˜λŠ” 정책을 μ΅œμ ν™”ν•˜λŠ” λ°μ—λŠ” ν•œκ³„κ°€ μžˆμ„ 수 μžˆμŠ΅λ‹ˆλ‹€.

ν–₯ν›„ 연ꡬ λ°©ν–₯ 및 κ°œμ„ μ 

μ €μžλ“€μ€ 이 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ κ°•ν™” ν•™μŠ΅(Reinforcement Learning) λ„μž…μ„ μ œμ•ˆν•©λ‹ˆλ‹€. μ’Œν‘œ μ˜ˆμΈ‘μ— λŒ€ν•œ 보상 μ‹œμŠ€ν…œμ„ λ„μž…ν•˜λ©΄, λͺ¨λΈμ΄ 슀슀둜 더 μ •ν™•ν•œ μœ„μΉ˜λ₯Ό μ°Ύμ•„κ°€λŠ” 정책을 ν•™μŠ΅ν•  수 μžˆμ„ κ²ƒμž…λ‹ˆλ‹€. λ˜ν•œ, ν˜„μž¬λŠ” 블둝 디코딩이 μ‹€νŒ¨ν–ˆμ„ λ•Œ λ‹€μ‹œ μ‹œλ„ν•˜λŠ”(Fallback) λΉˆλ„λ₯Ό 쀄이고, 더 효과적인 탐색(Exploration) μ „λž΅μ„ μ—°κ΅¬ν•˜μ—¬ μΆ”λ‘ μ˜ 견고함(Robustness)을 λ†’μ΄λŠ” 것이 ν•„μš”ν•©λ‹ˆλ‹€.

5. 싀무 적용 κ°€λŠ₯μ„±

λ°”λ‘œ 적용 κ°€λŠ₯ν•œ λΆ„μ•Ό

  • μ‹€μ‹œκ°„ λ‘œλ΄‡ 및 자율 μ£Όν–‰: λ‘œλ΄‡μ΄ β€œμ €κΈ° μžˆλŠ” 물건을 μ§‘μ–΄μ€˜β€λΌλŠ” μ§€μ‹œλ₯Ό λ°›μ•˜μ„ λ•Œ, λŠλ¦¬μ§€ μ•Šκ³  μ¦‰κ°μ μœΌλ‘œ μœ„μΉ˜λ₯Ό νŒŒμ•…ν•΄ 물체λ₯Ό μ§‘μ–΄ 올릴 수 μžˆμŠ΅λ‹ˆλ‹€.
  • μžλ™ν™” UI ν…ŒμŠ€νŒ… 및 μ—μ΄μ „νŠΈ: 컴퓨터 ν™”λ©΄μ˜ UI μš”μ†Œ(λ²„νŠΌ, μž…λ ₯μ°½ λ“±)λ₯Ό 맀우 λΉ λ₯΄κ²Œ μΈμ‹ν•˜μ—¬ 마우슀λ₯Ό μ œμ–΄ν•˜λŠ” RPA(λ‘œλ΄‡ ν”„λ‘œμ„ΈμŠ€ μžλ™ν™”)λ‚˜ μžλ™ν™” ν…ŒμŠ€νŒ… 도ꡬ에 μ¦‰μ‹œ ν™œμš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  • λŒ€ν™”ν˜• λΉ„λ””μ˜€ 검색: κΈ΄ λΉ„λ””μ˜€ μ˜μƒμ—μ„œ μ‚¬μš©μžκ°€ λ¬»λŠ” νŠΉμ • μž₯λ©΄μ΄λ‚˜ 객체λ₯Ό μ‹€μ‹œκ°„μœΌλ‘œ λΉ λ₯΄κ²Œ μ°Ύμ•„λ‚΄λŠ” μ„œλΉ„μŠ€λ₯Ό λ§Œλ“€ 수 μžˆμŠ΅λ‹ˆλ‹€.

ν•„μš”ν•œ λ¦¬μ†ŒμŠ€

  • μΆ”λ‘ (Inference) ν™˜κ²½: 병렬 λ””μ½”λ”© 덕뢄에 κΈ°μ‘΄ VLMλ³΄λ‹€λŠ” 적은 μ—°μ‚°λŸ‰μœΌλ‘œ λ™μž‘ν•˜μ§€λ§Œ, μ—¬μ „νžˆ 고해상도 이미지λ₯Ό μ²˜λ¦¬ν•˜λŠ” Moon-ViT 인코더와 Qwen2.5 μ–Έμ–΄ λͺ¨λΈμ„ λŒλ €μ•Ό ν•˜λ―€λ‘œ A100μ΄λ‚˜ H100κ³Ό 같은 κ³ μ„±λŠ₯ GPUκ°€ ν•„μš”ν•©λ‹ˆλ‹€.
  • 데이터: ν•™μŠ΅μ„ μœ„ν•΄μ„œλŠ” 1μ–΅ 3,800만 개의 κ±°λŒ€ν•œ 데이터셋이 ν•„μš”ν•˜μ§€λ§Œ, 이미 ν›ˆλ ¨λœ λͺ¨λΈμ„ μ‚¬μš©ν•œλ‹€λ©΄ λ³„λ„μ˜ 데이터 μˆ˜μ§‘ 없이 λ°”λ‘œ ν™œμš© κ°€λŠ₯ν•©λ‹ˆλ‹€.

6. 이 논문을 μ΄ν•΄ν•˜κΈ° μœ„ν•œ 사전 지식

  • λΉ„μ „-μ–Έμ–΄ λͺ¨λΈ (Vision-Language Model, VLM): 이미지와 ν…μŠ€νŠΈλ₯Ό λ™μ‹œμ— μ΄ν•΄ν•˜κ³  μ²˜λ¦¬ν•  수 μžˆλŠ” 인곡지λŠ₯ λͺ¨λΈλ‘œ, GPT-4oλ‚˜ CLIP 등이 여기에 μ†ν•©λ‹ˆλ‹€.
  • λΉ„μ „ κ·ΈλΌμš΄λ”© (Visual Grounding): ν…μŠ€νŠΈλ‘œ μ„€λͺ…λœ λŒ€μƒμ΄ 이미지 λ‚΄μ—μ„œ 어디에 μœ„μΉ˜ν•˜λŠ”μ§€ μ°Ύμ•„λ‚΄λŠ” μž‘μ—…μž…λ‹ˆλ‹€.
  • λ‹€μŒ 토큰 예츑 (Next Token Prediction, NTP): ChatGPT와 같은 μ–Έμ–΄ λͺ¨λΈμ΄ λ‹€μŒμ— 올 단어λ₯Ό λ§žμΆ”λŠ” λ°©μ‹μœΌλ‘œ, λ¬Έμž₯을 순차적으둜 μƒμ„±ν•˜λŠ” ν‘œμ€€μ μΈ λ°©λ²•μž…λ‹ˆλ‹€.
  • λ°”μš΄λ”© λ°•μŠ€ (Bounding Box): 이미지 속 객체의 μœ„μΉ˜λ₯Ό λ‚˜νƒ€λ‚΄κΈ° μœ„ν•΄ κ·Έλ¦¬λŠ” μ‚¬κ°ν˜• ν…Œλ‘λ¦¬ μƒμžμž…λ‹ˆλ‹€.
  • 지도 ν•™μŠ΅ (Supervised Fine-Tuning, SFT): λͺ¨λΈμ΄ 정닡이 라벨링된 데이터λ₯Ό μ‚¬μš©ν•˜μ—¬ νŠΉμ • μž‘μ—…μ„ μˆ˜ν–‰ν•˜λ„λ‘ λ―Έμ„Έ μ‘°μ •ν•˜λŠ” ν•™μŠ΅ λ°©μ‹μž…λ‹ˆλ‹€.
  • 병렬 처리 (Parallelism): μ—¬λŸ¬ μž‘μ—…μ„ λ™μ‹œμ— μ‹€ν–‰ν•˜μ—¬ 속도λ₯Ό λ†’μ΄λŠ” μ»΄ν“¨νŒ… κΈ°λ²•μž…λ‹ˆλ‹€.
  • IoU (Intersection over Union): λͺ¨λΈμ΄ μ˜ˆμΈ‘ν•œ λ°•μŠ€μ™€ μ‹€μ œ μ •λ‹΅ λ°•μŠ€κ°€ μ–Όλ§ˆλ‚˜ κ²ΉμΉ˜λŠ”μ§€λ₯Ό λ‚˜νƒ€λ‚΄λŠ” μ§€ν‘œ(0~1 μ‚¬μ΄μ˜ κ°’)둜, 객체 탐지 μ„±λŠ₯을 평가할 λ•Œ μ”λ‹ˆλ‹€.

πŸ“š 이번 μ£Ό κ΄€λ ¨ Deep Dive

μˆœμœ„λ…Όλ¬ΈDeep Dive
πŸ₯‡Gamma-World: Generative Multi-Agent…DD-097
πŸ₯ˆSkillOpt: Executive Strategy for Se…DD-098
πŸ₯‰DVAO: Dynamic Variance-adaptive Adv…DD-099
4.LocateAnything: Fast and High-Qualiβ€¦πŸ“ ν˜„μž¬ λ¬Έμ„œ
5.AgentDoG 1.5: A Lightweight and Sca…DD-101

πŸ“… 생성일: 2026-05-31 | πŸ€– GLM-4.7 Deep Dive