โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-067 WildDet3D: Scaling Promptable 3D Detection in the Wild
arXiv: 2604.08626 ๊ธฐ๊ด: Ai2 Upvotes: 238 | Comments: 4 ์์: ์ด๋ฒ ์ฃผ Top 1
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๋จ์ 3D็ฉไฝ ๊ฒ์ถ(Monocular 3D Object Detection) ๋ฐฉ์๋ค์ ๋ฏธ๋ฆฌ ์ ํด์ง ์ข์ ๋ฒ์ฃผ์ ๋ฌผ์ฒด๋ง ์ธ์ํ๊ฑฐ๋, ํน์ ํ ๊ฐ์ง ์ ๋ ฅ ๋ฐฉ์(ํ ์คํธ ๋๋ ๋ฐ์ค)์๋ง ์์กดํ๋ ํ๊ณ๊ฐ ์์ด ์ค์ ์ด๋ฆฐ ํ์ฅ์์๋ ์ฌ์ฉํ๊ธฐ ์ด๋ ค์ ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ํ ์คํธ, ์ , ๋ฐ์ค ๋ฑ ๋ค์ํ ํ๋กฌํํธ๋ฅผ ํ๋์ ๋ชจ๋ธ๋ก ํตํฉํ๊ณ , ํ์ ์ ๊น์ด ์ ๋ณด ๊ฐ์ ๋ณด์กฐ ๊ธฐํํ์ ๋จ์๊น์ง ํ์ฉํ ์ ์๋ ์ ์ฐํ ์ํคํ ์ฒ์ธ WildDet3D๋ฅผ ์ ์ํฉ๋๋ค. ๋ํ, ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด ์ง๊ธ๊น์ง ๊ฐ์ฅ ํฐ ๊ท๋ชจ์ ์คํ 3D ๊ฒ์ถ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ์ฌ ํ์ค ์ธ๊ณ์ ๋ค์ํ ๋ฌผ์ฒด๋ฅผ 3D๋ก ์ดํดํ๋ ์๋ก์ด ๊ธฐ์ค์ ๋ง๋ จํ์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ์์ ๋น์ ํ์๋ฉด, WildDet3D๋ ์ค์์ค ์๋ฏธ ๋์ดํ์ ๊ฐ์ ์ญํ ์ ํ๋ โ์ํผ ์ธ๊ณต์ง๋ฅ ๋น์โ๋ผ๊ณ ํ ์ ์์ต๋๋ค. ๊ธฐ์กด์ AI ๋น์๋ โ์ปต ๊ฐ์ ธ์โ๋ผ๋ ๋ง(ํ ์คํธ ํ๋กฌํํธ)๋ง ์์๋ค์ ์ ์์๊ณ , ๋ง์ฝ ์ฌ์ฉ์๊ฐ ํ๋ฉด์ ์ปต์ ์๊ฐ๋ฝ์ผ๋ก ๊ฐ๋ฆฌํค๊ฑฐ๋(์ ํ๋กฌํํธ) ํ๋ฉด์ ๋ค๋ชจ ๋ฐ์ค๋ฅผ ๊ทธ๋ ค์(๋ฐ์ค ํ๋กฌํํธ) ์ง์ํ๋ฉด ์์๋ฃ์ง ๋ชปํ์ต๋๋ค. ํ์ง๋ง ์ด ๋น์๋ ๋ง๋ก ์ํค๋ , ํ๋ฉด์ ์ฝ ์ฐ๋ , ๋ฐ์ค๋ฅผ ๊ทธ๋ฆฌ๋ ๋ชจ๋ ์ง์๋ฅผ ์๋ฒฝํ๊ฒ ์ดํดํ๋ฉฐ, ์ฌ์ง์ด ์๊ฒฝ์ ์ฐ๊ณ ๋ณด๋ฉด(๊น์ด ์ผ์ ํ์ฉ) ๋ฌผ์ฒด์ ๊ฑฐ๋ฆฌ๋ฅผ ํจ์ฌ ๋ ์ ํํ๊ฒ ์์๋ ๋๋ค.
๋์ ๊ณผ์ ์ ์กฐ๊ธ ๋ ๊ตฌ์ฒด์ ์ผ๋ก ๋ค์ฌ๋ค๋ณด๋ฉด, ์ด ๋ชจ๋ธ์ ๋จผ์ ์ฌ์ง ์์์ ๋ฌผ์ฒด์ ๋ชจ์๊ณผ ํน์ง์ ์ถ์ถํฉ๋๋ค. ๊ทธ๋ค์ ์ฌ์ฉ์๊ฐ ์ ๋ ฅํ ํ ์คํธ๋ ์ , ๋ฐ์ค ์ ๋ณด๋ฅผ ํ๋์ ๊ณตํต๋ ์ธ์ด๋ก ๋ฒ์ญํ์ฌ ์ฌ์ง ์ ๋ณด์ ๋งค์นญํฉ๋๋ค. ์ฌ๊ธฐ์ ํต์ฌ์ โ๊ธฐํํ์ ์ธ์ง(Geometry-aware)โ ๋ฅ๋ ฅ์ธ๋ฐ, ๋ง์ฝ ๋ผ์ด๋ค(LiDAR)๋ ๊น์ด ์ผ์์์ ์ถ๊ฐ ์ ๋ณด๊ฐ ๋ค์ด์ค๋ฉด ์ด๋ฅผ ๋ ์ฆ์ฒ๋ผ ํ์ฉํด ๋จ์ํ 2D ์ฌ์ง ์ ๋ณด๋ง์ผ๋ก๋ ํ์ ํ๊ธฐ ํ๋ ๋ฌผ์ฒด์ ์ ํํ ์์น์ ํฌ๊ธฐ๋ฅผ 3D ๊ณต๊ฐ ์์ ๋งคํํฉ๋๋ค.
๊ธฐ์ ์ ์ธ ํต์ฌ ์๊ณ ๋ฆฌ์ฆ ์ธก๋ฉด์์ ๋ณด๋ฉด, ์ด ๋ชจ๋ธ์ ์๋ก ๋ค๋ฅธ ํํ์ ํ๋กฌํํธ(ํ ์คํธ, ์ , ๋ฐ์ค)๋ฅผ ํ๋์ ํตํฉ๋ ์๋ฒ ๋ฉ ๊ณต๊ฐ(Embedding Space)์ผ๋ก ํฌ์ํ๋ ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ฌ๊ธฐ์ ๊น์ด ์ ๋ณด๊ฐ ์์ ๊ฒฝ์ฐ ์ด๋ฅผ ํน์ง ๋งต(Feature Map)์ ๊ฒฐํฉํ๋ ์ด๋ํฐ ๋ชจ๋์ ๊ฑฐ์ณ, ์ต์ข ์ ์ผ๋ก 3D ๊ฒฝ๊ณ ์์(Bounding Box)์ ์์น, ํฌ๊ธฐ, ํ์ ๊ฐ์ ์์ธกํ๋ ๋จธ๋ฆฌ(Head) ๋คํธ์ํฌ๋ก ์ ๋ฌ๋ฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ฐ๊ตฌ์ง์ ์์จ์ฃผ์ฐจ ๋ฐ ๋๋ก ์ฃผํ ์๋๋ฆฌ์ค์ธ KITTI์ Apollo3D ๊ฐ์ ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ฟ๋ง ์๋๋ผ, ์ด๋ฒ์ ์๋กญ๊ฒ ๊ตฌ์ถํ WildDet3D-Data ๋ฐ์ดํฐ์ ์์๋ ์ฑ๋ฅ์ ๊ฒ์ฆํ์ต๋๋ค. ํนํ ํ์ตํ์ง ์์ ์๋ก์ด ์ข ๋ฅ์ ๋ฌผ์ฒด(Zero-shot)๋ฅผ ๊ฒ์ถํ๋ ๋ฅ๋ ฅ์ ํ๊ฐํ ๊ฒฐ๊ณผ, ๊ธฐ์กด ์ต์ ๊ธฐ์ (SOTA) ๋๋น ํ ์คํธ ํ๋กฌํํธ ๊ธฐ์ค์ผ๋ก ํ๊ท ์ ํ๋(AP)๊ฐ ์ ์๋ฏธํ๊ฒ ์์นํ๋ ๊ฒ์ ํ์ธํ์ต๋๋ค.
๊ตฌ์ฒด์ ์ธ ์์น๋ ๋ ผ๋ฌธ์ ์ ์ฒด ํ ์ด๋ธ์ ํ์ธํด์ผ ํ์ง๋ง, ์์ฝ ๋ถ๋ถ์์๋ ๊น์ด ์ ๋ณด๋ฅผ ๋ณด์กฐ ์ ํธ๋ก ํ์ฉํ์ ๋ 3D ์์น ์ถ์ ์ ํ๋๊ฐ ํฌ๊ฒ ๊ฐ์ ๋์๋ค๊ณ ๋ณด๊ณ ํ๊ณ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊น์ด ์ ๋ณด๊ฐ ์ ํ ์๋ ๋จ์ ์ด๋ฏธ์ง๋ง ์ฌ์ฉํ์ ๋๋ณด๋ค ํฌ์ํ ๋ผ์ด๋ค(Sparse LiDAR) ์ ๋ณด๋ฅผ ๊ฒฐํฉํ์ ๋ ์ค์ฐจ๊ฐ ํ๊ธฐ์ ์ผ๋ก ์ค์ด๋ค์ด, ํ์ค ํ๊ฒฝ์์ ๋ค์ํ ์ผ์๋ฅผ ์ตํฉํ๋ ๊ฒ์ด ์ผ๋ง๋ ์ค์ํ์ง๋ฅผ ์ ์ฆํ์ต๋๋ค. ๋ํ ์์ฒ๋ง ๊ฐ์ ์ด๋ฏธ์ง๋ก ๊ตฌ์ฑ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ํตํด ํ์ต๋ ๋ชจ๋ธ์ ๊ธฐ์กด ๋ฐ์ดํฐ์ ์์๋ ๋ณผ ์ ์์๋ ์ฅ๋๊ฐ, ๊ฐ๊ตฌ ๋ฑ ๋ค์ํ โ์ผ์(Wild)โ ์นดํ ๊ณ ๋ฆฌ์ ๋ฌผ์ฒด๋ ์ค์๊ฐ์ผ๋ก ์ ์ฐพ์๋ด๋ ์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๋ค์ ํ์ฌ ๋ชจ๋ธ์ด ๋จ์ ์ด๋ฏธ์ง์ ํ๊ณ๋ก ์ธํด ๋ฌผ์ฒด๊ฐ ์ฌํ๊ฒ ๊ฐ๋ ค์ ธ ์๊ฑฐ๋(Occlusion), ํ ์ค์ฒ๊ฐ ๋ถ์กฑํ ๊ฒฝ์ฐ์๋ 3D ์์น ์ถ์ ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์๋ค๊ณ ์ธ์ ํ๊ณ ์์ต๋๋ค. ๋ํ, ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ์๋์ผ๋ก ์์ฑํ๋ ๊ณผ์ ์์ ๋ ธ์ด์ฆ๊ฐ ์์ผ ๊ฐ๋ฅ์ฑ์ด ์์ผ๋ฉฐ, ์ด๋ฅผ ์ ์ ํ๋ ๊ณผ์ ์ด ์ถ๊ฐ์ ์ผ๋ก ํ์ํฉ๋๋ค.
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก๋ ๋น๋์ค ์ํ์ค๋ฅผ ํ์ฉํ์ฌ ์๊ฐ์ ์ผ๊ด์ฑ(Temporal Consistency)์ ๊ฐํํ๋ ๊ฒ๊ณผ, ๋ ์ ๊ตํ ์ผ์ ์ตํฉ ๊ธฐ๋ฒ์ ํตํด ์ค์๊ฐ ์ฑ๋ฅ์ ์ ํ์ํค์ง ์์ผ๋ฉด์๋ ์ ํ๋๋ฅผ ๋์ด๋ ๋ฐฉ๋ฒ์ด ์ ์๋์์ต๋๋ค. ๋ํ, ํ์ฌ์ ๋ฐ์ดํฐ์ ์ ๋์ฑ ๋ค์ํ ๋ฌธํ๊ถ๊ณผ ํ๊ฒฝ์ผ๋ก ํ์ฅํ์ฌ ์ ์ธ๊ณ์ ์ธ โ์ผ์โ ํ๊ฒฝ์์๋ ์ ์๋ํ๋ ๋ง๋ฅ ํ์ง๊ธฐ๋ก ๋ฐ์ ์ํค๋ ค๋ ๋ชฉํ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด ๊ธฐ์ ์ ๋ก๋ด ๊ณตํ ๋ฐ ์๋ฒ ๋๋ AI ๋ถ์ผ์ ์ฆ์ ์ ์ฉํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊ฐ์ ์ฉ ๋ก๋ด์ด ์ฌ์ฉ์๊ฐ โ์ ๊ธฐ ์ฑ ์ ์์ ์๋ ๋ง์ดํฌ ๊ฐ์ ธ์โ๋ผ๊ณ ๋งํ๊ฑฐ๋, ์ค๋งํธํฐ ์ฑ์ผ๋ก ์ฑ ์์ ์ดฌ์ํ๋ฉฐ ํ๋ฉด์ ํฐ์นํ๊ธฐ๋ง ํด๋ ์ ํํ 3D ์ขํ๋ก ํ์ ํ์ฌ ๋ฌผ์ฒด๋ฅผ ์ง์ด ์ฌ๋ฆฌ๋ ์๋น์ค๋ฅผ ๋ง๋ค ์ ์์ต๋๋ค.
๋ํ ์ฆ๊ฐํ์ค(AR) ๋ฐ ๊ฐ์ํ์ค(VR) ์ผํ์ด๋ ์ธํ ๋ฆฌ์ด ์๋ฎฌ๋ ์ด์ ์๋ ํ์ฉ๋ ์ ์์ต๋๋ค. ์ฌ์ฉ์๊ฐ ์นด๋ฉ๋ผ๋ก ๋ฐฉ์ ๋น์ถ๋ฉฐ โ์ฌ๊ธฐ์ ์ํ๋ฅผ ๋์๋ดโ๋ผ๊ณ ์ง์ํ๋ฉด, ๋ฐ๋ฅ์ ์ ํํ ๊น์ด์ ์์น๋ฅผ ๊ณ์ฐํ์ฌ ๊ฐ๊ตฌ๊ฐ ์ค์ ๋ก ๋ฐฐ์น๋ ๊ฒ์ฒ๋ผ ์์ฐ์ค๋ฝ๊ฒ ๋ ๋๋งํด ์ค ์ ์์ต๋๋ค. ๋ค๋ง, ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์ค์๊ฐ์ผ๋ก ์ฒ๋ฆฌํ๊ณ ๋ณต์กํ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ๋๋ ค์ผ ํ๋ฏ๋ก, ์์ง ๋๋ฐ์ด์ค ๋ด์์ ๊ตฌ๋ํ๋ ค๋ฉด ์ต์ ็บง็ GPU๋ ์ถฉ๋ถํ ๋ฉ๋ชจ๋ฆฌ ์์์ด ํ๋ณด๋์ด์ผ ํฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ๋จ์ 3D ๋ฌผ์ฒด ๊ฒ์ถ(Monocular 3D Object Detection): ์นด๋ฉ๋ผ ํ ๋(๋จ์)๋ก ์ฐ์ 2D ์ด๋ฏธ์ง์์ ๋ฌผ์ฒด์ 3D ์์น์ ํฌ๊ธฐ, ํ์ ์ ๋ณด๋ฅผ ์์ธกํ๋ ๊ธฐ์ ์ ๋๋ค.
- ์คํ ๋ณด์บ๋ทธ๋ฌ๋ฆฌ ๋ฌ๋(Open-Vocabulary Learning): ํ์ต ์์ ๋ณด์ง ๋ชปํ๋ ์๋ก์ด ์นดํ ๊ณ ๋ฆฌ์ ๋จ์ด๋ ๋ฌผ์ฒด๋ ํ ์คํธ ์ค๋ช ๋ฑ์ ํตํด ์ธ์ํ ์ ์๊ฒ ํ๋ ํ์ต ๋ฐฉ์์ ๋๋ค.
- ํ๋กฌํํธ ์์ง๋์ด๋ง(Prompt Engineering): ๋ชจ๋ธ์ด ์ํ๋ ์ถ๋ ฅ์ ๋ด๋๋ก ์ ๋ ฅ(ํ๋กฌํํธ)์ ์ต์ ํํ๋ ๊ธฐ๋ฒ์ผ๋ก, ์ฌ๊ธฐ์๋ ํ ์คํธ๋ฟ๋ง ์๋๋ผ ์ ์ด๋ ๋ฐ์ค๋ ํ๋กฌํํธ๋ก ์ฌ์ฉํฉ๋๋ค.
- ๋ ์ด๋์ ๋ผ์ด๋ค(LiDAR): ๋ ์ด์ ๋ฅผ ์์ ๋ฐ์ฌ๋๋ ์๊ฐ์ ์ธก์ ํด ๊ฑฐ๋ฆฌ๋ฅผ ์์๋ด๋ ์ผ์๋ก, 3D ๊ณต๊ฐ ์ ๋ณด๋ฅผ ์ป๋ ๋ฐ ํต์ฌ์ ์ธ ์ญํ ์ ํฉ๋๋ค.
- ๊ฒฝ๊ณ ์์(Bounding Box): ์ด๋ฏธ์ง๋ 3D ๊ณต๊ฐ์์ ๋ฌผ์ฒด์ ์์น๋ฅผ ๋ํ๋ด๊ธฐ ์ํด ๋ฌผ์ฒด๋ฅผ ๊ฐ์ธ๋ ์ง์ก๋ฉด์ฒด ํํ์ ์์์ ๋๋ค.
- ํธ๋์คํฌ๋จธ(Transformer): ์์ฐ์ด ์ฒ๋ฆฌ์์ ์์๋์ด ํ์ฌ ๋น์ ๋ถ์ผ์์๋ ํ์ค์ฒ๋ผ ์ฐ์ด๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ ๊ตฌ์กฐ๋ก, ๋ฐ์ดํฐ ๊ฐ์ ๊ด๊ณ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ตํฉ๋๋ค.
- ์ ๋ก ์ท ๋ฌ๋(Zero-Shot Learning): ํ์ต ๋ฐ์ดํฐ์ ์ ํ ์๋ ํด๋์ค์ ์ํ์ ๋ํด์๋ ๋ถ๋ฅ๋ ๊ฒ์ถ์ ์ํํ๋ ๋ฅ๋ ฅ์ ๋งํฉ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | WildDet3D: Scaling Promptable 3D Deโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | Seedance 2.0: Advancing Video Generโฆ | DD-068 |
| ๐ฅ | The Past Is Not Past: Memory-Enhancโฆ | DD-069 |
| 4. | ClawGUI: A Unified Framework for Trโฆ | DD-070 |
| 5. | QuanBench+: A Unified Multi-Framewoโฆ | DD-071 |
๐ ์์ฑ์ผ: 2026-04-19 | ๐ค GLM-4.7 Deep Dive