โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-067 WildDet3D: Scaling Promptable 3D Detection in the Wild

arXiv: 2604.08626 ๊ธฐ๊ด€: Ai2 Upvotes: 238 | Comments: 4 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 1


1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ๋‹จ์•ˆ 3D็‰ฉไฝ“ ๊ฒ€์ถœ(Monocular 3D Object Detection) ๋ฐฉ์‹๋“ค์€ ๋ฏธ๋ฆฌ ์ •ํ•ด์ง„ ์ข์€ ๋ฒ”์ฃผ์˜ ๋ฌผ์ฒด๋งŒ ์ธ์‹ํ•˜๊ฑฐ๋‚˜, ํŠน์ • ํ•œ ๊ฐ€์ง€ ์ž…๋ ฅ ๋ฐฉ์‹(ํ…์ŠคํŠธ ๋˜๋Š” ๋ฐ•์Šค)์—๋งŒ ์˜์กดํ•˜๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์–ด ์‹ค์ œ ์—ด๋ฆฐ ํ˜„์žฅ์—์„œ๋Š” ์‚ฌ์šฉํ•˜๊ธฐ ์–ด๋ ค์› ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ํ…์ŠคํŠธ, ์ , ๋ฐ•์Šค ๋“ฑ ๋‹ค์–‘ํ•œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ํ•˜๋‚˜์˜ ๋ชจ๋ธ๋กœ ํ†ตํ•ฉํ•˜๊ณ , ํ•„์š” ์‹œ ๊นŠ์ด ์ •๋ณด ๊ฐ™์€ ๋ณด์กฐ ๊ธฐํ•˜ํ•™์  ๋‹จ์„œ๊นŒ์ง€ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์œ ์—ฐํ•œ ์•„ํ‚คํ…์ฒ˜์ธ WildDet3D๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด ์ง€๊ธˆ๊นŒ์ง€ ๊ฐ€์žฅ ํฐ ๊ทœ๋ชจ์˜ ์˜คํ”ˆ 3D ๊ฒ€์ถœ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜์—ฌ ํ˜„์‹ค ์„ธ๊ณ„์˜ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด๋ฅผ 3D๋กœ ์ดํ•ดํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ธฐ์ค€์„ ๋งˆ๋ จํ–ˆ์Šต๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ์—์„œ ๋น„์œ ํ•˜์ž๋ฉด, WildDet3D๋Š” ์Šค์œ„์Šค ์•„๋ฏธ ๋‚˜์ดํ”„์™€ ๊ฐ™์€ ์—ญํ• ์„ ํ•˜๋Š” โ€˜์Šˆํผ ์ธ๊ณต์ง€๋Šฅ ๋น„์„œโ€™๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ AI ๋น„์„œ๋Š” โ€œ์ปต ๊ฐ€์ ธ์™€โ€๋ผ๋Š” ๋ง(ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ)๋งŒ ์•Œ์•„๋“ค์„ ์ˆ˜ ์žˆ์—ˆ๊ณ , ๋งŒ์•ฝ ์‚ฌ์šฉ์ž๊ฐ€ ํ™”๋ฉด์˜ ์ปต์„ ์†๊ฐ€๋ฝ์œผ๋กœ ๊ฐ€๋ฆฌํ‚ค๊ฑฐ๋‚˜(์  ํ”„๋กฌํ”„ํŠธ) ํ™”๋ฉด์— ๋„ค๋ชจ ๋ฐ•์Šค๋ฅผ ๊ทธ๋ ค์„œ(๋ฐ•์Šค ํ”„๋กฌํ”„ํŠธ) ์ง€์‹œํ•˜๋ฉด ์•Œ์•„๋“ฃ์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด ๋น„์„œ๋Š” ๋ง๋กœ ์‹œํ‚ค๋“ , ํ™”๋ฉด์„ ์ฝ• ์ฐ๋“ , ๋ฐ•์Šค๋ฅผ ๊ทธ๋ฆฌ๋“  ๋ชจ๋“  ์ง€์‹œ๋ฅผ ์™„๋ฒฝํ•˜๊ฒŒ ์ดํ•ดํ•˜๋ฉฐ, ์‹ฌ์ง€์–ด ์•ˆ๊ฒฝ์„ ์“ฐ๊ณ  ๋ณด๋ฉด(๊นŠ์ด ์„ผ์„œ ํ™œ์šฉ) ๋ฌผ์ฒด์˜ ๊ฑฐ๋ฆฌ๋ฅผ ํ›จ์”ฌ ๋” ์ •ํ™•ํ•˜๊ฒŒ ์•Œ์•„๋ƒ…๋‹ˆ๋‹ค.

๋™์ž‘ ๊ณผ์ •์„ ์กฐ๊ธˆ ๋” ๊ตฌ์ฒด์ ์œผ๋กœ ๋“ค์—ฌ๋‹ค๋ณด๋ฉด, ์ด ๋ชจ๋ธ์€ ๋จผ์ € ์‚ฌ์ง„ ์†์—์„œ ๋ฌผ์ฒด์˜ ๋ชจ์–‘๊ณผ ํŠน์ง•์„ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋‹ค์Œ ์‚ฌ์šฉ์ž๊ฐ€ ์ž…๋ ฅํ•œ ํ…์ŠคํŠธ๋‚˜ ์ , ๋ฐ•์Šค ์ •๋ณด๋ฅผ ํ•˜๋‚˜์˜ ๊ณตํ†ต๋œ ์–ธ์–ด๋กœ ๋ฒˆ์—ญํ•˜์—ฌ ์‚ฌ์ง„ ์ •๋ณด์™€ ๋งค์นญํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ํ•ต์‹ฌ์€ โ€˜๊ธฐํ•˜ํ•™์  ์ธ์ง€(Geometry-aware)โ€™ ๋Šฅ๋ ฅ์ธ๋ฐ, ๋งŒ์•ฝ ๋ผ์ด๋‹ค(LiDAR)๋‚˜ ๊นŠ์ด ์„ผ์„œ์—์„œ ์ถ”๊ฐ€ ์ •๋ณด๊ฐ€ ๋“ค์–ด์˜ค๋ฉด ์ด๋ฅผ ๋ Œ์ฆˆ์ฒ˜๋Ÿผ ํ™œ์šฉํ•ด ๋‹จ์ˆœํ•œ 2D ์‚ฌ์ง„ ์ •๋ณด๋งŒ์œผ๋กœ๋Š” ํŒŒ์•…ํ•˜๊ธฐ ํž˜๋“  ๋ฌผ์ฒด์˜ ์ •ํ™•ํ•œ ์œ„์น˜์™€ ํฌ๊ธฐ๋ฅผ 3D ๊ณต๊ฐ„ ์ƒ์— ๋งคํ•‘ํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ์ˆ ์ ์ธ ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ธก๋ฉด์—์„œ ๋ณด๋ฉด, ์ด ๋ชจ๋ธ์€ ์„œ๋กœ ๋‹ค๋ฅธ ํ˜•ํƒœ์˜ ํ”„๋กฌํ”„ํŠธ(ํ…์ŠคํŠธ, ์ , ๋ฐ•์Šค)๋ฅผ ํ•˜๋‚˜์˜ ํ†ตํ•ฉ๋œ ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„(Embedding Space)์œผ๋กœ ํˆฌ์˜ํ•˜๋Š” ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์— ๊นŠ์ด ์ •๋ณด๊ฐ€ ์žˆ์„ ๊ฒฝ์šฐ ์ด๋ฅผ ํŠน์ง• ๋งต(Feature Map)์— ๊ฒฐํ•ฉํ•˜๋Š” ์–ด๋Œ‘ํ„ฐ ๋ชจ๋“ˆ์„ ๊ฑฐ์ณ, ์ตœ์ข…์ ์œผ๋กœ 3D ๊ฒฝ๊ณ„ ์ƒ์ž(Bounding Box)์˜ ์œ„์น˜, ํฌ๊ธฐ, ํšŒ์ „๊ฐ์„ ์˜ˆ์ธกํ•˜๋Š” ๋จธ๋ฆฌ(Head) ๋„คํŠธ์›Œํฌ๋กœ ์ „๋‹ฌ๋ฉ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์—ฐ๊ตฌ์ง„์€ ์ž์œจ์ฃผ์ฐจ ๋ฐ ๋„๋กœ ์ฃผํ–‰ ์‹œ๋‚˜๋ฆฌ์˜ค์ธ KITTI์™€ Apollo3D ๊ฐ™์€ ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ์ด๋ฒˆ์— ์ƒˆ๋กญ๊ฒŒ ๊ตฌ์ถ•ํ•œ WildDet3D-Data ๋ฐ์ดํ„ฐ์…‹์—์„œ๋„ ์„ฑ๋Šฅ์„ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ํ•™์Šตํ•˜์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ์ข…๋ฅ˜์˜ ๋ฌผ์ฒด(Zero-shot)๋ฅผ ๊ฒ€์ถœํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ, ๊ธฐ์กด ์ตœ์‹  ๊ธฐ์ˆ (SOTA) ๋Œ€๋น„ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ ๊ธฐ์ค€์œผ๋กœ ํ‰๊ท  ์ •ํ™•๋„(AP)๊ฐ€ ์œ ์˜๋ฏธํ•˜๊ฒŒ ์ƒ์Šนํ•˜๋Š” ๊ฒƒ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ตฌ์ฒด์ ์ธ ์ˆ˜์น˜๋Š” ๋…ผ๋ฌธ์˜ ์ „์ฒด ํ…Œ์ด๋ธ”์„ ํ™•์ธํ•ด์•ผ ํ•˜์ง€๋งŒ, ์š”์•ฝ ๋ถ€๋ถ„์—์„œ๋Š” ๊นŠ์ด ์ •๋ณด๋ฅผ ๋ณด์กฐ ์‹ ํ˜ธ๋กœ ํ™œ์šฉํ–ˆ์„ ๋•Œ 3D ์œ„์น˜ ์ถ”์ • ์ •ํ™•๋„๊ฐ€ ํฌ๊ฒŒ ๊ฐœ์„ ๋˜์—ˆ๋‹ค๊ณ  ๋ณด๊ณ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊นŠ์ด ์ •๋ณด๊ฐ€ ์ „ํ˜€ ์—†๋Š” ๋‹จ์•ˆ ์ด๋ฏธ์ง€๋งŒ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ๋ณด๋‹ค ํฌ์†Œํ•œ ๋ผ์ด๋‹ค(Sparse LiDAR) ์ •๋ณด๋ฅผ ๊ฒฐํ•ฉํ–ˆ์„ ๋•Œ ์˜ค์ฐจ๊ฐ€ ํš๊ธฐ์ ์œผ๋กœ ์ค„์–ด๋“ค์–ด, ํ˜„์‹ค ํ™˜๊ฒฝ์—์„œ ๋‹ค์–‘ํ•œ ์„ผ์„œ๋ฅผ ์œตํ•ฉํ•˜๋Š” ๊ฒƒ์ด ์–ผ๋งˆ๋‚˜ ์ค‘์š”ํ•œ์ง€๋ฅผ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ˆ˜์ฒœ๋งŒ ๊ฐœ์˜ ์ด๋ฏธ์ง€๋กœ ๊ตฌ์„ฑ๋œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์„ ํ†ตํ•ด ํ•™์Šต๋œ ๋ชจ๋ธ์€ ๊ธฐ์กด ๋ฐ์ดํ„ฐ์…‹์—์„œ๋Š” ๋ณผ ์ˆ˜ ์—†์—ˆ๋˜ ์žฅ๋‚œ๊ฐ, ๊ฐ€๊ตฌ ๋“ฑ ๋‹ค์–‘ํ•œ โ€˜์•ผ์ƒ(Wild)โ€™ ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋ฌผ์ฒด๋„ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ž˜ ์ฐพ์•„๋‚ด๋Š” ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๋“ค์€ ํ˜„์žฌ ๋ชจ๋ธ์ด ๋‹จ์•ˆ ์ด๋ฏธ์ง€์˜ ํ•œ๊ณ„๋กœ ์ธํ•ด ๋ฌผ์ฒด๊ฐ€ ์‹ฌํ•˜๊ฒŒ ๊ฐ€๋ ค์ ธ ์žˆ๊ฑฐ๋‚˜(Occlusion), ํ…์Šค์ฒ˜๊ฐ€ ๋ถ€์กฑํ•œ ๊ฒฝ์šฐ์—๋Š” 3D ์œ„์น˜ ์ถ”์ • ์„ฑ๋Šฅ์ด ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ธ์ •ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์„ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•˜๋Š” ๊ณผ์ •์—์„œ ๋…ธ์ด์ฆˆ๊ฐ€ ์„ž์ผ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ์ •์ œํ•˜๋Š” ๊ณผ์ •์ด ์ถ”๊ฐ€์ ์œผ๋กœ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์œผ๋กœ๋Š” ๋น„๋””์˜ค ์‹œํ€€์Šค๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์‹œ๊ฐ„์  ์ผ๊ด€์„ฑ(Temporal Consistency)์„ ๊ฐ•ํ™”ํ•˜๋Š” ๊ฒƒ๊ณผ, ๋” ์ •๊ตํ•œ ์„ผ์„œ ์œตํ•ฉ ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ์‹ค์‹œ๊ฐ„ ์„ฑ๋Šฅ์„ ์ €ํ•˜์‹œํ‚ค์ง€ ์•Š์œผ๋ฉด์„œ๋„ ์ •ํ™•๋„๋ฅผ ๋†’์ด๋Š” ๋ฐฉ๋ฒ•์ด ์ œ์‹œ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ˜„์žฌ์˜ ๋ฐ์ดํ„ฐ์…‹์„ ๋”์šฑ ๋‹ค์–‘ํ•œ ๋ฌธํ™”๊ถŒ๊ณผ ํ™˜๊ฒฝ์œผ๋กœ ํ™•์žฅํ•˜์—ฌ ์ „ ์„ธ๊ณ„์ ์ธ โ€˜์•ผ์ƒโ€™ ํ™˜๊ฒฝ์—์„œ๋„ ์ž˜ ์ž‘๋™ํ•˜๋Š” ๋งŒ๋Šฅ ํƒ์ง€๊ธฐ๋กœ ๋ฐœ์ „์‹œํ‚ค๋ ค๋Š” ๋ชฉํ‘œ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์ด ๊ธฐ์ˆ ์€ ๋กœ๋ด‡ ๊ณตํ•™ ๋ฐ ์ž„๋ฒ ๋””๋“œ AI ๋ถ„์•ผ์— ์ฆ‰์‹œ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ฐ€์ •์šฉ ๋กœ๋ด‡์ด ์‚ฌ์šฉ์ž๊ฐ€ โ€œ์ €๊ธฐ ์ฑ…์ƒ ์œ„์— ์žˆ๋Š” ๋งˆ์ดํฌ ๊ฐ€์ ธ์™€โ€๋ผ๊ณ  ๋งํ•˜๊ฑฐ๋‚˜, ์Šค๋งˆํŠธํฐ ์•ฑ์œผ๋กœ ์ฑ…์ƒ์„ ์ดฌ์˜ํ•˜๋ฉฐ ํ™”๋ฉด์„ ํ„ฐ์น˜ํ•˜๊ธฐ๋งŒ ํ•ด๋„ ์ •ํ™•ํ•œ 3D ์ขŒํ‘œ๋กœ ํŒŒ์•…ํ•˜์—ฌ ๋ฌผ์ฒด๋ฅผ ์ง‘์–ด ์˜ฌ๋ฆฌ๋Š” ์„œ๋น„์Šค๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋˜ํ•œ ์ฆ๊ฐ•ํ˜„์‹ค(AR) ๋ฐ ๊ฐ€์ƒํ˜„์‹ค(VR) ์‡ผํ•‘์ด๋‚˜ ์ธํ…Œ๋ฆฌ์–ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—๋„ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ์šฉ์ž๊ฐ€ ์นด๋ฉ”๋ผ๋กœ ๋ฐฉ์„ ๋น„์ถ”๋ฉฐ โ€œ์—ฌ๊ธฐ์— ์†ŒํŒŒ๋ฅผ ๋†“์•„๋ดโ€๋ผ๊ณ  ์ง€์‹œํ•˜๋ฉด, ๋ฐ”๋‹ฅ์˜ ์ •ํ™•ํ•œ ๊นŠ์ด์™€ ์œ„์น˜๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ๊ฐ€๊ตฌ๊ฐ€ ์‹ค์ œ๋กœ ๋ฐฐ์น˜๋œ ๊ฒƒ์ฒ˜๋Ÿผ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ Œ๋”๋งํ•ด ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ, ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ  ๋ณต์žกํ•œ ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์„ ๋Œ๋ ค์•ผ ํ•˜๋ฏ€๋กœ, ์—์ง€ ๋””๋ฐ”์ด์Šค ๋‚ด์—์„œ ๊ตฌ๋™ํ•˜๋ ค๋ฉด ์ตœ์‹ ็บง็š„ GPU๋‚˜ ์ถฉ๋ถ„ํ•œ ๋ฉ”๋ชจ๋ฆฌ ์ž์›์ด ํ™•๋ณด๋˜์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • ๋‹จ์•ˆ 3D ๋ฌผ์ฒด ๊ฒ€์ถœ(Monocular 3D Object Detection): ์นด๋ฉ”๋ผ ํ•œ ๋Œ€(๋‹จ์•ˆ)๋กœ ์ฐ์€ 2D ์ด๋ฏธ์ง€์—์„œ ๋ฌผ์ฒด์˜ 3D ์œ„์น˜์™€ ํฌ๊ธฐ, ํšŒ์ „ ์ •๋ณด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.
  • ์˜คํ”ˆ ๋ณด์บ๋ทธ๋Ÿฌ๋ฆฌ ๋Ÿฌ๋‹(Open-Vocabulary Learning): ํ•™์Šต ์‹œ์— ๋ณด์ง€ ๋ชปํ–ˆ๋˜ ์ƒˆ๋กœ์šด ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹จ์–ด๋‚˜ ๋ฌผ์ฒด๋„ ํ…์ŠคํŠธ ์„ค๋ช… ๋“ฑ์„ ํ†ตํ•ด ์ธ์‹ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋Š” ํ•™์Šต ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
  • ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง(Prompt Engineering): ๋ชจ๋ธ์ด ์›ํ•˜๋Š” ์ถœ๋ ฅ์„ ๋‚ด๋„๋ก ์ž…๋ ฅ(ํ”„๋กฌํ”„ํŠธ)์„ ์ตœ์ ํ™”ํ•˜๋Š” ๊ธฐ๋ฒ•์œผ๋กœ, ์—ฌ๊ธฐ์„œ๋Š” ํ…์ŠคํŠธ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ ์ด๋‚˜ ๋ฐ•์Šค๋„ ํ”„๋กฌํ”„ํŠธ๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • ๋ ˆ์ด๋”์™€ ๋ผ์ด๋‹ค(LiDAR): ๋ ˆ์ด์ €๋ฅผ ์˜์•„ ๋ฐ˜์‚ฌ๋˜๋Š” ์‹œ๊ฐ„์„ ์ธก์ •ํ•ด ๊ฑฐ๋ฆฌ๋ฅผ ์•Œ์•„๋‚ด๋Š” ์„ผ์„œ๋กœ, 3D ๊ณต๊ฐ„ ์ •๋ณด๋ฅผ ์–ป๋Š” ๋ฐ ํ•ต์‹ฌ์ ์ธ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
  • ๊ฒฝ๊ณ„ ์ƒ์ž(Bounding Box): ์ด๋ฏธ์ง€๋‚˜ 3D ๊ณต๊ฐ„์—์„œ ๋ฌผ์ฒด์˜ ์œ„์น˜๋ฅผ ๋‚˜ํƒ€๋‚ด๊ธฐ ์œ„ํ•ด ๋ฌผ์ฒด๋ฅผ ๊ฐ์‹ธ๋Š” ์ง์œก๋ฉด์ฒด ํ˜•ํƒœ์˜ ์ƒ์ž์ž…๋‹ˆ๋‹ค.
  • ํŠธ๋žœ์Šคํฌ๋จธ(Transformer): ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์—์„œ ์‹œ์ž‘๋˜์–ด ํ˜„์žฌ ๋น„์ „ ๋ถ„์•ผ์—์„œ๋„ ํ‘œ์ค€์ฒ˜๋Ÿผ ์“ฐ์ด๋Š” ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ ๊ตฌ์กฐ๋กœ, ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
  • ์ œ๋กœ ์ƒท ๋Ÿฌ๋‹(Zero-Shot Learning): ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์ „ํ˜€ ์—†๋˜ ํด๋ž˜์Šค์˜ ์ƒ˜ํ”Œ์— ๋Œ€ํ•ด์„œ๋„ ๋ถ„๋ฅ˜๋‚˜ ๊ฒ€์ถœ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๋งํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡WildDet3D: Scaling Promptable 3D Deโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐ŸฅˆSeedance 2.0: Advancing Video Generโ€ฆDD-068
๐Ÿฅ‰The Past Is Not Past: Memory-Enhancโ€ฆDD-069
4.ClawGUI: A Unified Framework for Trโ€ฆDD-070
5.QuanBench+: A Unified Multi-Framewoโ€ฆDD-071

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-04-19 | ๐Ÿค– GLM-4.7 Deep Dive