โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-045 Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

arXiv: 2603.07660 Upvotes: 77 | Comments: 5 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 5


๋…ผ๋ฌธ ๋ถ„์„: Holi-Spatial

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ๊ณต๊ฐ„ ์ง€๋Šฅ(Spatial Intelligence) ์—ฐ๊ตฌ๋Š” ScanNet๊ณผ ๊ฐ™์€ ์†Œ๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์— ์˜์กดํ•˜์—ฌ ์‚ฌ๋žŒ์ด ์ง์ ‘ 3D ๋ฐ์ดํ„ฐ๋ฅผ ๋ผ๋ฒจ๋งํ•ด์•ผ ํ–ˆ๊ธฐ์— ํ™•์žฅ์„ฑ์ด ๋งค์šฐ ์ œํ•œ์ ์ด์—ˆ๊ณ , ๋ฐ์ดํ„ฐ์˜ ๋„๋ฉ”์ธ์ด ๋งค์šฐ ์ข๋‹ค๋Š” ๋ฌธ์ œ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์‚ฌ๋žŒ์˜ ๊ฐœ์ž… ์—†์ด ์ธํ„ฐ๋„ท์˜ ์›์‹œ ์˜์ƒ(Raw Video)๋งŒ์œผ๋กœ ๊ณ ํ’ˆ์งˆ์˜ 3D ํ˜•์ƒ๊ณผ ์ •๋ฐ€ํ•œ ์‹œ๋งจํ‹ฑ(Semantic) ์ •๋ณด๋ฅผ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•˜๋Š” ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜ ํŒŒ์ดํ”„๋ผ์ธ์„ ์ œ์‹œํ•˜์—ฌ ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด 3D ๊ณต๊ฐ„ ์ดํ•ด ๋ชจ๋ธ ํ•™์Šต์„ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹(Holi-Spatial-4M)์„ ๊ตฌ์ถ•ํ•จ์œผ๋กœ์จ, ๋กœ๋ด‡ ๊ณตํ•™ ๋ฐ ์ฆ๊ฐ• ํ˜„์‹ค(AR) ๋ถ„์•ผ์—์„œ ์‹ค์ œ ์„ธ๊ณ„๋ฅผ ์ดํ•ดํ•˜๋Š” AI ๋ชจ๋ธ์˜ ๋ฐœ์ „์„ ๊ฐ€์†ํ™”ํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.


2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€˜์ž๋™ ์กฐ๊ฐ๊ฐ€โ€™ ์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” โ€˜์ž๋™ ์กฐ๊ฐ๊ฐ€โ€™์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค. ๊ณผ๊ฑฐ์—๋Š” ์กฐ๊ฐ๊ฐ€(์—ฐ๊ตฌ์ž)๊ฐ€ ์ ํ†  ๋ฉ์–ด๋ฆฌ(์˜์ƒ)๋ฅผ ๋ณด๊ณ  ์†์œผ๋กœ ์ง์ ‘ ํ•˜๋‚˜ํ•˜๋‚˜ ์กฐ๊ฐํ•˜๊ณ  ์ด๋ฆ„ํ‘œ๋ฅผ ๋ถ™์—ฌ์•ผ ํ–ˆ์Šต๋‹ˆ๋‹ค(์ˆ˜๋™ ๋ผ๋ฒจ๋ง). ํ•˜์ง€๋งŒ ์ด ๋…ผ๋ฌธ์˜ ์‹œ์Šคํ…œ์€ ์˜์ƒ์„ ๋„ฃ๊ธฐ๋งŒ ํ•˜๋ฉด ์Šค์Šค๋กœ ํ˜•ํƒœ๋ฅผ ํŒŒ์•…ํ•˜์—ฌ ๊นŽ์•„๋‚ด๊ณ (3D ๋ณต์›), ์–ด๋А ๋ถ€๋ถ„์ด ์˜์ž์ธ์ง€ ํ…Œ์ด๋ธ”์ธ์ง€ ์ธ์‹ํ•œ ๋’ค(๊ฐ์ฒด ์ธ์‹), 3D ๊ณต๊ฐ„์ƒ์—์„œ ๊ทธ ๋ฌผ์ฒด์˜ ์ •ํ™•ํ•œ ์œ„์น˜์™€ ์ด๋ฆ„ํ‘œ๋ฅผ ๋ถ™์—ฌ์ฃผ๋Š” ์™„์ „ ์ž๋™ํ™” ๊ณต์žฅ์„ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค.

3๋‹จ๊ณ„ ๋™์ž‘ ๊ณผ์ •

1๋‹จ๊ณ„: ํ˜•ํƒœ ์žก๊ธฐ (Geometric Optimization) ๋จผ์ € ํ๋ฆฟํ•œ ์ ํ†  ๋ฉ์–ด๋ฆฌ์ธ ์˜์ƒ์„ ๋‹จ๋‹จํ•œ ํ˜•ํƒœ๋กœ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ์—ฌ๋Ÿฌ ๊ฐ๋„์—์„œ ์ฐ์€ ์˜์ƒ์„ ๋ถ„์„ํ•ด ์นด๋ฉ”๋ผ์˜ ์œ„์น˜์™€ ๊ฒฝ๋กœ๋ฅผ ํŒŒ์•…ํ•œ ๋’ค, ์ด๋ฅผ ํ†ตํ•ด 3D ๊ตฌ๋ฆ„ ์ (Point Cloud)์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ์ด๋•Œ ์ตœ์‹  ๊ธฐ๋ฒ•์ธ 3D ๊ฐ€์šฐ์‹œ์•ˆ ์Šคํ”Œ๋ž˜ํŒ…(3D Gaussian Splatting, 3DGS)์„ ์‚ฌ์šฉํ•ด ๊ฑฐ๋ฆฌ๊ฐ(Depth)์„ ์ตœ์ ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์‚ฌ์ง„ ์—ฌ๋Ÿฌ ์žฅ์„ ๊ฒน์ณ์„œ ๋ณด๋ฉด์„œ ์ž…์ฒด๊ฐ์„ ์‚ด๋ฆฌ๋Š” ๊ณผ์ •์œผ๋กœ, ๋…ธ์ด์ฆˆ๋‚˜ ๋œฌ๋ฐ”๋‹ฅ(๊ณต์ค‘์— ๋–  ์žˆ๋Š” ์˜ค๋ฅ˜ ์ ๋“ค)์„ ์ œ๊ฑฐํ•˜์—ฌ ๊นจ๋—ํ•œ 3D ๊ตฌ์กฐ๋ฅผ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

2๋‹จ๊ณ„: ๋ถ€ํ’ˆ ๋‚˜๋ˆ„๊ธฐ ๋ฐ ์œ„์น˜ ์žก๊ธฐ (Image-level Perception) ํ˜•ํƒœ๊ฐ€ ์žกํžˆ๋ฉด ์ด ์•ˆ์— ์žˆ๋Š” ๋ฌผ์ฒด๋“ค์„ ์‹๋ณ„ํ•ฉ๋‹ˆ๋‹ค. ๊ฑฐ๋Œ€ํ•œ ์–ธ์–ด ๋ชจ๋ธ(VLM)์˜ ๋ˆˆ์„ ๋นŒ๋ ค ์˜์ƒ ์† โ€˜์˜์žโ€™, โ€˜์ฑ…์ƒโ€™ ๊ฐ™์€ ๊ฐ์ฒด๋ฅผ ์ฐพ์•„๋‚ด๊ณ , SAM(Segment Anything Model) ๊ฐ™์€ ๋„๊ตฌ๋กœ ๋ฌผ์ฒด์˜ ์œค๊ณฝ์„ ์„ ๋”ฐ๋ƒ…๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด 2D ์˜์ƒ ์†์˜ ๋ฌผ์ฒด๋ฅผ ์•„๊นŒ ๋งŒ๋“  3D ๊ตฌ์กฐ ์œ„์— ํˆฌ์˜ํ•˜์—ฌ, โ€œ์ด ์˜์ž๋Š” 3D ๊ณต๊ฐ„์˜ ์ด ์ขŒํ‘œ์— ์žˆ๋‹คโ€๋ผ๊ณ  ์œ„์น˜๋ฅผ ์žก์•„์ค๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ๊ฒฝ๊ณ„์„  ์˜ค๋ฅ˜๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด ๋งˆ์Šคํฌ๋ฅผ ์กฐ๊ธˆ์”ฉ ๊นŽ์•„๋‚ด๋Š”(Erosion) ๊ธฐ๋ฒ•์„ ์“ฐ๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค.

3๋‹จ๊ณ„: ๋‹ค๋“ฌ๊ธฐ ๋ฐ ์„ค๋ช… ๋ถ™์ด๊ธฐ (Scene-level Refinement) ๋งˆ์ง€๋ง‰์œผ๋กœ 3D ๊ณต๊ฐ„์— ํฉ์–ด์ ธ ์žˆ๋Š” ์ •๋ณด๋“ค์„ ์ •๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ๊ฒน์น˜๋Š” ์ •๋ณด๋Š” ํ•ฉ์น˜๊ณ , ํ€„๋ฆฌํ‹ฐ๊ฐ€ ๋‚ฎ์€ ์ •๋ณด๋Š” ๊ฑธ๋Ÿฌ๋ƒ…๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๊ฐ ๊ฐ์ฒด๋งˆ๋‹ค โ€œ๋‚˜๋ฌด ์†Œ์žฌ์˜ ๊ฐˆ์ƒ‰ ์˜์žโ€์™€ ๊ฐ™์ด ์ž์„ธํ•œ ์„ค๋ช…(Captioning)์„ ๋‹ฌ์•„์ค๋‹ˆ๋‹ค. ๋•๋ถ„์— ๋‹จ์ˆœํžˆ โ€˜์˜์ž๋‹คโ€™๋ผ๋Š” ์ •๋ณด๋ฅผ ๋„˜์–ด, ๊ทธ ์˜์ž๊ฐ€ ๋‹ค๋ฅธ ๊ฐ€๊ตฌ์™€ ์–ด๋–ค ๊ด€๊ณ„์— ์žˆ๋Š”์ง€๊นŒ์ง€ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ํ’๋ถ€ํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ ์™„์„ฑ๋ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ธฐ๋ฒ• ์ด ๊ณผ์ •์—์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๊ฒƒ์€ 3D ๊ฐ€์šฐ์‹œ์•ˆ ์Šคํ”Œ๋ž˜ํŒ…(3DGS) ๊ธฐ๋ฐ˜์˜ ์ตœ์ ํ™”์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๋ฐฉ์‹์ด ๋‹จ์ˆœํžˆ 2D ์‚ฌ์ง„์„ 3D๋กœ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ์— ๊ทธ์ณค๋‹ค๋ฉด, ์ด ๋…ผ๋ฌธ์€ 3DGS๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ์‹œ์ ์—์„œ์˜ ์ผ๊ด€์„ฑ์„ ๊ฐ•์ œํ•˜๋Š” ๊ธฐํ•˜ํ•™์  ๊ทœ์ œ(Geometric Regularization)๋ฅผ ์ ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ˆ˜ํ•™์ ์œผ๋กœ ๋ฌผ์ฒด์˜ ํ‘œ๋ฉด๊ณผ ๊ฑฐ๋ฆฌ๋ฅผ ์ •๋ฐ€ํ•˜๊ฒŒ ๊ณ„์‚ฐํ•˜์—ฌ, ์˜์ƒ์—์„œ ๋ณด์ด์ง€ ์•Š๋Š” ๋’ท๋ชจ์Šต๊นŒ์ง€ ํฌํ•จํ•œ ์ •๊ตํ•œ 3D ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ํ•ต์‹ฌ ์—”์ง„ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.


3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ ์ด ๋…ผ๋ฌธ์€ Holi-Spatial-4M์ด๋ผ๋Š” ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์„ ๊ณต๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์€ ScanNet, ScanNet++, DL3DV-10K ๋“ฑ์˜ ์›์‹œ ์˜์ƒ์„ ์‚ฌ์šฉํ•ด ๋งŒ๋“ค์—ˆ์œผ๋ฉฐ, ์ด 12,000๊ฐœ ์ด์ƒ์˜ ์ตœ์ ํ™”๋œ 3DGS ์žฅ๋ฉด์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ์ƒ์„ฑ๋œ ์ฃผ์„์˜ ์–‘์€ ๊ธฐ์กด ๋ฐ์ดํ„ฐ์…‹์„ ์••๋„ํ•˜๋Š”๋ฐ, 130๋งŒ ๊ฐœ์˜ 2D ์ธ์Šคํ„ด์Šค ๋งˆ์Šคํฌ, 32๋งŒ ๊ฐœ์˜ 3D ๊ฒฝ๊ณ„ ์ƒ์ž(Bounding Box), 120๋งŒ ๊ฐœ์˜ 3D ์œ„์น˜ ์ •๋ ฉ(grounding) ์Œ, ๊ทธ๋ฆฌ๊ณ  125๋งŒ ๊ฐœ์˜ ๊ณต๊ฐ„ ์งˆ์˜ ์‘๋‹ต(QA) ์Œ์ด ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

๋ฒค์น˜๋งˆํฌ ์„ฑ๋Šฅ ScanNet ๋ฐ ScanNet++ ํ‘œ์ค€ ๋ฒค์น˜๋งˆํฌ์—์„œ ํ…Œ์ŠคํŠธํ•œ ๊ฒฐ๊ณผ, Holi-Spatial-4M ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํŒŒ์ธํŠœ๋‹(Fine-tuning)๋œ ์‹œ๊ฐ ์–ธ์–ด ๋ชจ๋ธ(VLM)์ด ๊ธฐ์กด ์ตœ์ฒจ๋‹จ(SOTA) ๋ชจ๋ธ๋ณด๋‹ค 3D ์œ„์น˜ ์ •ํ™•๋„(3D Grounding)์™€ ๊ณต๊ฐ„ ์ถ”๋ก (Spatial Reasoning) ๋Šฅ๋ ฅ์—์„œ ์ผ๊ด€๋˜๊ฒŒ ๋” ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋‹จ์ˆœํ•œ ๊ฐ์ฒด ์ธ์‹์„ ๋„˜์–ด โ€œ์ฑ…์ƒ ์œ„์— ์žˆ๋Š” ์ปต์„ ๊ฐ€์ ธ์™€๋ผโ€์™€ ๊ฐ™์€ ๋ณต์žกํ•œ ๊ณต๊ฐ„์  ๊ด€๊ณ„๋ฅผ ์ดํ•ดํ•˜๋Š” ๋Šฅ๋ ฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ ์ด ๋…ผ๋ฌธ์˜ ๊ฐ€์žฅ ํฐ ์„ฑ๊ณผ๋Š” ์–‘์ ์ธ ํ™•์žฅ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์งˆ์ ์ธ ๋‹ค์–‘์„ฑ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐ์ดํ„ฐ์…‹์ด ์•ฝ 50๊ฐœ์˜ ํด๋ž˜์Šค๋กœ ์ œํ•œ๋˜์–ด ์žˆ๋˜ ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, Holi-Spatial์€ ๊ฐœ๋ฐฉํ˜• ์–ดํœ˜(Open-Vocabulary)๋ฅผ ํ†ตํ•ด ์ธํ…Œ๋ฆฌ์–ด ์†Œํ’ˆ, ์ „์ž๊ธฐ๊ธฐ ๋“ฑ ์‹ค์ œ ํ™˜๊ฒฝ์— ์žˆ๋Š” ์ˆ˜์ฒœ ๊ฐ€์ง€์˜ ์„ธ๋ฐ€ํ•œ ๊ฐ์ฒด๋“ค์„ ๋ผ๋ฒจ๋งํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ์‹ค์ œ ๋ณต์žกํ•œ ํ˜„์‹ค ์„ธ๊ณ„์—์„œ ํ›จ์”ฌ ๋” ์œ ์—ฐํ•˜๊ฒŒ ์ž‘๋™ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด ์ค๋‹ˆ๋‹ค.


4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„ ํ˜„์žฌ ํŒŒ์ดํ”„๋ผ์ธ์€ ์ฃผ๋กœ ์‹ค๋‚ด ํ™˜๊ฒฝ(Indoor) ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ํˆฌ๋ช…ํ•˜๊ฑฐ๋‚˜ ๋ฐ˜์‚ฌ๊ฐ€ ์‹ฌํ•œ ๋ฌผ์ฒด(์œ ๋ฆฌ์ฐฝ, ๊ฑฐ์šธ ๋“ฑ), ํ˜น์€ ๋ฐ”๋žŒ์— ํ”๋“ค๋ฆฌ๋Š” ๋‚˜๋ฌด์™€ ๊ฐ™์€ ๋™์ ์ธ ์•ผ์™ธ ํ™˜๊ฒฝ(Outdoor)์—์„œ์˜ ๊ธฐํ•˜ํ•™์  ์ตœ์ ํ™” ์„ฑ๋Šฅ์€ ๊ฒ€์ฆ์ด ๋” ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ž๋™ํ™” ํŒŒ์ดํ”„๋ผ์ธ ํŠน์„ฑ์ƒ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ(VLM, Depth Estimator)์˜ ์˜ค๋ฅ˜๊ฐ€ ์ตœ์ข… ๊ฒฐ๊ณผ๋ฌผ์— ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅํ•œ ์  ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ์•ผ์™ธ ํ™˜๊ฒฝ์ด๋‚˜ ๋™์ ์ธ ์žฅ๋ฉด์œผ๋กœ์˜ ํ™•์žฅ์ด ๊ฐ€๋Šฅํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ˜„์žฌ์˜ ์ •์ ์ธ 3D ๋ณต์›์„ ๋„˜์–ด ๋ฌผ์ฒด์˜ ๋ฌผ๋ฆฌ์  ์„ฑ์งˆ(๋ฌด๊ฒŒ, ์žฌ์งˆ)์ด๋‚˜ ์›€์ง์ž„(Motion)๊นŒ์ง€ ์ดํ•ดํ•˜๋Š” 4D ๊ณต๊ฐ„ ์ง€๋Šฅ์œผ๋กœ ๋ฐœ์ „์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ž๋™ํ™”๋œ ํ’ˆ์งˆ ๊ฒ€์‚ฌ(Quality Assurance) ๋ชจ๋“ˆ์„ ๋” ๊ฐ•ํ™”ํ•˜์—ฌ ์˜ค๋ฅ˜๋ฅผ ์Šค์Šค๋กœ ์ˆ˜์ •ํ•˜๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ถ”๊ฐ€ํ•œ๋‹ค๋ฉด ๋ฐ์ดํ„ฐ์˜ ์‹ ๋ขฐ์„ฑ์„ ๋”์šฑ ๋†’์ผ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.


5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ถ„์•ผ ์ด ๊ธฐ์ˆ ์€ ๊ฐ€์ •์šฉ ๋กœ๋ด‡ ์ฒญ์†Œ๊ธฐ๋‚˜ ์„œ๋น™ ๋กœ๋ด‡ ๊ฐœ๋ฐœ์— ์ฆ‰์‹œ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡์ด ์‹ค์‹œ๊ฐ„์œผ๋กœ ๋น„๋””์˜ค ์ŠคํŠธ๋ฆผ์„ ์ž…๋ ฅ๋ฐ›์•„ ๋ฐฉ์˜ 3D ์ง€๋„๋ฅผ ์ž๋™์œผ๋กœ ๋งŒ๋“ค๊ณ , โ€œ์ฒญ์†Œ๊ธฐ ์˜†์— ์žˆ๋Š” ์‹ ๋ฐœ์„ ์น˜์›Œ์ค˜โ€์™€ ๊ฐ™์€ ๋ช…๋ น์„ ์ •ํ™•ํ•˜๊ฒŒ ์ดํ•ดํ•˜๊ณ  ์‹คํ–‰ํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ธ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ณตํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ธํ…Œ๋ฆฌ์–ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์ด๋‚˜ ์ฆ๊ฐ• ํ˜„์‹ค(AR) ์‡ผํ•‘ ์•ฑ์—์„œ๋„ ์‚ฌ์šฉ์ž์˜ ๋ฐฉ์„ ์Šค์บ”ํ•˜์—ฌ ๊ฐ€๊ตฌ๋ฅผ ๋ฐฐ์น˜ํ•ด ๋ณด๋Š” ๋“ฑ์˜ ๊ธฐ๋Šฅ์„ ๊ตฌํ˜„ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค ์ด ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ตฌ๋™ํ•˜๋ ค๋ฉด ์ƒ๋‹นํ•œ ์—ฐ์‚ฐ ๋ฆฌ์†Œ์Šค๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. 3D ๊ฐ€์šฐ์‹œ์•ˆ ์Šคํ”Œ๋ž˜ํŒ… ์ตœ์ ํ™”์™€ ๊ณ ์„ฑ๋Šฅ ๋น„์ „ ์–ธ์–ด ๋ชจ๋ธ(VLM) ์ถ”๋ก ์„ ์œ„ํ•ด ๋งŽ์€ GPU ๋ฉ”๋ชจ๋ฆฌ์™€ ์—ฐ์‚ฐ ๋Šฅ๋ ฅ์ด ์š”๊ตฌ๋ฉ๋‹ˆ๋‹ค. ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜๋ ค๋ฉด ์—ฌ๋Ÿฌ ๋Œ€์˜ ๊ณ ์„ฑ๋Šฅ GPU ์„œ๋ฒ„(์˜ˆ: A100 ํด๋Ÿฌ์Šคํ„ฐ)๊ฐ€ ํ•„์š”ํ•  ๊ฒƒ์ด๋ฉฐ, ์˜์ƒ ์ฒ˜๋ฆฌ ์‹œ๊ฐ„๋„ ์ƒ๋‹นํžˆ ์†Œ์š”๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • Structure-from-Motion (SfM): ์—ฌ๋Ÿฌ ์žฅ์˜ 2D ์ด๋ฏธ์ง€๋ฅผ ๋ถ„์„ํ•˜์—ฌ ์นด๋ฉ”๋ผ์˜ ์œ„์น˜์™€ ์žฅ๋ฉด์˜ 3D ๊ตฌ์กฐ๋ฅผ ๋ณต์›ํ•˜๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.
  • 3D Gaussian Splatting (3DGS): 3D ๊ณต๊ฐ„์˜ ๊ฐ ์ ์„ ๊ฐ€์šฐ์‹œ์•ˆ(์ข… ๋ชจ์–‘์˜ ๋ถ„ํฌ)์œผ๋กœ ํ‘œํ˜„ํ•˜์—ฌ ๋งค์šฐ ๋น ๋ฅด๊ณ  ๊ณ ํ’ˆ์งˆ์˜ 3D ์žฅ๋ฉด์„ ๋ Œ๋”๋งํ•˜๋Š” ์ตœ์‹  ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.
  • Vision-Language Model (VLM): ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ๋™์‹œ์— ์ดํ•ดํ•˜์—ฌ, ์ด๋ฏธ์ง€๋ฅผ ๋ณด๊ณ  ์งˆ๋ฌธ์— ๋‹ตํ•˜๊ฑฐ๋‚˜ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฑฐ๋Œ€ AI ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  • Instance Segmentation: ์ด๋ฏธ์ง€ ๋‚ด์—์„œ โ€˜๊ฐœโ€™, โ€˜์ž๋™์ฐจโ€™์™€ ๊ฐ™์ด ํŠน์ • ๊ฐ์ฒด์˜ ํ”ฝ์…€ ๋‹จ์œ„ ์˜์—ญ์„ ๊ตฌ๋ถ„ํ•ด๋‚ด๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.
  • Depth Estimation: 2D ์ด๋ฏธ์ง€๋ฅผ ๋ณด๊ณ  ๊ฐ ํ”ฝ์…€์ด ์นด๋ฉ”๋ผ๋กœ๋ถ€ํ„ฐ ์–ผ๋งˆ๋‚˜ ๋–จ์–ด์ ธ ์žˆ๋Š”์ง€(๊นŠ์ด)๋ฅผ ์ถ”์ •ํ•˜๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.
  • Open-Vocabulary: ๋ฏธ๋ฆฌ ์ •ํ•ด์ง„ ํŠน์ • ์นดํ…Œ๊ณ ๋ฆฌ์— ๊ตญํ•œ๋˜์ง€ ์•Š๊ณ , ์‚ฌ์ „์— ํ•™์Šต๋˜์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ๋‹จ์–ด๋‚˜ ๊ฐ์ฒด๊นŒ์ง€ ์ธ์‹ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  • Spatial Grounding: ์–ธ์–ด๋กœ ํ‘œํ˜„๋œ ๋ช…๋ น(์˜ˆ: โ€œ์™ผ์ชฝ์˜ ๋นจ๊ฐ„ ์ปตโ€)์„ 3D ๊ณต๊ฐ„์ƒ์˜ ์‹ค์ œ ์ขŒํ‘œ๋‚˜ ๊ฐ์ฒด์™€ ์—ฐ๊ฒฐ์‹œํ‚ค๋Š” ์ž‘์—…์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Geometry-Guided Reinforcement Learnโ€ฆDD-041
๐ŸฅˆPenguin-VL: Exploring the Efficiencโ€ฆDD-042
๐Ÿฅ‰OpenClaw-RL: Train Any Agent Simplyโ€ฆDD-043
4.Lost in Stories: Consistency Bugs iโ€ฆDD-044
5.Holi-Spatial: Evolving Video Streamโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-03-15 | ๐Ÿค– GLM-4.7 Deep Dive