โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-045 Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence
arXiv: 2603.07660 Upvotes: 77 | Comments: 5 ์์: ์ด๋ฒ ์ฃผ Top 5
๋ ผ๋ฌธ ๋ถ์: Holi-Spatial
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๊ณต๊ฐ ์ง๋ฅ(Spatial Intelligence) ์ฐ๊ตฌ๋ ScanNet๊ณผ ๊ฐ์ ์๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ์์กดํ์ฌ ์ฌ๋์ด ์ง์ 3D ๋ฐ์ดํฐ๋ฅผ ๋ผ๋ฒจ๋งํด์ผ ํ๊ธฐ์ ํ์ฅ์ฑ์ด ๋งค์ฐ ์ ํ์ ์ด์๊ณ , ๋ฐ์ดํฐ์ ๋๋ฉ์ธ์ด ๋งค์ฐ ์ข๋ค๋ ๋ฌธ์ ๋ฅผ ๊ฐ์ง๊ณ ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ฌ๋์ ๊ฐ์ ์์ด ์ธํฐ๋ท์ ์์ ์์(Raw Video)๋ง์ผ๋ก ๊ณ ํ์ง์ 3D ํ์๊ณผ ์ ๋ฐํ ์๋งจํฑ(Semantic) ์ ๋ณด๋ฅผ ์๋์ผ๋ก ์์ฑํ๋ ๋ฐ์ดํฐ ํ๋ ์ด์ ํ์ดํ๋ผ์ธ์ ์ ์ํ์ฌ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ต๋๋ค. ์ด๋ฅผ ํตํด 3D ๊ณต๊ฐ ์ดํด ๋ชจ๋ธ ํ์ต์ ์ํ ๋๊ท๋ชจ ๊ณ ํ์ง ๋ฐ์ดํฐ์ (Holi-Spatial-4M)์ ๊ตฌ์ถํจ์ผ๋ก์จ, ๋ก๋ด ๊ณตํ ๋ฐ ์ฆ๊ฐ ํ์ค(AR) ๋ถ์ผ์์ ์ค์ ์ธ๊ณ๋ฅผ ์ดํดํ๋ AI ๋ชจ๋ธ์ ๋ฐ์ ์ ๊ฐ์ํํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : โ์๋ ์กฐ๊ฐ๊ฐโ ์ด ๋ ผ๋ฌธ์ ํต์ฌ ์์ด๋์ด๋ โ์๋ ์กฐ๊ฐ๊ฐโ์ ๊ฐ์ต๋๋ค. ๊ณผ๊ฑฐ์๋ ์กฐ๊ฐ๊ฐ(์ฐ๊ตฌ์)๊ฐ ์ ํ ๋ฉ์ด๋ฆฌ(์์)๋ฅผ ๋ณด๊ณ ์์ผ๋ก ์ง์ ํ๋ํ๋ ์กฐ๊ฐํ๊ณ ์ด๋ฆํ๋ฅผ ๋ถ์ฌ์ผ ํ์ต๋๋ค(์๋ ๋ผ๋ฒจ๋ง). ํ์ง๋ง ์ด ๋ ผ๋ฌธ์ ์์คํ ์ ์์์ ๋ฃ๊ธฐ๋ง ํ๋ฉด ์ค์ค๋ก ํํ๋ฅผ ํ์ ํ์ฌ ๊น์๋ด๊ณ (3D ๋ณต์), ์ด๋ ๋ถ๋ถ์ด ์์์ธ์ง ํ ์ด๋ธ์ธ์ง ์ธ์ํ ๋ค(๊ฐ์ฒด ์ธ์), 3D ๊ณต๊ฐ์์์ ๊ทธ ๋ฌผ์ฒด์ ์ ํํ ์์น์ ์ด๋ฆํ๋ฅผ ๋ถ์ฌ์ฃผ๋ ์์ ์๋ํ ๊ณต์ฅ์ ๋ง๋ค์์ต๋๋ค.
3๋จ๊ณ ๋์ ๊ณผ์
1๋จ๊ณ: ํํ ์ก๊ธฐ (Geometric Optimization) ๋จผ์ ํ๋ฆฟํ ์ ํ ๋ฉ์ด๋ฆฌ์ธ ์์์ ๋จ๋จํ ํํ๋ก ๋ง๋ญ๋๋ค. ์ฌ๋ฌ ๊ฐ๋์์ ์ฐ์ ์์์ ๋ถ์ํด ์นด๋ฉ๋ผ์ ์์น์ ๊ฒฝ๋ก๋ฅผ ํ์ ํ ๋ค, ์ด๋ฅผ ํตํด 3D ๊ตฌ๋ฆ ์ (Point Cloud)์ ๋ง๋ญ๋๋ค. ์ด๋ ์ต์ ๊ธฐ๋ฒ์ธ 3D ๊ฐ์ฐ์์ ์คํ๋ํ (3D Gaussian Splatting, 3DGS)์ ์ฌ์ฉํด ๊ฑฐ๋ฆฌ๊ฐ(Depth)์ ์ต์ ํํฉ๋๋ค. ์ด๋ ์ฌ์ง ์ฌ๋ฌ ์ฅ์ ๊ฒน์ณ์ ๋ณด๋ฉด์ ์ ์ฒด๊ฐ์ ์ด๋ฆฌ๋ ๊ณผ์ ์ผ๋ก, ๋ ธ์ด์ฆ๋ ๋ฌ๋ฐ๋ฅ(๊ณต์ค์ ๋ ์๋ ์ค๋ฅ ์ ๋ค)์ ์ ๊ฑฐํ์ฌ ๊นจ๋ํ 3D ๊ตฌ์กฐ๋ฅผ ๋ง๋ญ๋๋ค.
2๋จ๊ณ: ๋ถํ ๋๋๊ธฐ ๋ฐ ์์น ์ก๊ธฐ (Image-level Perception) ํํ๊ฐ ์กํ๋ฉด ์ด ์์ ์๋ ๋ฌผ์ฒด๋ค์ ์๋ณํฉ๋๋ค. ๊ฑฐ๋ํ ์ธ์ด ๋ชจ๋ธ(VLM)์ ๋์ ๋น๋ ค ์์ ์ โ์์โ, โ์ฑ ์โ ๊ฐ์ ๊ฐ์ฒด๋ฅผ ์ฐพ์๋ด๊ณ , SAM(Segment Anything Model) ๊ฐ์ ๋๊ตฌ๋ก ๋ฌผ์ฒด์ ์ค๊ณฝ์ ์ ๋ฐ๋ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด 2D ์์ ์์ ๋ฌผ์ฒด๋ฅผ ์๊น ๋ง๋ 3D ๊ตฌ์กฐ ์์ ํฌ์ํ์ฌ, โ์ด ์์๋ 3D ๊ณต๊ฐ์ ์ด ์ขํ์ ์๋คโ๋ผ๊ณ ์์น๋ฅผ ์ก์์ค๋๋ค. ์ฌ๊ธฐ์ ๊ฒฝ๊ณ์ ์ค๋ฅ๋ฅผ ์ค์ด๊ธฐ ์ํด ๋ง์คํฌ๋ฅผ ์กฐ๊ธ์ฉ ๊น์๋ด๋(Erosion) ๊ธฐ๋ฒ์ ์ฐ๊ธฐ๋ ํฉ๋๋ค.
3๋จ๊ณ: ๋ค๋ฌ๊ธฐ ๋ฐ ์ค๋ช ๋ถ์ด๊ธฐ (Scene-level Refinement) ๋ง์ง๋ง์ผ๋ก 3D ๊ณต๊ฐ์ ํฉ์ด์ ธ ์๋ ์ ๋ณด๋ค์ ์ ๋ฆฌํฉ๋๋ค. ๊ฒน์น๋ ์ ๋ณด๋ ํฉ์น๊ณ , ํ๋ฆฌํฐ๊ฐ ๋ฎ์ ์ ๋ณด๋ ๊ฑธ๋ฌ๋ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ ๊ฐ์ฒด๋ง๋ค โ๋๋ฌด ์์ฌ์ ๊ฐ์ ์์โ์ ๊ฐ์ด ์์ธํ ์ค๋ช (Captioning)์ ๋ฌ์์ค๋๋ค. ๋๋ถ์ ๋จ์ํ โ์์๋คโ๋ผ๋ ์ ๋ณด๋ฅผ ๋์ด, ๊ทธ ์์๊ฐ ๋ค๋ฅธ ๊ฐ๊ตฌ์ ์ด๋ค ๊ด๊ณ์ ์๋์ง๊น์ง ์ดํดํ ์ ์๋ ํ๋ถํ ๋ฐ์ดํฐ๊ฐ ์์ฑ๋ฉ๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ ๊ธฐ๋ฒ ์ด ๊ณผ์ ์์ ๊ฐ์ฅ ์ค์ํ ๊ฒ์ 3D ๊ฐ์ฐ์์ ์คํ๋ํ (3DGS) ๊ธฐ๋ฐ์ ์ต์ ํ์ ๋๋ค. ๊ธฐ์กด์ ๋ฐฉ์์ด ๋จ์ํ 2D ์ฌ์ง์ 3D๋ก ์ถ์ ํ๋ ๊ฒ์ ๊ทธ์ณค๋ค๋ฉด, ์ด ๋ ผ๋ฌธ์ 3DGS๋ฅผ ํตํด ๋ค์ํ ์์ ์์์ ์ผ๊ด์ฑ์ ๊ฐ์ ํ๋ ๊ธฐํํ์ ๊ท์ (Geometric Regularization)๋ฅผ ์ ์ฉํ์ต๋๋ค. ์ด๋ ์ํ์ ์ผ๋ก ๋ฌผ์ฒด์ ํ๋ฉด๊ณผ ๊ฑฐ๋ฆฌ๋ฅผ ์ ๋ฐํ๊ฒ ๊ณ์ฐํ์ฌ, ์์์์ ๋ณด์ด์ง ์๋ ๋ท๋ชจ์ต๊น์ง ํฌํจํ ์ ๊ตํ 3D ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ํต์ฌ ์์ง ์ญํ ์ ํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
๋ฐ์ดํฐ์ ๊ตฌ์ฑ ์ด ๋ ผ๋ฌธ์ Holi-Spatial-4M์ด๋ผ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ๊ณต๊ฐํ์ต๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ ScanNet, ScanNet++, DL3DV-10K ๋ฑ์ ์์ ์์์ ์ฌ์ฉํด ๋ง๋ค์์ผ๋ฉฐ, ์ด 12,000๊ฐ ์ด์์ ์ต์ ํ๋ 3DGS ์ฅ๋ฉด์ ํฌํจํฉ๋๋ค. ์์ฑ๋ ์ฃผ์์ ์์ ๊ธฐ์กด ๋ฐ์ดํฐ์ ์ ์๋ํ๋๋ฐ, 130๋ง ๊ฐ์ 2D ์ธ์คํด์ค ๋ง์คํฌ, 32๋ง ๊ฐ์ 3D ๊ฒฝ๊ณ ์์(Bounding Box), 120๋ง ๊ฐ์ 3D ์์น ์ ๋ ฉ(grounding) ์, ๊ทธ๋ฆฌ๊ณ 125๋ง ๊ฐ์ ๊ณต๊ฐ ์ง์ ์๋ต(QA) ์์ด ํฌํจ๋์ด ์์ต๋๋ค.
๋ฒค์น๋งํฌ ์ฑ๋ฅ ScanNet ๋ฐ ScanNet++ ํ์ค ๋ฒค์น๋งํฌ์์ ํ ์คํธํ ๊ฒฐ๊ณผ, Holi-Spatial-4M ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ธํ๋(Fine-tuning)๋ ์๊ฐ ์ธ์ด ๋ชจ๋ธ(VLM)์ด ๊ธฐ์กด ์ต์ฒจ๋จ(SOTA) ๋ชจ๋ธ๋ณด๋ค 3D ์์น ์ ํ๋(3D Grounding)์ ๊ณต๊ฐ ์ถ๋ก (Spatial Reasoning) ๋ฅ๋ ฅ์์ ์ผ๊ด๋๊ฒ ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ ๋จ์ํ ๊ฐ์ฒด ์ธ์์ ๋์ด โ์ฑ ์ ์์ ์๋ ์ปต์ ๊ฐ์ ธ์๋ผโ์ ๊ฐ์ ๋ณต์กํ ๊ณต๊ฐ์ ๊ด๊ณ๋ฅผ ์ดํดํ๋ ๋ฅ๋ ฅ์ด ํฌ๊ฒ ํฅ์๋์์ต๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ ์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ํฐ ์ฑ๊ณผ๋ ์์ ์ธ ํ์ฅ๋ฟ๋ง ์๋๋ผ ์ง์ ์ธ ๋ค์์ฑ์ ๋๋ค. ๊ธฐ์กด ๋ฐ์ดํฐ์ ์ด ์ฝ 50๊ฐ์ ํด๋์ค๋ก ์ ํ๋์ด ์๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, Holi-Spatial์ ๊ฐ๋ฐฉํ ์ดํ(Open-Vocabulary)๋ฅผ ํตํด ์ธํ ๋ฆฌ์ด ์ํ, ์ ์๊ธฐ๊ธฐ ๋ฑ ์ค์ ํ๊ฒฝ์ ์๋ ์์ฒ ๊ฐ์ง์ ์ธ๋ฐํ ๊ฐ์ฒด๋ค์ ๋ผ๋ฒจ๋งํ์ต๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ์ค์ ๋ณต์กํ ํ์ค ์ธ๊ณ์์ ํจ์ฌ ๋ ์ ์ฐํ๊ฒ ์๋ํ ์ ์๊ฒ ํด ์ค๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ ํ์ฌ ํ์ดํ๋ผ์ธ์ ์ฃผ๋ก ์ค๋ด ํ๊ฒฝ(Indoor) ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ๋ฐ๋ผ์ ํฌ๋ช ํ๊ฑฐ๋ ๋ฐ์ฌ๊ฐ ์ฌํ ๋ฌผ์ฒด(์ ๋ฆฌ์ฐฝ, ๊ฑฐ์ธ ๋ฑ), ํน์ ๋ฐ๋์ ํ๋ค๋ฆฌ๋ ๋๋ฌด์ ๊ฐ์ ๋์ ์ธ ์ผ์ธ ํ๊ฒฝ(Outdoor)์์์ ๊ธฐํํ์ ์ต์ ํ ์ฑ๋ฅ์ ๊ฒ์ฆ์ด ๋ ํ์ํ ์ ์์ต๋๋ค. ๋ํ, ์๋ํ ํ์ดํ๋ผ์ธ ํน์ฑ์ ๊ธฐ๋ฐ ๋ชจ๋ธ(VLM, Depth Estimator)์ ์ค๋ฅ๊ฐ ์ต์ข ๊ฒฐ๊ณผ๋ฌผ์ ์ํฅ์ ์ค ์ ์์ต๋๋ค.
๊ฐ์ ๊ฐ๋ฅํ ์ ํฅํ ์ฐ๊ตฌ์์๋ ์ผ์ธ ํ๊ฒฝ์ด๋ ๋์ ์ธ ์ฅ๋ฉด์ผ๋ก์ ํ์ฅ์ด ๊ฐ๋ฅํ ๊ฒ์ ๋๋ค. ๋ํ, ํ์ฌ์ ์ ์ ์ธ 3D ๋ณต์์ ๋์ด ๋ฌผ์ฒด์ ๋ฌผ๋ฆฌ์ ์ฑ์ง(๋ฌด๊ฒ, ์ฌ์ง)์ด๋ ์์ง์(Motion)๊น์ง ์ดํดํ๋ 4D ๊ณต๊ฐ ์ง๋ฅ์ผ๋ก ๋ฐ์ ์ํฌ ์ ์์ต๋๋ค. ์๋ํ๋ ํ์ง ๊ฒ์ฌ(Quality Assurance) ๋ชจ๋์ ๋ ๊ฐํํ์ฌ ์ค๋ฅ๋ฅผ ์ค์ค๋ก ์์ ํ๋ ๋ฉ์ปค๋์ฆ์ ์ถ๊ฐํ๋ค๋ฉด ๋ฐ์ดํฐ์ ์ ๋ขฐ์ฑ์ ๋์ฑ ๋์ผ ์ ์์ ๊ฒ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ถ์ผ ์ด ๊ธฐ์ ์ ๊ฐ์ ์ฉ ๋ก๋ด ์ฒญ์๊ธฐ๋ ์๋น ๋ก๋ด ๊ฐ๋ฐ์ ์ฆ์ ํ์ฉ๋ ์ ์์ต๋๋ค. ๋ก๋ด์ด ์ค์๊ฐ์ผ๋ก ๋น๋์ค ์คํธ๋ฆผ์ ์ ๋ ฅ๋ฐ์ ๋ฐฉ์ 3D ์ง๋๋ฅผ ์๋์ผ๋ก ๋ง๋ค๊ณ , โ์ฒญ์๊ธฐ ์์ ์๋ ์ ๋ฐ์ ์น์์คโ์ ๊ฐ์ ๋ช ๋ น์ ์ ํํ๊ฒ ์ดํดํ๊ณ ์คํํ๋ ๋ฐ ํ์์ ์ธ ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ํ, ์ธํ ๋ฆฌ์ด ์๋ฎฌ๋ ์ด์ ์ด๋ ์ฆ๊ฐ ํ์ค(AR) ์ผํ ์ฑ์์๋ ์ฌ์ฉ์์ ๋ฐฉ์ ์ค์บํ์ฌ ๊ฐ๊ตฌ๋ฅผ ๋ฐฐ์นํด ๋ณด๋ ๋ฑ์ ๊ธฐ๋ฅ์ ๊ตฌํํ๋ ๋ฐ ์ฌ์ฉ๋ ์ ์์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค ์ด ํ์ดํ๋ผ์ธ์ ๊ตฌ๋ํ๋ ค๋ฉด ์๋นํ ์ฐ์ฐ ๋ฆฌ์์ค๊ฐ ํ์ํฉ๋๋ค. 3D ๊ฐ์ฐ์์ ์คํ๋ํ ์ต์ ํ์ ๊ณ ์ฑ๋ฅ ๋น์ ์ธ์ด ๋ชจ๋ธ(VLM) ์ถ๋ก ์ ์ํด ๋ง์ GPU ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ ๋ฅ๋ ฅ์ด ์๊ตฌ๋ฉ๋๋ค. ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ๋ ค๋ฉด ์ฌ๋ฌ ๋์ ๊ณ ์ฑ๋ฅ GPU ์๋ฒ(์: A100 ํด๋ฌ์คํฐ)๊ฐ ํ์ํ ๊ฒ์ด๋ฉฐ, ์์ ์ฒ๋ฆฌ ์๊ฐ๋ ์๋นํ ์์๋ ์ ์์ต๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- Structure-from-Motion (SfM): ์ฌ๋ฌ ์ฅ์ 2D ์ด๋ฏธ์ง๋ฅผ ๋ถ์ํ์ฌ ์นด๋ฉ๋ผ์ ์์น์ ์ฅ๋ฉด์ 3D ๊ตฌ์กฐ๋ฅผ ๋ณต์ํ๋ ๊ธฐ์ ์ ๋๋ค.
- 3D Gaussian Splatting (3DGS): 3D ๊ณต๊ฐ์ ๊ฐ ์ ์ ๊ฐ์ฐ์์(์ข ๋ชจ์์ ๋ถํฌ)์ผ๋ก ํํํ์ฌ ๋งค์ฐ ๋น ๋ฅด๊ณ ๊ณ ํ์ง์ 3D ์ฅ๋ฉด์ ๋ ๋๋งํ๋ ์ต์ ๊ธฐ์ ์ ๋๋ค.
- Vision-Language Model (VLM): ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๋์์ ์ดํดํ์ฌ, ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ณ ์ง๋ฌธ์ ๋ตํ๊ฑฐ๋ ์ค๋ช ํ ์ ์๋ ๊ฑฐ๋ AI ๋ชจ๋ธ์ ๋๋ค.
- Instance Segmentation: ์ด๋ฏธ์ง ๋ด์์ โ๊ฐโ, โ์๋์ฐจโ์ ๊ฐ์ด ํน์ ๊ฐ์ฒด์ ํฝ์ ๋จ์ ์์ญ์ ๊ตฌ๋ถํด๋ด๋ ๊ธฐ์ ์ ๋๋ค.
- Depth Estimation: 2D ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ณ ๊ฐ ํฝ์ ์ด ์นด๋ฉ๋ผ๋ก๋ถํฐ ์ผ๋ง๋ ๋จ์ด์ ธ ์๋์ง(๊น์ด)๋ฅผ ์ถ์ ํ๋ ๊ธฐ์ ์ ๋๋ค.
- Open-Vocabulary: ๋ฏธ๋ฆฌ ์ ํด์ง ํน์ ์นดํ ๊ณ ๋ฆฌ์ ๊ตญํ๋์ง ์๊ณ , ์ฌ์ ์ ํ์ต๋์ง ์์ ์๋ก์ด ๋จ์ด๋ ๊ฐ์ฒด๊น์ง ์ธ์ํ ์ ์๋ ๋ฅ๋ ฅ์ ์๋ฏธํฉ๋๋ค.
- Spatial Grounding: ์ธ์ด๋ก ํํ๋ ๋ช ๋ น(์: โ์ผ์ชฝ์ ๋นจ๊ฐ ์ปตโ)์ 3D ๊ณต๊ฐ์์ ์ค์ ์ขํ๋ ๊ฐ์ฒด์ ์ฐ๊ฒฐ์ํค๋ ์์ ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Geometry-Guided Reinforcement Learnโฆ | DD-041 |
| ๐ฅ | Penguin-VL: Exploring the Efficiencโฆ | DD-042 |
| ๐ฅ | OpenClaw-RL: Train Any Agent Simplyโฆ | DD-043 |
| 4. | Lost in Stories: Consistency Bugs iโฆ | DD-044 |
| 5. | Holi-Spatial: Evolving Video Streamโฆ | ๐ ํ์ฌ ๋ฌธ์ |
๐ ์์ฑ์ผ: 2026-03-15 | ๐ค GLM-4.7 Deep Dive