โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-084 Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation
arXiv: 2605.03849 ๊ธฐ๊ด: FrameX-AI Upvotes: 117 | Comments: 2 ์์: ์ด๋ฒ ์ฃผ Top 3
Stream-R1 ๋ ผ๋ฌธ ์ฌ์ธต ๋ถ์
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ์ฆ๋ฅ(Distillation) ๊ธฐ๋ฐ ๋น๋์ค ์์ฑ ๋ฐฉ์์ ํ์ ๋ชจ๋ธ์ด ๊ต์ฌ ๋ชจ๋ธ์ ๊ฒฐ๊ณผ๋ฅผ ๋ฌด์ฐจ๋ณ์ ์ผ๋ก ๋ชจ๋ฐฉํ๊ฒ ํ์ฌ, ํ์ง ํฅ์์ ์ํ์ ์ ์ ํํ๋ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋ณด์ ๋ชจ๋ธ(Reward Model)์ ํ์ฉํด ๊ต์ฌ์ ๊ฒฐ๊ณผ ์ค ์ ๋ขฐํ ์ ์๋ ์ํ์ ๋ ๋ฏฟ๊ณ , ๊ฐ ์ํ ๋ด์์ ํ์ง ๊ฐ์ ์ด ์๊ธํ ์์ญ์๋ง ํ์ต์ ์ง์ค์ํค๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ์ด๋ฅผ ํตํด ์คํธ๋ฆฌ๋ฐ ๋น๋์ค ์์ฑ์ ํจ์จ์ฑ์ ์ ์งํ๋ฉด์๋ ๊ธฐ์กด ์ต์ฒจ๋จ(SOTA) ๋ฐฉ๋ฒ๋ก ๋ณด๋ค ์๋ฑํ ๋์ ํ์ง๊ณผ ์์ ์ฑ์ ๋ฌ์ฑํ์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ โ๊ณจ๊ณ ๋ฃจ ๋ฐฐ์ฐ์ง ๋ง๊ณ , ์ค์ํ ๊ณณ์ ์ง์ค์ ์ผ๋ก ๋ฐฐ์๋ผโ์ ๋๋ค. ๊ธฐ์กด ๋ฐฉ์์ด ์ต๊ณ ์ ๊ทธ๋ฆผ์ ๊ทธ๋ฆฌ๋ ํ๊ฐ(๊ต์ฌ ๋ชจ๋ธ)์ ๋ชจ๋ ๋ถ์ง์ ๋๊ฐ์ด ์ค์ํ๊ฒ ์ฌ๊ธฐ๋ฉฐ ๋ฐ๋ผ ํ๊ฒ ํ๋ค๋ฉด, Stream-R1์ ํ๊ฐ๊ฐ โ์ด ๋ถ๋ถ์ ์ค์ํ์ผ๋ ๋ฌด์ํ๊ณ , ์ ๋ถ๋ถ์ ๋ ๋ฉ์ง๊ฒ ๊ทธ๋ ธ์ผ๋ ์ ๋ด๋ฌโ๋ผ๊ณ ํผ๋๋ฐฑ์ ์ฃผ๋ ์ํฉ๊ณผ ๋น์ทํฉ๋๋ค.
์ผ์์ํ ๋น์ : ์๋ฆฌ์ฌ ์์ ์ผ๋ก ์ดํดํ๊ธฐ
์์ต ์๋ฆฌ์ฌ(ํ์ ๋ชจ๋ธ)๊ฐ ์คํ ์ ฐํ(๊ต์ฌ ๋ชจ๋ธ)์๊ฒ ์๋ฆฌ๋ฅผ ๋ฐฐ์ฐ๋ ์ํฉ์ ์์ํด ๋ณด์ธ์. ๊ธฐ์กด ๋ฐฉ์์ ์ ฐํ๊ฐ ๋ง๋ ๋ชจ๋ ์๋ฆฌ ์๋๋ฅผ ๋์ผํ๊ฒ ์ค์ํ๊ฒ ์ฌ๊น๋๋ค. ์ ฐํ๊ฐ ์ค์๋ก ์๋ฆฌ๋ฅผ ํ์ ๊ฑฐ๋ ๋ง์ด ์๋ ์๋ฆฌ๋ฅผ ๋ง๋ค์์ด๋ ์์ต์์ ๊ทธ๊ฑธ ๊ทธ๋๋ก ๋ฐฐ์ฐ๋ ค๊ณ ๋ ธ๋ ฅํฉ๋๋ค. ๋ํ, ์์ฑ๋ ์๋ฆฌ์์ ๋ง์ด ์๋ ๋ถ๋ถ๊ณผ ๋ง์ด ์๋ ๋ถ๋ถ์ ๊ตฌ๋ถํ์ง ์๊ณ ์ ์ฒด๋ฅผ ๋๊ฐ์ด ์ฐ์ตํฉ๋๋ค.
Stream-R1 ๋ฐฉ์์ ๋ฏธ์๊ฐ ํ๋ก ๊ฐ(๋ณด์ ๋ชจ๋ธ)๊ฐ ์์์ ์ง์ผ๋ณด๋ฉฐ ๋์์ค๋๋ค. ์ฒซ์งธ, ํ๋ก ๊ฐ๋ โ์ด ์๋ฆฌ๋ ์ ฐํ์ ์ค๋ ฅ์ด ์ ๋ฐํ๋ ๊ฒ์ด๋ ์ ๋ง ์ด์ฌํ ๋ฐ๋ผ ํ์ธ์(Inter-Reliability)โ๋ผ๊ณ ๋งํฉ๋๋ค. ๋์งธ, ์๋ฆฌ ๋ด์์ โ์ด ์คํ ์ดํฌ์ ์์ค ๋ถ๋ถ์ ์๋ฒฝํ๋ฐ, ๊ณ ๊ธฐ ์ก๋ถ๋ถ์ ๋ ์ต์์ผ๋ ์ฌ๊ธฐ์๋ง ์ง์คํด์ ์์ ํ์ธ์(Intra-Perplexity)โ๋ผ๊ณ ๊ตฌ์ฒด์ ์ธ ๊ฐ์ด๋๋ฅผ ์ค๋๋ค. ์์ต์์ ์ด ํผ๋๋ฐฑ์ ํตํด ํจ์ฌ ๋ ๋น ๋ฅด๊ณ ๋ง์๋ ์๋ฆฌ๋ฅผ ๋ฐฐ์ธ ์ ์์ต๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
์ด ๊ณผ์ ์ ํฌ๊ฒ ๋ ๊ฐ์ง ์ถ์ผ๋ก ๋๋ฉ๋๋ค. ์ฒซ ๋ฒ์งธ๋ โ์ํ ๊ฐ ์ ๋ขฐ๋(Inter-Reliability)โ์ ๋๋ค. ๋ชจ๋ธ์ด ์์ฑํ ์ฌ๋ฌ ๋น๋์ค ์ํ ์ค์์ ๋ณด์ ๋ชจ๋ธ์ด ์ ์๋ฅผ ๋๊ฒ ๋งค๊ธด, ์ฆ ์ ๋ขฐํ ์ ์๋ ๊ฒฐ๊ณผ๋ฌผ์๋ ํ์ต ๊ฐ์ค์น๋ฅผ ๋์ฌ์ ๋์ฑ ํ์คํ๊ฒ ํ์ตํฉ๋๋ค. ๋ ๋ฒ์งธ๋ โ์ํ ๋ด ๋์ด๋(Intra-Perplexity)โ์ ๋๋ค. ํ๋์ ๋น๋์ค ํ๋ ์ ์์์๋ ๋ชจ๋ ํฝ์ ์ด ๋๊ฐ์ด ์ค์ํ ๊ฒ์ ์๋๋๋ค. ๋ณด์ ๋ชจ๋ธ์ ๊ธฐ์ธ๊ธฐ(Gradient)๋ฅผ ์ญ์ ํ์์ผ, ์ ์๋ฅผ ๋์ด๋ ๋ฐ ๊ฐ์ฅ ํฌ๊ฒ ๊ธฐ์ฌํ๋ ๋ถ๋ถ(์ฆ, ํ์ฌ ํ์ง์ด ๋ฎ์ ๊ฐ์ ์ด ํ์ํ ๋ถ๋ถ)์ ์ฐพ์๋ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์์ค ํจ์(Loss Function)๋ฅผ ํตํด ๊ทธ ๋ถ๋ถ์ ์์ ๊ฐ๋๋ฅผ ๋์ ๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ
๊ธฐ์กด์ ๋ถํฌ ๋งค์นญ ์ฆ๋ฅ(DMD) ์์ค ํจ์ $\mathcal{L}{DMD}$์ ๋ ๊ฐ์ง ๊ฐ์ค์น๋ฅผ ๊ณฑํ๋ ํํ๋ก ์์ ๋ฉ๋๋ค. $\mathcal{L}{\text{Stream-R1}} = \mathbf{W}{\text{inter}} \cdot (W{\text{intra}} \odot \mathcal{L}{DMD})$ ์ฌ๊ธฐ์ $W{\text{inter}}$๋ ์ค์นผ๋ผ ๊ฐ์ผ๋ก, ์ด ๋กค์์(์ํ) ์ ์ฒด๊ฐ ์ผ๋ง๋ ์ ๋ขฐํ ์ ์๋์ง๋ฅผ ๋ํ๋ ๋๋ค. $W_{\text{intra}}$๋ ๊ณต๊ฐ(Spatial)๊ณผ ์๊ฐ(Temporal) ์์ญ์ ๋งต ํํ๋ก ์ ์ฉ๋๋ ๊ฐ์ค์น๋ก, ์ด๋ ํฝ์ ์ด๋ ํ๋ ์์ ์ง์ค์ ์ผ๋ก ์์ ํด์ผ ํ ์ง๋ฅผ ์ง์ ํฉ๋๋ค. ์ด ๋ชจ๋ ๊ณผ์ ์ ๋จ์ผ ๋ณด์ ๋ชจ๋ธ(Reward Model)์ ์ํด ๊ตฌ๋๋ฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ด๋ค ๋ฒค์น๋งํฌ์์ ํ ์คํธํ๋?
์ฐ๊ตฌ์ง์ ๋น๋์ค ์์ฑ ํ์ง์ ํ๊ฐํ๋ ํ์ค ๋ฒค์น๋งํฌ์ธ VBench๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ํนํ 5์ด ๊ธธ์ด์ ์งง์ ๋น๋์ค์ ๋ ๊ธด ๋กฑ ๋น๋์ค ์์ฑ์์์ ์ฑ๋ฅ์ ๋ชจ๋ ์ธก์ ํ์ต๋๋ค. ๋ํ VLM(๋น์ -์ธ์ด ๋ชจ๋ธ) ๊ธฐ๋ฐ์ ํ๊ฐ์ ์ค์ ์ฌ๋์ ์ ํธ๋ ์กฐ์ฌ๋ฅผ ๋ณํํ์ฌ ๊ฐ๊ด์ฑ๊ณผ ์ฃผ๊ด์ ๋ง์กฑ๋๋ฅผ ๋ชจ๋ ํ์ธํ์ต๋๋ค.
๊ธฐ์กด SOTA ๋๋น ์ผ๋ง๋ ์ข์์ก๋?
Stream-R1์ ๋น๊ต๋ ๋ชจ๋ ๋ฐฉ๋ฒ๋ก ์ค ๊ฐ์ฅ ๋์ VBench ์ ์๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ํนํ ํฅ๋ฏธ๋ก์ด ์ ์, 14์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๊ฑฐ๋ํ ๊ต์ฌ ๋ชจ๋ธ(Wan2.1-T2V-14B)์กฐ์ฐจ ๋์ด์๋ ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์๋ค๋ ๊ฒ์ ๋๋ค. ์งง์ ๋น๋์ค ์์ฑ์์๋ ๊ธฐ์กด ๊ฐ์์ธ Reward Forcing๋ณด๋ค ์ ๋ฐ์ ์ธ ํ์ง ์ ์๊ฐ ๋์์ผ๋ฉฐ, ๊ธด ๋น๋์ค ์์ฑ์์๋ ํ์ง ์ ํ(Drift)๊ฐ ๊ฐ์ฅ ์ ๊ณ ์๊ฐ์ ์์ ์ฑ์ด ๋ฐ์ด๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
์ฌ๋ ํ๊ฐ์(Human Evaluation) ๋์ ์กฐ์ฌ์์ ์๊ฐ์ ํ์ง(Visual Quality), ํ ์คํธ ์ ๋ ฌ(Text Alignment), ๋์ ํฉ๋ฆฌ์ฑ(Dynamic Reasonableness) ๋ฑ 5๊ฐ์ง ์ฐจ์ ๋ชจ๋์์ ์๋์ ์ธ ์ ํธ๋๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ์ด๋ ๋จ์ํ ์์น์ ์ธ ์ ์๋ฅผ ๋์ด๋ ๊ฒ์ ๋์ด, ์ค์ ์ฌ๋์ด ๋ณด๊ธฐ์ ํจ์ฌ ์์ฐ์ค๋ฝ๊ณ ๊ณ ํ์ง์ ๋น๋์ค๋ฅผ ์์ฑํ๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ
์ด ๋ ผ๋ฌธ์ Stream-R1 ํ๋ ์์ํฌ ์์ฒด์ ๊ตฌ์กฐ์ ํ๊ณ๋ณด๋ค๋ ์์กดํ๊ณ ์๋ ์ธ๋ถ ์์ธ์ ๋ํ ํ๊ณ๋ฅผ ๋ดํฌํ๊ณ ์์ต๋๋ค. ๋ฐ๋ก โ๋ณด์ ๋ชจ๋ธ(Reward Model)โ์ ํ์ง์ ์ ์ ์ผ๋ก ์์กดํ๋ค๋ ์ ์ ๋๋ค. ๋ณด์ ๋ชจ๋ธ์ด ํน์ ์คํ์ผ์ด๋ ํธํฅ๋ ๋ด์ฉ์ ๋๊ฒ ํ๊ฐํ๋ค๋ฉด, Stream-R1์ ํตํด ํ์ต๋ ์์ฑ ๋ชจ๋ธ ์ญ์ ๊ทธ ํธํฅ์ ๊ทธ๋๋ก ๋ฌผ๋ ค๋ฐ๊ฒ ๋ฉ๋๋ค.
๊ฐ์ ๊ฐ๋ฅํ ์
ํ์ฌ๋ ์ฃผ์ด์ง ๋ณด์ ๋ชจ๋ธ์ ์ฌ์ฉํ์ง๋ง, ํฅํ ์ฐ๊ตฌ์์๋ ์ด ๋ณด์ ๋ชจ๋ธ ์์ฒด๋ฅผ ํ์ต ๊ณผ์ ์ค์ ๋์ ์ผ๋ก ๊ฐ์ ํ๊ฑฐ๋, ์ฌ๋ฌ ๋ณด์ ๋ชจ๋ธ์ ์ ํธ๋ฅผ ๋ ์ ๊ตํ๊ฒ ๊ฒฐํฉํ๋ ๋ฐฉ๋ฒ์ด ํ์๋ ์ ์์ต๋๋ค. ๋ํ, ํ์ฌ๋ ์ฃผ๋ก ์๊ฐ ํ์ง๊ณผ ํ ์คํธ ์ผ์น์ ์ด์ ์ ๋ง์ถ๊ณ ์์ผ๋ฏ๋ก, ์ค๋์ค ๋๊ธฐํ๋ ๋ฌผ๋ฆฌ ๋ฒ์น ์ค์์ ๊ฐ์ ๋ ๋ณต์กํ ์ฐจ์์ผ๋ก ํ๊ฐ ๊ธฐ์ค์ ํ์ฅํ๋ ๊ฒ๋ ๊ฐ๋ฅํฉ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด๋์ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅ?
์ด ๊ธฐ์ ์ ์ค์๊ฐ ์คํธ๋ฆฌ๋ฐ ๋น๋์ค ์์ฑ ์๋น์ค์ ์ฆ์ ์ ์ฉํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ์ฉ์๊ฐ ํ ์คํธ๋ฅผ ์ ๋ ฅํ๋ฉด ์ค์๊ฐ์ผ๋ก ์์์ ๋ง๋ค์ด์ฃผ๋ AI ์์ ์ ์ ๋๊ตฌ๋, ๊ฐ์ ์ ํ๋ฒ(AI ์๋ฐํ)๊ฐ ์ฆ์์์ ์์์ ์์ฑํ๋ ์ํฉ์ ๋งค์ฐ ์ ํฉํฉ๋๋ค. ์ถ๋ก ๋จ๊ณ์์์ ์ถ๊ฐ ๋น์ฉ์ด ๋ค์ง ์์ผ๋ฏ๋ก ์๋น์ค ์ ๊ณต ์ ์ฒด์ ๋น์ฉ ๋ถ๋ด์ ์ค์ด๋ฉด์๋ ๊ณ ํ์ง ์์์ ์ ๊ณตํ ์ ์์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค (GPU, ๋ฐ์ดํฐ ๋ฑ)
ํ์ต ๊ณผ์ ์์๋ ์๋นํ ์ปดํจํ ํ์๊ฐ ํ์ํฉ๋๋ค. ๋ ผ๋ฌธ์ ์คํ ์ค์ ์ ๋ณด๋ฉด A100 GPU 8๋๋ฅผ ์ฌ์ฉํ์ฌ ์ฝ 56์๊ฐ ๋์ ํ์ตํ์ต๋๋ค. ๋ฐ๋ผ์ ์ด๊ธฐ ๋ชจ๋ธ์ ๊ฐ๋ฐํ๊ฑฐ๋ ์ปค์คํฐ๋ง์ด์งํ๊ธฐ ์ํด์๋ ์๋นํ ๊ท๋ชจ์ GPU ํด๋ฌ์คํฐ๊ฐ ํ์ํฉ๋๋ค. ํ์ง๋ง ํ ๋ฒ ํ์ต๋ ๋ชจ๋ธ์ ์ถ๋ก ์ ๊ธฐ์กด ๋ชจ๋ธ๊ณผ ์ ์ฌํ ์์ค์ ๋ฆฌ์์ค๋ง ์ฌ์ฉํ๋ฏ๋ก, ์๋น ํ๊ฒฝ์์๋ ํจ์จ์ ์ ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- Diffusion Models (ํ์ฐ ๋ชจ๋ธ): ๋ ธ์ด์ฆ๊ฐ ์์ธ ๋ฐ์ดํฐ์์ ์ ์ฐจ ์๋ณธ ์ด๋ฏธ์ง๋ ๋น๋์ค๋ฅผ ๋ณต์ํด ๋๊ฐ๋ ์์ฑ ๋ชจ๋ธ์ ์ผ์ข ์ผ๋ก, ํ์ฌ ์ด๋ฏธ์ง ์์ฑ์ ์ฃผ๋ฅ ๊ธฐ์ ์ ๋๋ค.
- Knowledge Distillation (์ง์ ์ฆ๋ฅ): ํฌ๊ณ ๋ณต์กํ ๊ต์ฌ ๋ชจ๋ธ์ ์ง์์ ์๊ณ ํจ์จ์ ์ธ ํ์ ๋ชจ๋ธ๋ก ์ฎ๊ฒจ, ํ์ ๋ชจ๋ธ์ด ๊ต์ฌ์ ๋น์ทํ ์ฑ๋ฅ์ ๋ด์ง๋ง ๋ ๋น ๋ฅด๊ฒ ์๋ํ๋๋ก ๋ง๋๋ ๊ธฐ์ ์ ๋๋ค.
- Autoregressive (์๊ธฐํ๊ท): ์ด์ ์ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ๋ค์ ๋ฐ์ดํฐ๋ฅผ ์์ฐจ์ ์ผ๋ก ์์ธกํ๋ ๋ฐฉ์์ผ๋ก, ํ ์คํธ ์์ฑ์ด๋ ์คํธ๋ฆฌ๋ฐ ๋น๋์ค ์์ฑ์ ์ฃผ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
- Reward Model (๋ณด์ ๋ชจ๋ธ): ์์ฑ๋ ๊ฒฐ๊ณผ๊ฐ ์ผ๋ง๋ ์ข์์ง ์ ์๋ฅผ ๋งค๊ธฐ๋ ๋ชจ๋ธ๋ก, ์ฃผ๋ก RLHF(์ธ๊ฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ๊ฐํ ํ์ต) ๋ฑ์์ ์ฌ์ฉ๋ฉ๋๋ค.
- KL Divergence (KL ๋ฐ์ฐ): ๋ ํ๋ฅ ๋ถํฌ ์ฌ์ด์ ์ฐจ์ด๋ฅผ ์ธก์ ํ๋ ๊ฐ์ผ๋ก, ๋ถํฌ ๋งค์นญ ์ฆ๋ฅ(DMD)์์ ํ์ ๋ชจ๋ธ์ด ๊ต์ฌ ๋ชจ๋ธ์ ๋ถํฌ๋ฅผ ์ผ๋ง๋ ์ ๋ฐ๋ผ๊ฐ๊ณ ์๋์ง ํ๊ฐํ ๋ ์ฐ์ ๋๋ค.
- Backpropagation (์ญ์ ํ): ์ ๊ฒฝ๋ง ํ์ต ์ ์ถ๋ ฅ์ธต์ ์ค์ฐจ๋ฅผ ์ ๋ ฅ์ธต ๋ฐฉํฅ์ผ๋ก ์ ํํ์ฌ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํ๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ์ด ๋ ผ๋ฌธ์์๋ ๊ทธ๋ผ๋์ธํธ ์ด๋ฆฌ์ธ์(Saliency)๋ฅผ ๊ตฌํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | MolmoAct2: Action Reasoning Models โฆ | DD-082 |
| ๐ฅ | From Context to Skills: Can Languagโฆ | DD-083 |
| ๐ฅ | Stream-R1: Reliability-Perplexity Aโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 4. | RLDX-1 Technical Report | DD-085 |
| 5. | ARIS: Autonomous Research via Adverโฆ | DD-086 |
๐ ์์ฑ์ผ: 2026-05-10 | ๐ค GLM-4.7 Deep Dive