β π μ΄λ² μ£Ό Weekly Digestλ‘ λμκ°κΈ°
DD-072 Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items
arXiv: 2604.19748 κΈ°κ΄: alibaba-inc Upvotes: 244 | Comments: 7 μμ: μ΄λ² μ£Ό Top 1
μλ νμΈμ! AI/ML μ λ¬Έκ°μ΄μ λ Όλ¬Έ 리뷰μ΄λ‘μ, Tstars-Tryon 1.0 λ Όλ¬Έμ μ£Όλμ΄ κ°λ°μλ μ½κ² μ΄ν΄ν μ μλλ‘ μ¬μΈ΅ λΆμν΄ λλ¦¬κ² μ΅λλ€. μ΄ λ Όλ¬Έμ μ€μ μμ©ν νκ²½μμ μΌλ§λ κ°λ ₯νκ³ ν¨μ¨μ μΈ κ°μ νΌν κΈ°μ μ΄ νμνμ§λ₯Ό μ 보μ¬μ£Όλ μ¬λ‘μ λλ€.
μμ²νμ νμμ λ§μΆ° μμΈ λΆμμ μμνκ² μ΅λλ€.
1. μ μ΄ λ Όλ¬Έμ΄ μ€μνκ°?
κΈ°μ‘΄μ κ°μ νΌν μ°κ΅¬λ€μ κΉ¨λν μ λ©΄ μ¬μ§μ΄λ λ¨μν μ·μμλ μ μλνμ§λ§, μ€μ μ¬μ©μκ° μ°μ μ΄λμ΄ μ¬μ§, νλ€λ¦° μ¬μ§, 과격ν ν¬μ¦ λ± νμ€μ 볡μ‘ν μν©(In-the-wild)μμλ μ±λ₯μ΄ κΈκ²©ν λ¨μ΄μ§λ νκ³κ° μμμ΅λλ€. λν μμ©ν μλΉμ€μ μ μ©νκΈ°μλ μμ± μλκ° λ무 λλ € μ¬μ©μ κ²½νμ ν΄μΉλ λ¬Έμ κ° μμμ΅λλ€. μ΄ λ Όλ¬Έμ 볡μ‘ν νμ€ νκ²½μμλ νΌνΌνκ² μλ(robust)νλ©΄μλ, μ€μ μ¬μ§μ²λΌ 보μ΄κ² λ§λλ κ³ ν΄μλ μμ±(realistic) κΈ°μ κ³Ό μ€μκ°μ κ°κΉμ΄ μ΄κ³ μ μΆλ‘ ν¨μ¨μ±(efficiency)μ λμμ λ¬μ±νμ¬, μ°κ΅¬μ€ λ¨κ³λ₯Ό λμ΄ λκ·λͺ¨ μμ© μλΉμ€(Taobao App)μ μ±κ³΅μ μΌλ‘ μμ°©μν¨ μ μμ λ§€μ° μ€μν μλ―Έλ₯Ό κ°μ§λλ€.
2. ν΅μ¬ μμ΄λμ΄ μ½κ² μ΄ν΄νκΈ°
μΌμμν λΉμ : βμλ°λ ₯ λμΉλ μ΅κ³ μ ν μΌλ¬β
μ΄ μμ€ν μ λ§μΉ βμ΄λ₯λ ₯μ κ°μ§ ν μΌλ¬βλΌκ³ μκ°ν΄λ³΄μΈμ. μλμ΄ νλ¦° λ νλ€λ¦° μΉ΄λ©λΌλ‘ μ°μ 과격ν λμ€ ν¬μ¦ μ¬μ§μ κ°μ Έμλ, μ΄ ν μΌλ¬λ λ κΉμ§ν μ¬μ΄μ μ·μ μ§κ°κ³Ό μ£Όλ¦μ μλ²½νκ² μ΄λ €μ μλμ μ¬μ§μ μ νμ€λλ€. κ²λ€κ° μλμ βμ΄ λ°μ§μ μ μ μ§, κ·Έλ¦¬κ³ μ΄ λͺ¨μκΉμ§ ν λ²μ μ μ΄λ΄βλΌκ³ 6κ°μ§μ μ·μ λμμ μμ²ν μ μκ³ , λ°°κ²½λ μνλ λλ‘ λ°κΏ μ μμ΅λλ€. λ³΄ν΅ ν μΌλ¬λΌλ©΄ μ΄ μΌμ νλ λ° λ©°μΉ μ΄ κ±Έλ¦¬κ² μ§λ§, AI ν μΌλ¬λ 1μ΄λ μ λμ΄ μλ²½ν κ²°κ³Όλ¬Όμ λ΄λμ΅λλ€. μ΄κ²μ΄ λ°λ‘ Tstars-Tryon 1.0μ΄ νλ μΌμ λλ€.
λ¨κ³λ³ λμ λ°©μ
μ΄ μμ€ν μ ν¬κ² λ€ κ°μ§ λ¨κ³λ‘ λλμ΄ λ³Ό μ μμ΅λλ€.
첫째, λ°μ΄ν° μμ§μ ν΅ν κ²¬κ³ ν¨ ν보. λͺ¨λΈμ΄ νλ ¨λκΈ° μ μ, μ€μ μΈκ³μ λ€μν μ΄λ €μ΄ μν©(μ‘°λͺ λ¬Έμ , νλ¦Ό λ±)μ μΈμμ μΌλ‘ λ λ§μ΄ λ§λ€μ΄λ΄μ΄ νμ΅ λ°μ΄ν°λ₯Ό κ°νν©λλ€. λ§μΉ ν μΌλ¬κ° μ΅μ μ μν©μμλ μΌν μ μλλ‘ νλ ¨μν€λ κ²κ³Ό λΉμ·ν©λλ€.
λμ§Έ, ν΅ν©λ μν€ν μ² μ€κ³. κΈ°μ‘΄ λ°©μλ€μ μ¬λμ ννλ₯Ό νμ νλ λ¨κ³μ μ·μ ν©μ±νλ λ¨κ³κ° λ°λ‘ λ¨μ΄μ Έ μμ΄ μ€λ₯κ° λ°μνκΈ° μ¬μ μ΅λλ€. μ΄ μμ€ν μ μ΄λ₯Ό νλλ‘ μ°κ²°λ νμ΄νλΌμΈμΌλ‘ μ€κ³νμ¬, μ¬λμ μ 체 ꡬ쑰μ μ·μ νΉμ±μ λ μ κ΅νκ² λ§€μΉν©λλ€.
μ μ§Έ, λ€μ€ μ΄λ―Έμ§ ν©μ± λ₯λ ₯. μ¬μ©μκ° μ¬λ¬ μ·μ μ°Έκ³ μ΄λ―Έμ§λ‘ μ£Όλ©΄(μ΅λ 6μ₯), λͺ¨λΈμ μ΄λ₯Ό νλμ μ€νμΌλ‘ ν΅ν©νμ¬ μ²λ¦¬ν©λλ€. μ΄λ μ¬μ©μμ μΌκ΅΄μ κ·Έλλ‘ μ μ§νλ©΄μ λ°°κ²½μ΄λ μ·λ§ μμ°μ€λ½κ² λ°λλλ€.
λ·μ§Έ, μΆλ‘ μλ μ΅μ ν. 볡μ‘ν μ°μ°μ κ±°μ³λ κ²°κ³Όκ° λμ€λ μλκ° μ€μνλ―λ‘, λͺ¨λΈ ꡬ쑰λ₯Ό κ²½λννκ³ μμ€ν μΈνλΌλ₯Ό νλνμ¬ μ¬μ©μκ° κΈ°λ€λ¦Ό μμ΄ κ²°κ³Όλ₯Ό λ³Ό μ μλλ‘ λ§λλλ€.
ν΅μ¬ μκ³ λ¦¬μ¦ λ° κΈ°μ
λ Όλ¬Έμμλ ꡬ체μ μΈ μμμ 곡κ°νμ§ μμμ§λ§, βλ€λ¨κ³ νλ ¨ ν¨λ¬λ€igm(Multi-stage training paradigm)βμ μΈκΈν©λλ€. μ΄λ λͺ¨λΈμ΄ ν λ²μ λͺ¨λ κ²μ λ°°μ°λ κ²μ΄ μλλΌ, 1λ¨κ³μμλ μ·μ ννλ₯Ό μ‘κ³ , 2λ¨κ³μμλ μ¬μΈν μ§κ°κ³Ό μ¬μ§μ νμ΅νλ μμΌλ‘ λ¨κ³λ³λ‘ νμ΅ λͺ©νλ₯Ό μΈλΆννμμ μμ¬ν©λλ€. λν βμ΄λ―Έμ§ μμ±(Image generation)β κΈ°μ μ νμ©νμ¬, μ·μ λ¨μν λΆμ¬ λ£λ κ²μ΄ μλλΌ ν½μ λ¨μλ‘ μλ‘μ΄ μ¬μ§μ κ·Έλ €λ΄λ μμ± λͺ¨λΈ(μλ§λ Diffusion λͺ¨λΈμ΄λ κ³ λνλ GAN κ³μ΄)μ κΈ°λ°μΌλ‘ ꡬμ±λμ΄ μμ κ²μΌλ‘ μΆμ λ©λλ€.
3. μ€ν κ²°κ³Ό λΆμ
λ²€μΉλ§ν¬ λ° μ±λ₯ νκ°
μ΄ λ Όλ¬Έμ μ°κ΅¬μλ€μ΄ 곡κ°ν κΈ°μ‘΄ λ°μ΄ν°μ λΏλ§ μλλΌ, μ μλ€μ΄ μ§μ μλ‘ λ§λ ν¬κ΄μ μΈ λ²€μΉλ§ν¬μμ μ±λ₯μ κ²μ¦νμ΅λλ€. νΉν κΈ°μ‘΄ λͺ¨λΈλ€μ΄ μμ£Ό μ€ν¨νλ βκ·Ήλ¨μ μΈ ν¬μ¦β, βμ¬ν μ‘°λͺ λ³νβ, βλͺ¨μ λΈλ¬(Motion blur)βκ° ν¬ν¨λ μ΄λ €μ΄ ν μ€νΈ μΌμ΄μ€λ₯Ό μ£Όλ‘ λ€λ£¨μμ΅λλ€.
κΈ°μ‘΄ SOTA(State-of-the-Art) λλΉ μ±λ₯
ꡬ체μ μΈ μμΉκ° 곡κ°λ μ λμ λΉκ΅ νλ μ 곡λ μμ½μ μμ§λ§, βμ λμ μΈ μ λ°μ μΈ μ±λ₯(leading overall performance)βμ λ¬μ±νλ€κ³ λͺ μνκ³ μμ΅λλ€. μ΄λ μ λμ μ§ν(FID, LPIPS λ±)λΏλ§ μλλΌ, μ€μ μ¬λμ΄ λ³΄μμ λ νμ§μ νκ°νλ μ μ±μ ν μ€νΈμμλ κΈ°μ‘΄ μ΅κ³ μμ€μ λͺ¨λΈλ€μ μλνμμ μλ―Έν©λλ€. νΉν AIκ° λ§λ μ΄λ―Έμ§μμ νν 보μ΄λ μΈκ³΅μ μΈ μ‘μμ΄λ μ곑(Artifacts)μ ν¬κ² μ€μ¬, μ·μ μ§κ°κ³Ό μ¬μ§μ μ¬μ§ κ·Έλλ‘ λ³΄μ‘΄νλ λ° νμν μ±κ³Όλ₯Ό 보μμ΅λλ€.
μ£Όλͺ©ν λ§ν μ±κ³Ό
κ°μ₯ μΈμμ μΈ μ±κ³Όλ κΈ°μ μ μμ±λλ₯Ό λμ΄μ μ€μ§μ μΈ μ΄μ μ±κ³Όμ λλ€. μ΄ λͺ¨λΈμ νμ€λ°μ€(Taobao) μ±μ μ€μ λ‘ νμ¬λμ΄ μλ°±λ§ λͺ μ μ¬μ©μμκ² μλΉμ€λμμΌλ©°, μμ²λ§ 건μ μμ²μ μ²λ¦¬νμ΅λλ€. μ΄λ λ¨μν λ Όλ¬ΈμΌλ‘μμ μ±κ³΅μ΄ μλλΌ, μ€μ λΉμ¦λμ€ μν©μμ λ°μνλ μμ²λ νΈλν½μ 견λλ©° μ¬μ©μμκ² λ§μ‘±μ€λ¬μ΄ κ²°κ³Όλ₯Ό μ£Όμλ€λ κ°λ ₯ν μ€μ¦ λ°μ΄ν°μ λλ€.
4. νκ³μ κ³Ό ν₯ν μ°κ΅¬ λ°©ν₯
μ μκ° μΈκΈν νκ³ λ° μΆλ‘ κ³Όμ μμμ κ³ λ―Ό
λΉλ‘ μμ½μ λͺ μλ νκ³μ μ μμ§λ§, βλ€μ€ μ΄λ―Έμ§ ν©μ±βμ μ΅λ 6μ₯μΌλ‘ μ νν μ μ΄λ, κ·Ήλ¨μ μΈ μν©μμμ μ±λ₯ μ μ§λ₯Ό μν΄ μμ€ν ꡬ쑰λ₯Ό μΌλ§λ 볡μ‘νκ² λ§λ€μλμ§κ° μ묡μ μΈ trade-offλ‘ μμ©ν μ μμ΅λλ€. λͺ¨λΈμ΄ 볡μ‘ν΄μ§μλ‘ μ μ§λ³΄μ λΉμ©μ΄λ μλ² λΆνκ° μ¦κ°ν μ μκΈ° λλ¬Έμ λλ€.
κ°μ κ°λ₯μ± λ° ν₯ν λ°©ν₯
νμ¬λ μ μ§λ μ¬μ§(Still image)μ μ΄μ μ λ§μΆκ³ μμ§λ§, μΆν μ°κ΅¬μμλ **λμμ κ°μ νΌν (Video Virtual Try-On)**μΌλ‘ νμ₯λ κ°λ₯μ±μ΄ ν½λλ€. μ¬μ©μκ° λμκ°κ±°λ κ±·λ λμμ λ§μΆ° μ·μ 물리μ μμ§μμ μ€μκ°μΌλ‘ λ°μνλ κΈ°μ μ΄ λ€μ λ¨κ³κ° λ κ²μ λλ€. λν, νμ¬ 8κ°μ ν¨μ μΉ΄ν κ³ λ¦¬λ₯Ό μ§μνμ§λ§, μ΄λ₯Ό μ‘μΈμ리λ μ λ° λ± λ λ€μν μμ΄ν μΌλ‘ νμ₯νλ κ²λ κ³Όμ κ° λ κ²μ λλ€.
5. μ€λ¬΄ μ μ© κ°λ₯μ±
μ¦μ μ μ© κ°λ₯ν λΆμΌ
μ΄ κΈ°μ μ μ΄μ»€λ¨Έμ€ νλ«νΌμ κ°μ₯ μ ν©ν©λλ€. μ· μΌν μ νλ μ΄μ λ λͺ¨λΈ μ¬μ§μ΄ μλ, λ΄ μ¬μ§μ μ§μ μ·μ μ μ΄λ³΄λ βλ΄ νΌν β κΈ°λ₯μ μ 곡νμ¬ κ΅¬λ§€ μ νμ¨μ νκΈ°μ μΌλ‘ λμΌ μ μμ΅λλ€. λν ν¨μ μ€νμΌλ§ μΆμ² μλΉμ€, λ©νλ²μ€ μλ°ν κΎΈλ―ΈκΈ°, μμ λ―Έλμ΄ νν° μ± λ±μλ μ¦μ μ μ©ν μ μμ΅λλ€.
νμν 리μμ€
μ΄ μμ€ν μ μ€λ¬΄μ λμ νκΈ° μν΄μλ κ³ μ±λ₯μ GPU ν΄λ¬μ€ν°κ° νμμ μ λλ€. νΉν μμ²λ§ 건μ μμ²μ μ€μκ°μ κ°κΉκ² μ²λ¦¬νλ €λ©΄ μΆλ‘ μλ μ΅μ νκ° λμ΄ μλλΌλ, λκ·λͺ¨ λ³λ ¬ μ²λ¦¬κ° κ°λ₯ν μλ² μΈνλΌ(μ: NVIDIA A100μ΄λ H100 κΈ°λ°μ μλ²)κ° νμν©λλ€. λν λͺ¨λΈμ νλμ μν΄μλ λ€μν 체νκ³Ό μ·μΌλ‘ ꡬμ±λ κ³ νμ§μ λκ·λͺ¨ λ°μ΄ν°μ μ΄ ν보λμ΄μΌ ν©λλ€.
6. μ΄ λ Όλ¬Έμ μ΄ν΄νκΈ° μν μ¬μ μ§μ
- Virtual Try-On (VTO): μ¬μ©μμ μ΄λ―Έμ§μ κ°μμΌλ‘ μ·μ μ ν보λ κΈ°μ λ‘, μ»΄ν¨ν° λΉμ κ³Ό μ΄λ―Έμ§ μμ± κΈ°μ μ΄ κ²°ν©λ λΆμΌμ λλ€.
- In-the-wild: μ€νμ€μ΄λ ν΅μ λ νκ²½μ΄ μλ, μ€μ μΌμμν μμμ 촬μλ μ‘°λͺ , κ°λ, λ°°κ²½μ΄ λ€μν 볡μ‘ν μ΄λ―Έμ§ νκ²½μ μλ―Έν©λλ€.
- Diffusion Model (λν¨μ λͺ¨λΈ): μ μ§μ μΌλ‘ λ Έμ΄μ¦λ₯Ό μ κ±°νμ¬ μνλ μ΄λ―Έμ§λ₯Ό μμ±νλ μ΅μ μ μμ±ν AI λͺ¨λΈλ‘, κ³ νμ§ μ΄λ―Έμ§ μμ±μ μ£Όλ‘ μ¬μ©λ©λλ€.
- Pose Estimation (μμΈ μΆμ ): μ΄λ―Έμ§λ λΉλμ€μμ μ¬λμ κ΄μ μμΉμ μ 체 μμ§μμ μΆμ νλ κΈ°μ λ‘, κ°μ νΌν μ μ·μ΄ μ΄λμ μ΄λ»κ² μμΉν΄μΌ ν μ§ κ²°μ νλ κΈ°λ°μ΄ λ©λλ€.
- Inference Optimization (μΆλ‘ μ΅μ ν): νμ΅λ λͺ¨λΈμ΄ μ€μ μλΉμ€ νκ²½μμ λΉ λ₯΄κ² μλ΅ν μ μλλ‘ λͺ¨λΈμ ν¬κΈ°λ₯Ό μ€μ΄κ±°λ μ°μ° κ³Όμ μ κ°μννλ κΈ°μ μ λλ€.
- Latency (μ§μ° μκ°): μ¬μ©μκ° μμ²μ λ³΄λΈ μμ λΆν° κ²°κ³Όκ° λμ¬ λκΉμ§ 걸리λ μκ°μΌλ‘, μ¬μ©μ κ²½νμ κ²°μ νλ ν΅μ¬ μ§νμ λλ€.
π μ΄λ² μ£Ό κ΄λ ¨ Deep Dive
| μμ | λ Όλ¬Έ | Deep Dive |
|---|---|---|
| π₯ | Tstars-Tryon 1.0: Robust and Realisβ¦ | π νμ¬ λ¬Έμ |
| π₯ | LLaDA2.0-Uni: Unifying Multimodal Uβ¦ | DD-073 |
| π₯ | AgentSPEX: An Agent SPecification aβ¦ | DD-074 |
| 4. | Extending One-Step Image Generation⦠| DD-075 |
| 5. | OneVL: One-Step Latent Reasoning an⦠| DD-076 |
π μμ±μΌ: 2026-04-26 | π€ GLM-4.7 Deep Dive