β π μ΄λ² μ£Ό Weekly Digestλ‘ λμκ°κΈ°
DD-049 SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models
arXiv: 2603.16859 Upvotes: 239 | Comments: 2 μμ: μ΄λ² μ£Ό Top 4
SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models
1. μ μ΄ λ Όλ¬Έμ΄ μ€μνκ°?
κΈ°μ‘΄μ μ΄λ λͺ¨λ¬ λν μΈμ΄ λͺ¨λΈ(OLM) νκ°λ μ£Όλ‘ μ μ μΈ μ΄λ―Έμ§λ ν μ€νΈμ λν μ λ΅λ₯ (Accuracy)μλ§ μ§μ€λμ΄ μμ΄, μ€μ λν μν©μμ νμν βμ¬νμ μνΈμμ© λ₯λ ₯βμ μΈ‘μ νλ λ°μλ μΉλͺ μ μΈ νκ³κ° μμμ΅λλ€. μ΄ λ Όλ¬Έμ λ¨μν μ§λ¬Έμ μ¬λ°λ₯΄κ² λλ΅νλ κ²μ λμ΄, λκ° λ§νλμ§, μΈμ λΌμ΄λ€μ§, μ΄λ»κ² μμ°μ€λ½κ² λ°μν μ§λ₯Ό νκ°νλ βSocialOmniβλΌλ λ²€μΉλ§ν¬λ₯Ό μ μνμ¬ AIμ λν λ₯λ ₯μ μΈκ° μμ€μ μ¬νμ μ§λ₯μΌλ‘ νμ₯νμ΅λλ€. μ΄λ AI λΉμλ μ±λ΄μ΄ κΈ°κ³μ μΈ λ΅λ³ κΈ°κ³κ° μλ, μ§μ μΌλ‘ λνμ λ§₯λ½μ μ½κ³ 곡κ°νλ ννΈλλ‘ μ§ννλ λ° νμμ μΈ κΈ°μ€μ λ§λ ¨νλ€λ μ μμ λ§€μ° μ€μν©λλ€.
2. ν΅μ¬ μμ΄λμ΄ μ½κ² μ΄ν΄νκΈ°
μΌμμν λΉμ : βμ§λ£¨ν νμβμ βμ μ리βμ μ°¨μ΄
κΈ°μ‘΄μ AI νκ°λ λ§μΉ βμ§λ£¨ν νμβμμ μ¬νμκ° βμ΄ λ³΄κ³ μμ μμ½μ 무μμ λκΉ?βλΌκ³ λ¬ΌμΌλ©΄ βμ΄λ μ΅λλ€βλΌκ³ λ± λ¨μ΄μ§κ² λλ΅νλ λ₯λ ₯λ§ ν μ€νΈνλ κ²κ³Ό κ°μ΅λλ€. νμ§λ§ μ€μ λνλ βμ μ리βμ κ°μ΅λλ€. λκ΅°κ° λ§μ λλ 거리며 μ¬μ΄νλ©΄ λ§μ 빨리 λλ΄μΌ νκ³ , μΉκ΅¬κ° μ¬ν μ΄μΌκΈ°λ₯Ό ν λλ μ μ ν νμ΄λ°μ βμ§μ§?β νλ©° 곡κ°ν΄μΌ ν©λλ€. SocialOmniλ AIμκ² μ΄ βμ μ리 κ°κ°βμ μΌλ§λ κ°μ·λμ§ ν μ€νΈνλ μνμ λλ€.
λ¨κ³λ³ λμ μ리: λκ°, μΈμ , μ΄λ»κ²
μ΄ λ²€μΉλ§ν¬λ AIμ μ¬νμ μνΈμμ© λ₯λ ₯μ μΈ κ°μ§ ν΅μ¬ μ°¨μμΌλ‘ λλμ΄ μΈ‘μ ν©λλ€.
- λκ° λ§νλκ° (Who): νλ©΄μ 보μ΄λ μ¬λκ³Ό λ€λ¦¬λ λͺ©μλ¦¬κ° μΌμΉνλμ§ μλ³ν©λλ€. μλ₯Ό λ€μ΄, βμ¬μκ° μκ³ μλλ° λ¨μ λͺ©μλ¦¬κ° λ€λ¦¬λ©΄ λΉμ μμ μΈ μν©βμμ AIκ° μΈμ§νλμ§ λ΄ λλ€.
- μΈμ λΌμ΄λ€ κ²μΈκ° (When): λνμ νλ¦μ λ³΄κ³ λ΄κ° λ§μ κ±ΈκΈ°μ κ°μ₯ μ’μ νμ΄λ°( Interruption Timing)μ μ‘λ λ₯λ ₯μ λλ€. μλλ°©μ΄ λ§μ λλ§Ίλ μ§νλ₯Ό 보μ΄λ μκ°μ ν¬μ°©νλμ§ ν μ€νΈν©λλ€.
- μ΄λ»κ² λ§ν κ²μΈκ° (How): κ·Έ νμ΄λ°μ λ± λ§λ μμ°μ€λ¬μ΄ νν(Backchannel)μ μμ±ν©λλ€. λ¨μν βλ€βκ° μλλΌ, μν©μ λ°λΌ βμ λ§μ?β, βκ·Έλ λ€λμ!β κ°μ λ§₯λ½μ λ§λ λ°μμ λ§λ€μ΄λ΄λμ§ νκ°ν©λλ€.
ν΅μ¬ μκ³ λ¦¬μ¦: λ©ν°λͺ¨λ¬ λΆμΌμΉ μλ리μ€
μ΄ μ°κ΅¬λ λ¨μν μ μμ μΈ λ°μ΄ν°λ₯Ό 보μ¬μ£Όλ κ²μ λμ΄, μ²κ°κ³Ό μκ° μ λ³΄κ° μΆ©λνλ μν©(Audio-Visual Inconsistency)μ κ³ μνμ΅λλ€. μλ₯Ό λ€μ΄, μμμλ Aκ° μλλ° Bμ λͺ©μλ¦¬κ° λ€λ¦¬κ±°λ, μ λͺ¨μκ³Ό μλ¦¬κ° μ λ§λ μν©μ μΌλΆλ¬ μ£Όμ΄, AIκ° μ΄ νΌλμ μΌλ§λ μ 견λλμ§(Robustness) ν μ€νΈν¨μΌλ‘μ¨ λͺ¨λΈμ μ§μ§ μ΄ν΄λ ₯μ κ²μ¦ν©λλ€.
3. μ€ν κ²°κ³Ό λΆμ
λ²€μΉλ§ν¬ ꡬμ±
μ°κ΅¬μ§μ μ΄ 2,000κ°μ μΈμ§(Perception) μνκ³Ό 209κ°μ μ격ν μκ°μ , λ§₯λ½μ μ μ½μ‘°κ±΄μ΄ ν¬ν¨λ μνΈμμ© μμ±(Interaction Generation) μΈμ€ν΄μ€λ‘ ꡬμ±λ κ³ νμ§μ λ°μ΄ν°μ μ ꡬμΆνμ΅λλ€. μ΄λ κΈ°μ‘΄ λ²€μΉλ§ν¬λ€μ΄ κ°κ³Όνλ βμκ°μ μ κ΅ν¨(Temporal Granularity)βμ νλ μ(Frame) μμ€μΌλ‘ νκ°ν μ μκ² ν©λλ€.
λͺ¨λΈ μ±λ₯ νκ° (12κ° μ£Όμ OLM λμ)
νμ¬ μ΅κ³ μμ€μ 12κ° μ΄λ λͺ¨λ¬ λͺ¨λΈλ€μ λ²€μΉλ§νΉν κ²°κ³Ό, λͺ¨λ λͺ¨λΈμ΄ μ¬νμ μνΈμμ© λ₯λ ₯μμ νμ ν λκ΄μ κ²ͺλ κ²μΌλ‘ λνλ¬μ΅λλ€. ν 1(Benchmark Positioning)μμ λ³Ό μ μλ―, κΈ°μ‘΄ λ²€μΉλ§ν¬(OmniBench, WorldSense λ±)λ βλκ°(Who)β, βμΈμ (When)β, βμ΄λ»κ²(How)βμ λν νκ°κ° λλΆλΆ λλ½(β)λκ±°λ λΆλΆμ (~)μ΄μμ΅λλ€. λ°λ©΄ SocialOmniλ μ΄ μΈ κ°μ§ ν΅μ¬ μμλ₯Ό λͺ¨λ λͺ μμ μΌλ‘(β) νκ°νλλ‘ μ€κ³λμμ΅λλ€.
μ£Όλͺ©ν λ§ν μ±κ³Ό
νΉν βInterruption Timing Control(λΌμ΄λ€κΈ° νμ΄λ° μ μ΄)βμ βNatural Interruption Generation(μμ°μ€λ¬μ΄ λ°μ μμ±)βμμ λͺ¨λΈλ€μ μ±λ₯ μ νκ° λλλ¬μ‘μ΅λλ€. μ΄λ AIκ° μ μ μΈ μ 보λ₯Ό μ΄ν΄νλ κ²κ³Ό λ¬λ¦¬, μ€μκ°μΌλ‘ λ³νλ λνμ 리λ¬μ νλ κ²μ μ¬μ ν λ―Έν΄κ²° κ³Όμ μμ μμ¬ν©λλ€. λν, μ€λμ€μ λΉμ£ΌμΌ μ λ³΄κ° μΆ©λνλ λΆμΌμΉ μλ리μ€μμ λͺ¨λΈλ€μ΄ μΌλ§λ μ½κ² νΌλμ λΉ μ§λμ§λ₯Ό μ λμ μΌλ‘ 보μ¬μ£Όμ΄, ν₯ν κ²¬κ³ ν(Robust) λͺ¨λΈ κ°λ°μ μ€μν μ§νκ° λμμ΅λλ€.
4. νκ³μ κ³Ό ν₯ν μ°κ΅¬ λ°©ν₯
μ μκ° μΈκΈν νκ³
νμ¬μ λ°μ΄ν°μ μ 209κ°μ μνΈμμ© μΈμ€ν΄μ€λ‘ ꡬμ±λμ΄ μμ΄, λ§€μ° μ격ν νμ§ κ΄λ¦¬λ₯Ό κ±°μ³€μ§λ§ μ€μ μΈκ³μ λ€μν λν μ€νμΌμ μλ²½ν 컀λ²νκΈ°μλ μμ μΈ λ©΄μμ μμ§ μ νμ μΌ μ μμ΅λλ€. λν, νκ°κ° μ£Όλ‘ μ μ΄λ νκ²½μμ μ΄λ£¨μ΄μ‘κΈ° λλ¬Έμ, λ Έμ΄μ¦κ° μ¬ν μ€μ νμ₯ νκ²½μμμ μ±λ₯μ λ€λ₯Ό μ μμ΅λλ€.
κ°μ κ°λ₯μ±
ν₯ν μ°κ΅¬μμλ λ λ€μν λ¬Ένμ λ°°κ²½μ΄λ κ°μ μνκ° ν¬ν¨λ λν λ°μ΄ν°λ‘ λ²€μΉλ§ν¬λ₯Ό νμ₯ν νμκ° μμ΅λλ€. λν, λ¨μν ν μ€νΈλ μ€λμ€λ₯Ό μμ±νλ κ²μ λμ΄, AIμ λμ(Gesture)μ΄λ νμ (Facial Expression)κΉμ§ ν¬ν¨ν μμ ν λ©ν°λͺ¨λ¬ μνΈμμ©μΌλ‘ νκ° κΈ°μ€μ νμ₯νλ κ²μ΄ μμ°μ€λ¬μ΄ λ€μ λ¨κ³κ° λ κ²μ λλ€.
5. μ€λ¬΄ μ μ© κ°λ₯μ±
μ΄λμ λ°λ‘ μ μ© κ°λ₯?
μ΄ μ°κ΅¬λ μ€μκ° νμ νμ λΉμ, AI κ΅μ‘ νν°, κ·Έλ¦¬κ³ λ©νλ²μ€ κ°μ μΈκ°(Avatar) κ°λ°μ μ¦μ μ μ©λ μ μμ΅λλ€. μλ₯Ό λ€μ΄, zoomμ΄λ κ΅¬κΈ λ―ΈνΈ κ°μ νμ νμ νλ«νΌμ AI μ½νμΌλΏμ μ¬μ©μμ λ§μ λμ§ μκ³ μ μ ν νμ΄λ°μ νμλ‘μ μ 리νκ±°λ μ견μ μ μν΄μΌ μ¬μ©μ κ²½ν(UX)μ΄ νκΈ°μ μΌλ‘ κ°μ λ κ²μ λλ€.
νμν 리μμ€
μ΄ λ²€μΉλ§ν¬λ₯Ό νμ©νκ±°λ μ΄λ₯Ό ν΅κ³Όνλ λͺ¨λΈμ κ°λ°νλ €λ©΄ κ³ μ¬μμ GPU(A100 μ΄μ) ν΄λ¬μ€ν°κ° νμνλ©°, μ€λμ€μ λΉλμ€λ₯Ό λμμ μ²λ¦¬ν μ μλ λ©ν°λͺ¨λ¬ μΈνλΌκ° κ°μΆ°μ Έ μμ΄μΌ ν©λλ€. λν, μΈκ°κ³Ό μ μ¬ν νλ¨μ λ΄λ¦¬κΈ° μν λκ·λͺ¨μ λν λ°μ΄ν°μ μ΄λ₯Ό μ λ°νκ² λΌλ²¨λ§νλ μΈλ ₯μ΄ νμμ μ λλ€.
6. μ΄ λ Όλ¬Έμ μ΄ν΄νκΈ° μν μ¬μ μ§μ
- μ΄λ λͺ¨λ¬ λν μΈμ΄ λͺ¨λΈ (OLM, Omni-modal Large Language Model): ν μ€νΈλΏλ§ μλλΌ μ€λμ€, λΉλμ€, μ΄λ―Έμ§ λ± μΈκ°μ λͺ¨λ κ°κ° λͺ¨λ¬μ ν΅ν©νμ¬ μ΄ν΄νκ³ μμ±νλ AI λͺ¨λΈμ λλ€.
- μ€νΌμ»€ λ€μ΄μ΄λ¦¬μ μ΄μ (Speaker Diarization): μ¬λ¬ μ¬λμ΄ λμμ λννλ μ€λμ€μμ βλκ°, μΈμ , λ§νλμ§βλ₯Ό μλ³νμ¬ νμλ₯Ό ꡬλΆνλ κΈ°μ μ λλ€.
- λ°±μ±λλ§ (Backchanneling): λνλ₯Ό μ£Όλνλ νμκ° μλ λ£λ μ¬λμ΄ μλλ°©μ λ§μ λ£κ³ μλ€λ μ νΈλ‘ 보λ΄λ βμβ, βκ·Έλ κ΅°β, βμ§μ§?β κ°μ μ§§μ λ°μμ λ§ν©λλ€.
- λ©ν°λͺ¨λ¬ λΆμΌμΉ (Multimodal Inconsistency): μκ° μ 보μ μ²κ° μ λ³΄κ° μλ‘ λͺ¨μλλ μν©(μ: κ° μ§λ μλ¦¬κ° λλλ° κ³ μμ΄κ° 보μ)μ μλ―Ένλ©°, λͺ¨λΈμ κ²¬κ³ μ±μ ν μ€νΈνλ λ° μ¬μ©λ©λλ€.
- λ²€μΉλ§ν¬ (Benchmark): AI λͺ¨λΈλ€μ μ±λ₯μ 곡μ νκ² λΉκ΅νκΈ° μν΄ μ ν΄μ§ νμ€ νκ° μΈνΈ λ° μ μ°¨μ λλ€.
- μΈν°λ½μ νμ΄λ° (Interruption Timing): λν μ€ μλλ°©μ λ§μ μμ°μ€λ½κ² λΌμ΄λ€κ±°λζ₯θΏ νμ λ₯Ό λ겨λ°λ μ κ΅ν μκ°μ κ°κ²© μ‘°μ λ₯λ ₯μ λλ€.
- νλ μ λ 벨 λΆμ (Frame-level Analysis): λΉλμ€λ₯Ό ꡬμ±νλ μ΄ λ¨μμ μ΄λ―Έμ§(νλ μ) νλνλλ₯Ό λΆμνμ¬ λ§€μ° μ λ°ν μκ°μ ν΄μλλ‘ νκ°νλ λ°©μμ λλ€.
π μ΄λ² μ£Ό κ΄λ ¨ Deep Dive
| μμ | λ Όλ¬Έ | Deep Dive |
|---|---|---|
| π₯ | Demystifing Video Reasoning | DD-046 |
| π₯ | InCoder-32B: Code Foundation Model β¦ | DD-047 |
| π₯ | AI Can Learn Scientific Taste | DD-048 |
| 4. | SocialOmni: Benchmarking Audio-Visuβ¦ | π νμ¬ λ¬Έμ |
| 5. | MiroThinker-1.7 & H1: Towards Heavy⦠| DD-050 |
π μμ±μΌ: 2026-03-22 | π€ GLM-4.7 Deep Dive