← πŸ“š 이번 μ£Ό Weekly Digest둜 λŒμ•„κ°€κΈ°

DD-049 SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

arXiv: 2603.16859 Upvotes: 239 | Comments: 2 μˆœμœ„: 이번 μ£Ό Top 4


SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models


1. μ™œ 이 논문이 μ€‘μš”ν•œκ°€?

기쑴의 μ˜΄λ‹ˆ λͺ¨λ‹¬ λŒ€ν˜• μ–Έμ–΄ λͺ¨λΈ(OLM) ν‰κ°€λŠ” 주둜 정적인 μ΄λ―Έμ§€λ‚˜ ν…μŠ€νŠΈμ— λŒ€ν•œ μ •λ‹΅λ₯ (Accuracy)μ—λ§Œ μ§‘μ€‘λ˜μ–΄ μžˆμ–΄, μ‹€μ œ λŒ€ν™” μƒν™©μ—μ„œ ν•„μš”ν•œ β€˜μ‚¬νšŒμ  μƒν˜Έμž‘μš© λŠ₯λ ₯’을 μΈ‘μ •ν•˜λŠ” λ°μ—λŠ” 치λͺ…적인 ν•œκ³„κ°€ μžˆμ—ˆμŠ΅λ‹ˆλ‹€. 이 논문은 λ‹¨μˆœνžˆ μ§ˆλ¬Έμ— μ˜¬λ°”λ₯΄κ²Œ λŒ€λ‹΅ν•˜λŠ” 것을 λ„˜μ–΄, λˆ„κ°€ λ§ν•˜λŠ”μ§€, μ–Έμ œ 끼어듀지, μ–΄λ–»κ²Œ μžμ—°μŠ€λŸ½κ²Œ λ°˜μ‘ν• μ§€λ₯Ό ν‰κ°€ν•˜λŠ” β€˜SocialOmniβ€™λΌλŠ” 벀치마크λ₯Ό μ œμ•ˆν•˜μ—¬ AI의 λŒ€ν™” λŠ₯λ ₯을 인간 μˆ˜μ€€μ˜ μ‚¬νšŒμ  μ§€λŠ₯으둜 ν™•μž₯ν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” AI λΉ„μ„œλ‚˜ 챗봇이 기계적인 λ‹΅λ³€ 기계가 μ•„λ‹Œ, μ§„μ •μœΌλ‘œ λŒ€ν™”μ˜ λ§₯락을 읽고 κ³΅κ°ν•˜λŠ” νŒŒνŠΈλ„ˆλ‘œ μ§„ν™”ν•˜λŠ” 데 ν•„μˆ˜μ μΈ 기쀀을 λ§ˆλ ¨ν–ˆλ‹€λŠ” μ μ—μ„œ 맀우 μ€‘μš”ν•©λ‹ˆλ‹€.


2. 핡심 아이디어 μ‰½κ²Œ μ΄ν•΄ν•˜κΈ°

μΌμƒμƒν™œ λΉ„μœ : β€˜μ§€λ£¨ν•œ νšŒμ˜β€™μ™€ β€˜μˆ μžλ¦¬β€™μ˜ 차이

기쑴의 AI ν‰κ°€λŠ” 마치 β€˜μ§€λ£¨ν•œ νšŒμ˜β€™μ—μ„œ μ‚¬νšŒμžκ°€ β€œμ΄ λ³΄κ³ μ„œμ˜ μš”μ•½μ€ λ¬΄μ—‡μž…λ‹ˆκΉŒ?”라고 물으면 β€œμ΄λ ‡μŠ΅λ‹ˆλ‹€β€λΌκ³  λ”± λ–¨μ–΄μ§€κ²Œ λŒ€λ‹΅ν•˜λŠ” λŠ₯λ ₯만 ν…ŒμŠ€νŠΈν•˜λŠ” 것과 κ°™μŠ΅λ‹ˆλ‹€. ν•˜μ§€λ§Œ μ‹€μ œ λŒ€ν™”λŠ” β€˜μˆ μžλ¦¬β€™μ™€ κ°™μŠ΅λ‹ˆλ‹€. λˆ„κ΅°κ°€ 말을 동동 거리며 μž¬μ΄‰ν•˜λ©΄ 말을 빨리 끝내야 ν•˜κ³ , μΉœκ΅¬κ°€ μŠ¬ν”ˆ 이야기λ₯Ό ν•  λ•ŒλŠ” μ μ ˆν•œ 타이밍에 β€œμ§„μ§œ?” ν•˜λ©° 곡감해야 ν•©λ‹ˆλ‹€. SocialOmniλŠ” AIμ—κ²Œ 이 β€˜μˆ μžλ¦¬ 감각’을 μ–Όλ§ˆλ‚˜ κ°–μ·„λŠ”μ§€ ν…ŒμŠ€νŠΈν•˜λŠ” μ‹œν—˜μž…λ‹ˆλ‹€.

단계별 λ™μž‘ 원리: λˆ„κ°€, μ–Έμ œ, μ–΄λ–»κ²Œ

이 λ²€μΉ˜λ§ˆν¬λŠ” AI의 μ‚¬νšŒμ  μƒν˜Έμž‘μš© λŠ₯λ ₯을 μ„Έ κ°€μ§€ 핡심 μ°¨μ›μœΌλ‘œ λ‚˜λˆ„μ–΄ μΈ‘μ •ν•©λ‹ˆλ‹€.

  1. λˆ„κ°€ λ§ν•˜λŠ”κ°€ (Who): 화면에 λ³΄μ΄λŠ” μ‚¬λžŒκ³Ό λ“€λ¦¬λŠ” λͺ©μ†Œλ¦¬κ°€ μΌμΉ˜ν•˜λŠ”μ§€ μ‹λ³„ν•©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, β€œμ—¬μžκ°€ 웃고 μžˆλŠ”λ° λ‚¨μž λͺ©μ†Œλ¦¬κ°€ 듀리면 비정상적인 μƒν™©β€μž„μ„ AIκ°€ μΈμ§€ν•˜λŠ”μ§€ λ΄…λ‹ˆλ‹€.
  2. μ–Έμ œ 끼어듀 것인가 (When): λŒ€ν™”μ˜ 흐름을 보고 λ‚΄κ°€ 말을 걸기에 κ°€μž₯ 쒋은 타이밍( Interruption Timing)을 μž‘λŠ” λŠ₯λ ₯μž…λ‹ˆλ‹€. μƒλŒ€λ°©μ΄ 말을 λλ§ΊλŠ” μ§•ν›„λ₯Ό λ³΄μ΄λŠ” μˆœκ°„μ„ ν¬μ°©ν•˜λŠ”μ§€ ν…ŒμŠ€νŠΈν•©λ‹ˆλ‹€.
  3. μ–΄λ–»κ²Œ 말할 것인가 (How): κ·Έ 타이밍에 λ”± λ§žλŠ” μžμ—°μŠ€λŸ¬μš΄ ν‘œν˜„(Backchannel)을 μƒμ„±ν•©λ‹ˆλ‹€. λ‹¨μˆœνžˆ β€œλ„€β€κ°€ μ•„λ‹ˆλΌ, 상황에 따라 β€œμ •λ§μš”?”, β€œκ·Έλ ‡λ‹€λ‹ˆμš”!” 같은 λ§₯락에 λ§žλŠ” λ°˜μ‘μ„ λ§Œλ“€μ–΄λ‚΄λŠ”μ§€ ν‰κ°€ν•©λ‹ˆλ‹€.

핡심 μ•Œκ³ λ¦¬μ¦˜: λ©€ν‹°λͺ¨λ‹¬ 뢈일치 μ‹œλ‚˜λ¦¬μ˜€

이 μ—°κ΅¬λŠ” λ‹¨μˆœνžˆ 정상적인 데이터λ₯Ό λ³΄μ—¬μ£ΌλŠ” 것을 λ„˜μ–΄, 청각과 μ‹œκ° 정보가 μΆ©λŒν•˜λŠ” 상황(Audio-Visual Inconsistency)을 κ³ μ•ˆν–ˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, μ˜μƒμ—λŠ” Aκ°€ μžˆλŠ”λ° B의 λͺ©μ†Œλ¦¬κ°€ λ“€λ¦¬κ±°λ‚˜, μž… λͺ¨μ–‘κ³Ό μ†Œλ¦¬κ°€ μ•ˆ λ§žλŠ” 상황을 μΌλΆ€λŸ¬ μ£Όμ–΄, AIκ°€ 이 ν˜Όλž€μ„ μ–Όλ§ˆλ‚˜ 잘 κ²¬λ””λŠ”μ§€(Robustness) ν…ŒμŠ€νŠΈν•¨μœΌλ‘œμ¨ λͺ¨λΈμ˜ μ§„μ§œ 이해λ ₯을 κ²€μ¦ν•©λ‹ˆλ‹€.


3. μ‹€ν—˜ κ²°κ³Ό 뢄석

벀치마크 ꡬ성

연ꡬ진은 총 2,000개의 인지(Perception) μƒ˜ν”Œκ³Ό 209개의 μ—„κ²©ν•œ μ‹œκ°„μ , λ§₯락적 μ œμ•½μ‘°κ±΄μ΄ ν¬ν•¨λœ μƒν˜Έμž‘μš© 생성(Interaction Generation) μΈμŠ€ν„΄μŠ€λ‘œ κ΅¬μ„±λœ κ³ ν’ˆμ§ˆμ˜ 데이터셋을 κ΅¬μΆ•ν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” κΈ°μ‘΄ λ²€μΉ˜λ§ˆν¬λ“€μ΄ κ°„κ³Όν–ˆλ˜ β€˜μ‹œκ°„μ  정ꡐ함(Temporal Granularity)β€˜μ„ ν”„λ ˆμž„(Frame) μˆ˜μ€€μœΌλ‘œ 평가할 수 있게 ν•©λ‹ˆλ‹€.

λͺ¨λΈ μ„±λŠ₯ 평가 (12개 μ£Όμš” OLM λŒ€μƒ)

ν˜„μž¬ 졜고 μˆ˜μ€€μ˜ 12개 μ˜΄λ‹ˆ λͺ¨λ‹¬ λͺ¨λΈλ“€μ„ λ²€μΉ˜λ§ˆν‚Ήν•œ κ²°κ³Ό, λͺ¨λ“  λͺ¨λΈμ΄ μ‚¬νšŒμ  μƒν˜Έμž‘μš© λŠ₯λ ₯μ—μ„œ ν˜„μ €ν•œ λ‚œκ΄€μ„ κ²ͺλŠ” κ²ƒμœΌλ‘œ λ‚˜νƒ€λ‚¬μŠ΅λ‹ˆλ‹€. ν‘œ 1(Benchmark Positioning)μ—μ„œ λ³Ό 수 μžˆλ“―, κΈ°μ‘΄ 벀치마크(OmniBench, WorldSense λ“±)λŠ” β€˜λˆ„κ°€(Who)’, β€˜μ–Έμ œ(When)’, β€˜μ–΄λ–»κ²Œ(How)β€˜μ— λŒ€ν•œ 평가가 λŒ€λΆ€λΆ„ λˆ„λ½(βœ—)λ˜κ±°λ‚˜ 뢀뢄적(~)μ΄μ—ˆμŠ΅λ‹ˆλ‹€. 반면 SocialOmniλŠ” 이 μ„Έ κ°€μ§€ 핡심 μš”μ†Œλ₯Ό λͺ¨λ‘ λͺ…μ‹œμ μœΌλ‘œ(βœ“) ν‰κ°€ν•˜λ„λ‘ μ„€κ³„λ˜μ—ˆμŠ΅λ‹ˆλ‹€.

μ£Όλͺ©ν•  λ§Œν•œ μ„±κ³Ό

특히 β€˜Interruption Timing Control(끼어듀기 타이밍 μ œμ–΄)β€˜μ™€ β€˜Natural Interruption Generation(μžμ—°μŠ€λŸ¬μš΄ λ°˜μ‘ 생성)β€˜μ—μ„œ λͺ¨λΈλ“€μ˜ μ„±λŠ₯ μ €ν•˜κ°€ λ‘λ“œλŸ¬μ‘ŒμŠ΅λ‹ˆλ‹€. μ΄λŠ” AIκ°€ 정적인 정보λ₯Ό μ΄ν•΄ν•˜λŠ” 것과 달리, μ‹€μ‹œκ°„μœΌλ‘œ λ³€ν•˜λŠ” λŒ€ν™”μ˜ 리듬을 νƒ€λŠ” 것은 μ—¬μ „νžˆ λ―Έν•΄κ²° κ³Όμ œμž„μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€. λ˜ν•œ, μ˜€λ””μ˜€μ™€ λΉ„μ£Όμ–Ό 정보가 μΆ©λŒν•˜λŠ” 뢈일치 μ‹œλ‚˜λ¦¬μ˜€μ—μ„œ λͺ¨λΈλ“€μ΄ μ–Όλ§ˆλ‚˜ μ‰½κ²Œ ν˜Όλž€μ— λΉ μ§€λŠ”μ§€λ₯Ό μ •λŸ‰μ μœΌλ‘œ 보여주어, ν–₯ν›„ κ²¬κ³ ν•œ(Robust) λͺ¨λΈ 개발의 μ€‘μš”ν•œ μ§€ν‘œκ°€ λ˜μ—ˆμŠ΅λ‹ˆλ‹€.


4. ν•œκ³„μ κ³Ό ν–₯ν›„ 연ꡬ λ°©ν–₯

μ €μžκ°€ μ–ΈκΈ‰ν•œ ν•œκ³„

ν˜„μž¬μ˜ 데이터셋은 209개의 μƒν˜Έμž‘μš© μΈμŠ€ν„΄μŠ€λ‘œ κ΅¬μ„±λ˜μ–΄ μžˆμ–΄, 맀우 μ—„κ²©ν•œ ν’ˆμ§ˆ 관리λ₯Ό κ±°μ³€μ§€λ§Œ μ‹€μ œ μ„Έκ³„μ˜ λ‹€μ–‘ν•œ λŒ€ν™” μŠ€νƒ€μΌμ„ μ™„λ²½νžˆ μ»€λ²„ν•˜κΈ°μ—λŠ” 양적인 λ©΄μ—μ„œ 아직 μ œν•œμ μΌ 수 μžˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, 평가가 주둜 μ œμ–΄λœ ν™˜κ²½μ—μ„œ μ΄λ£¨μ–΄μ‘ŒκΈ° λ•Œλ¬Έμ—, λ…Έμ΄μ¦ˆκ°€ μ‹¬ν•œ μ‹€μ œ ν˜„μž₯ ν™˜κ²½μ—μ„œμ˜ μ„±λŠ₯은 λ‹€λ₯Ό 수 μžˆμŠ΅λ‹ˆλ‹€.

κ°œμ„  κ°€λŠ₯μ„±

ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” 더 λ‹€μ–‘ν•œ 문화적 λ°°κ²½μ΄λ‚˜ 감정 μƒνƒœκ°€ ν¬ν•¨λœ λŒ€ν™” λ°μ΄ν„°λ‘œ 벀치마크λ₯Ό ν™•μž₯ν•  ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, λ‹¨μˆœνžˆ ν…μŠ€νŠΈλ‚˜ μ˜€λ””μ˜€λ₯Ό μƒμ„±ν•˜λŠ” 것을 λ„˜μ–΄, AI의 λ™μž‘(Gesture)μ΄λ‚˜ ν‘œμ •(Facial Expression)κΉŒμ§€ ν¬ν•¨ν•œ μ™„μ „ν•œ λ©€ν‹°λͺ¨λ‹¬ μƒν˜Έμž‘μš©μœΌλ‘œ 평가 기쀀을 ν™•μž₯ν•˜λŠ” 것이 μžμ—°μŠ€λŸ¬μš΄ λ‹€μŒ 단계가 될 κ²ƒμž…λ‹ˆλ‹€.


5. 싀무 적용 κ°€λŠ₯μ„±

어디에 λ°”λ‘œ 적용 κ°€λŠ₯?

이 μ—°κ΅¬λŠ” μ‹€μ‹œκ°„ 화상 회의 λΉ„μ„œ, AI ꡐ윑 νŠœν„°, 그리고 λ©”νƒ€λ²„μŠ€ 가상 인간(Avatar) κ°œλ°œμ— μ¦‰μ‹œ 적용될 수 μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, zoomμ΄λ‚˜ ꡬ글 미트 같은 화상 회의 ν”Œλž«νΌμ˜ AI μ½”νŒŒμΌλŸΏμ€ μ‚¬μš©μžμ˜ 말을 λŠμ§€ μ•Šκ³  μ μ ˆν•œ 타이밍에 νšŒμ˜λ‘μ„ μ •λ¦¬ν•˜κ±°λ‚˜ μ˜κ²¬μ„ μ œμ‹œν•΄μ•Ό μ‚¬μš©μž κ²½ν—˜(UX)이 획기적으둜 κ°œμ„ λ  κ²ƒμž…λ‹ˆλ‹€.

ν•„μš”ν•œ λ¦¬μ†ŒμŠ€

이 벀치마크λ₯Ό ν™œμš©ν•˜κ±°λ‚˜ 이λ₯Ό ν†΅κ³Όν•˜λŠ” λͺ¨λΈμ„ κ°œλ°œν•˜λ €λ©΄ κ³ μ‚¬μ–‘μ˜ GPU(A100 이상) ν΄λŸ¬μŠ€ν„°κ°€ ν•„μš”ν•˜λ©°, μ˜€λ””μ˜€μ™€ λΉ„λ””μ˜€λ₯Ό λ™μ‹œμ— μ²˜λ¦¬ν•  수 μžˆλŠ” λ©€ν‹°λͺ¨λ‹¬ 인프라가 κ°–μΆ°μ Έ μžˆμ–΄μ•Ό ν•©λ‹ˆλ‹€. λ˜ν•œ, 인간과 μœ μ‚¬ν•œ νŒλ‹¨μ„ 내리기 μœ„ν•œ λŒ€κ·œλͺ¨μ˜ λŒ€ν™” 데이터와 이λ₯Ό μ •λ°€ν•˜κ²Œ λΌλ²¨λ§ν•˜λŠ” 인λ ₯이 ν•„μˆ˜μ μž…λ‹ˆλ‹€.


6. 이 논문을 μ΄ν•΄ν•˜κΈ° μœ„ν•œ 사전 지식

  1. μ˜΄λ‹ˆ λͺ¨λ‹¬ λŒ€ν˜• μ–Έμ–΄ λͺ¨λΈ (OLM, Omni-modal Large Language Model): ν…μŠ€νŠΈλΏλ§Œ μ•„λ‹ˆλΌ μ˜€λ””μ˜€, λΉ„λ””μ˜€, 이미지 λ“± μΈκ°„μ˜ λͺ¨λ“  감각 λͺ¨λ‹¬μ„ ν†΅ν•©ν•˜μ—¬ μ΄ν•΄ν•˜κ³  μƒμ„±ν•˜λŠ” AI λͺ¨λΈμž…λ‹ˆλ‹€.
  2. μŠ€ν”Όμ»€ λ‹€μ΄μ–΄λ¦¬μ œμ΄μ…˜ (Speaker Diarization): μ—¬λŸ¬ μ‚¬λžŒμ΄ λ™μ‹œμ— λŒ€ν™”ν•˜λŠ” μ˜€λ””μ˜€μ—μ„œ β€œλˆ„κ°€, μ–Έμ œ, λ§ν–ˆλŠ”μ§€β€λ₯Ό μ‹λ³„ν•˜μ—¬ ν™”μžλ₯Ό κ΅¬λΆ„ν•˜λŠ” κΈ°μˆ μž…λ‹ˆλ‹€.
  3. 백채널링 (Backchanneling): λŒ€ν™”λ₯Ό μ£Όλ„ν•˜λŠ” ν™”μžκ°€ μ•„λ‹Œ λ“£λŠ” μ‚¬λžŒμ΄ μƒλŒ€λ°©μ˜ 말을 λ“£κ³  μžˆλ‹€λŠ” μ‹ ν˜Έλ‘œ λ³΄λ‚΄λŠ” β€œμ‘β€, β€œκ·Έλ ‡κ΅°β€, β€œμ§„μ§œ?” 같은 짧은 λ°˜μ‘μ„ λ§ν•©λ‹ˆλ‹€.
  4. λ©€ν‹°λͺ¨λ‹¬ 뢈일치 (Multimodal Inconsistency): μ‹œκ° 정보와 청각 정보가 μ„œλ‘œ λͺ¨μˆœλ˜λŠ” 상황(예: 개 μ§–λŠ” μ†Œλ¦¬κ°€ λ‚˜λŠ”λ° 고양이가 λ³΄μž„)을 μ˜λ―Έν•˜λ©°, λͺ¨λΈμ˜ 견고성을 ν…ŒμŠ€νŠΈν•˜λŠ” 데 μ‚¬μš©λ©λ‹ˆλ‹€.
  5. 벀치마크 (Benchmark): AI λͺ¨λΈλ“€μ˜ μ„±λŠ₯을 κ³΅μ •ν•˜κ²Œ λΉ„κ΅ν•˜κΈ° μœ„ν•΄ μ •ν•΄μ§„ ν‘œμ€€ 평가 μ„ΈνŠΈ 및 μ ˆμ°¨μž…λ‹ˆλ‹€.
  6. μΈν„°λŸ½μ…˜ 타이밍 (Interruption Timing): λŒ€ν™” 쀑 μƒλŒ€λ°©μ˜ 말을 μžμ—°μŠ€λŸ½κ²Œ λΌμ–΄λ“€κ±°λ‚˜ζŽ₯θΏ‡ ν™”μ œλ₯Ό λ„˜κ²¨λ°›λŠ” μ •κ΅ν•œ μ‹œκ°„μ  간격 쑰절 λŠ₯λ ₯μž…λ‹ˆλ‹€.
  7. ν”„λ ˆμž„ 레벨 뢄석 (Frame-level Analysis): λΉ„λ””μ˜€λ₯Ό κ΅¬μ„±ν•˜λŠ” 초 λ‹¨μœ„μ˜ 이미지(ν”„λ ˆμž„) ν•˜λ‚˜ν•˜λ‚˜λ₯Ό λΆ„μ„ν•˜μ—¬ 맀우 μ •λ°€ν•œ μ‹œκ°„μ  ν•΄μƒλ„λ‘œ ν‰κ°€ν•˜λŠ” λ°©μ‹μž…λ‹ˆλ‹€.

πŸ“š 이번 μ£Ό κ΄€λ ¨ Deep Dive

μˆœμœ„λ…Όλ¬ΈDeep Dive
πŸ₯‡Demystifing Video ReasoningDD-046
πŸ₯ˆInCoder-32B: Code Foundation Model …DD-047
πŸ₯‰AI Can Learn Scientific TasteDD-048
4.SocialOmni: Benchmarking Audio-Visuβ€¦πŸ“ ν˜„μž¬ λ¬Έμ„œ
5.MiroThinker-1.7 & H1: Towards Heavy…DD-050

πŸ“… 생성일: 2026-03-22 | πŸ€– GLM-4.7 Deep Dive