← πŸ“š 이번 μ£Ό Weekly Digest둜 λŒμ•„κ°€κΈ°

DD-092 CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence

arXiv: 2605.12882 κΈ°κ΄€: OpenDataLab Upvotes: 262 | Comments: 3 μˆœμœ„: 이번 μ£Ό Top 1


λ…Όλ¬Έ 리뷰: CiteVQA

1. μ™œ 이 논문이 μ€‘μš”ν•œκ°€?

κΈ°μ‘΄ λ¬Έμ„œ 이해 ν‰κ°€λŠ” λͺ¨λΈμ΄ 내놓은 μ΅œμ’… λ‹΅λ³€μ˜ μ •ν™•λ„λ§Œ μ±„μ ν•˜μ—¬, λͺ¨λΈμ΄ μš°μ—°νžˆ 정닡을 λ§žνžˆκ±°λ‚˜ 잘λͺ»λœ κ·Όκ±°λ₯Ό λ°”νƒ•μœΌλ‘œ 닡을 μƒμ„±ν•˜λŠ” μ‹¬κ°ν•œ 문제λ₯Ό κ°„κ³Όν•΄ μ™”μŠ΅λ‹ˆλ‹€. 이 논문은 λͺ¨λΈμ—κ²Œ λ‹¨μˆœν•œ λ‹΅λ³€λΏλ§Œ μ•„λ‹ˆλΌ κ·Έ λ‹΅λ³€μ˜ κ·Όκ±°κ°€ 된 λ¬Έμ„œ λ‚΄ νŠΉμ • μœ„μΉ˜λ₯Ό μ •ν™•νžˆ 가리킀도둝 μš”κ΅¬ν•¨μœΌλ‘œμ¨, 높은 신뒰도가 ν•„μš”ν•œ 법λ₯ , 금육, 의료 λΆ„μ•Όμ—μ„œμ˜ β€˜ν• λ£¨μ‹œλ„€μ΄μ…˜(Hallucination)’ μœ„ν—˜μ„ 근본적으둜 ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 즉, μ •λ‹΅μ˜ 맞고 틀림을 λ„˜μ–΄ κ·Έ 닡변이 μ§„μ§œλ‘œ 믿을 수 μžˆλŠ” 것인지λ₯Ό κ²€μ¦ν•˜λŠ” μƒˆλ‘œμš΄ 평가 척도λ₯Ό μ œμ‹œν–ˆλ‹€λŠ” μ μ—μ„œ 맀우 μ€‘μš”ν•©λ‹ˆλ‹€.

2. 핡심 아이디어 μ‰½κ²Œ μ΄ν•΄ν•˜κΈ°

μΌμƒμƒν™œ λΉ„μœ : μˆ˜ν•™ μ‹œν—˜μ˜ 풀이 κ³Όμ • 채점

이 λ…Όλ¬Έμ˜ 핡심 μ•„μ΄λ””μ–΄λŠ” β€˜μˆ˜ν•™ μ‹œν—˜μ„ μ±„μ ν•˜λŠ” 방식’과 κ°™μŠ΅λ‹ˆλ‹€. 기쑴의 λ¬Έμ„œ μ§ˆμ˜μ‘λ‹΅ ν‰κ°€λŠ” λ‹΅μ•ˆμ§€μ˜ μ΅œμ’… κ²°κ³Όκ°’λ§Œ 보고 μ±„μ ν•˜λŠ” 것과 κ°™μŠ΅λ‹ˆλ‹€. 학생이 μš°μ—°νžˆ 정닡을 μ μ—ˆλ”λΌλ„, 풀이 과정이 μ—‰λš±ν•˜κ±°λ‚˜ μ•„μ˜ˆ 적지 μ•Šμ•˜λ‹€λ©΄ κ·Έ 학생은 문제λ₯Ό μ œλŒ€λ‘œ μ΄ν•΄ν•œ 것이 μ•„λ‹™λ‹ˆλ‹€. 이 논문은 λͺ¨λΈμ„ 평가할 λ•Œ μ΅œμ’… μ •λ‹΅κ³Ό ν•¨κ»˜ κ·Έ 닡을 μœ μΆ”ν•΄ λ‚Έ β€˜ν’€μ΄ κ³Όμ •(λ¬Έμ„œ λ‚΄ κ·Όκ±°)β€˜μ„ ν•„μˆ˜μ μœΌλ‘œ μ œμΆœν•˜λ„λ‘ ν•©λ‹ˆλ‹€. λ§Œμ•½ 정닡은 λ§žμ·„μ§€λ§Œ κ·Όκ±°κ°€ 된 문단이 ν‹€λ Έλ‹€λ©΄ 감점 처리λ₯Ό ν•˜λŠ” λ°©μ‹μž…λ‹ˆλ‹€.

단계별 λ™μž‘ 방식

이 논문은 λͺ¨λΈμ˜ 귀속성(Attribution)을 ν…ŒμŠ€νŠΈν•˜κΈ° μœ„ν•΄ λ‹€μŒκ³Ό 같은 ν”„λ‘œμ„ΈμŠ€λ‘œ 데이터셋과 평가 방법둠을 κ΅¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

첫째, λŒ€κ·œλͺ¨μ˜ μ‹€μ œ λ¬Έμ„œμ—μ„œ 데이터λ₯Ό μˆ˜μ§‘ν•˜κ³  κ°€κ³΅ν•©λ‹ˆλ‹€. 1μ–΅ 개 μ΄μƒμ˜ PDF λ¬Έμ„œ ν›„λ³΄κ΅°μ—μ„œ 7개 도메인에 걸쳐 711개의 κ³ ν’ˆμ§ˆ λ¬Έμ„œλ₯Ό μ„ μ •ν•©λ‹ˆλ‹€. 이 λ¬Έμ„œλ“€μ€ 평균 40νŽ˜μ΄μ§€κ°€ λ„˜λŠ” κΈ΄ λ¬Έμ„œλ‘œ, μ‹€μ œ 업무 ν™˜κ²½μ˜ λ³΅μž‘μ„±μ„ λ°˜μ˜ν•©λ‹ˆλ‹€.

λ‘˜μ§Έ, μžλ™ν™”λœ 주석 νŒŒμ΄ν”„λΌμΈμ„ 톡해 질문과 μ •λ‹΅, 그리고 핡심 κ·Όκ±°(Evidence)λ₯Ό μƒμ„±ν•©λ‹ˆλ‹€. μ—¬κΈ°μ„œλŠ” β€˜λ§ˆμŠ€ν‚Ή μ†Œκ±°(Masking Ablation)β€˜λΌλŠ” 기법을 μ‚¬μš©ν•˜μ—¬ νŠΉμ • 문단을 가렸을 λ•Œ λͺ¨λΈμ΄ 닡을 λ§žνžˆμ§€ λͺ»ν•œλ‹€λ©΄, κ·Έ 문단이 μ •λ‹΅μ˜ 결정적인 κ·Όκ±°μž„μ„ ν™•μΈν•˜λŠ” 과정을 κ±°μΉ©λ‹ˆλ‹€.

μ…‹μ§Έ, 평가 μ§€ν‘œλ‘œ β€˜μ—„κ²©ν•œ 귀속 정확도(Strictly Attributed Accuracy, SAA)β€˜λ₯Ό λ„μž…ν–ˆμŠ΅λ‹ˆλ‹€. λͺ¨λΈμ΄ 닡변을 생성할 λ•Œ λ¬Έμ„œ λ‚΄ ν•΄λ‹Ή 근거의 μœ„μΉ˜λ₯Ό λ°”μš΄λ”© λ°•μŠ€(Bounding Box) ν˜•νƒœλ‘œ ν•¨κ»˜ 좜λ ₯ν•΄μ•Ό ν•©λ‹ˆλ‹€. SAAλŠ” μ΅œμ’… 닡변이 λ§žμ•„μ•Ό 함은 λ¬Όλ‘ , μ œμ‹œν•œ κ·Όκ±° μ˜μ—­μ΄ μ‹€μ œ μ •λ‹΅μ˜ 근거와 50% 이상 κ²Ήμ³μ•Όλ§Œ μ •λ‹΅μœΌλ‘œ μΈμ •ν•˜λŠ” μ•„μ£Ό κΉκΉν•œ κΈ°μ€€μž…λ‹ˆλ‹€.

핡심 μ•Œκ³ λ¦¬μ¦˜ 및 μ§€ν‘œ

λ…Όλ¬Έμ—μ„œ μ œμ‹œν•˜λŠ” κ°€μž₯ μ€‘μš”ν•œ κ°œλ…μ€ β€˜κ·€μ† ν• λ£¨μ‹œλ„€μ΄μ…˜(Attribution Hallucination)β€˜μ„ μž‘μ•„λ‚΄λŠ” 평가 μ§€ν‘œλ“€μž…λ‹ˆλ‹€. λͺ¨λΈμ˜ 좜λ ₯을 λ‹΅λ³€ μ§‘ν•©κ³Ό κ·Όκ±° λ°•μŠ€ μ§‘ν•©μœΌλ‘œ μ •μ˜ν•˜κ³ , 이λ₯Ό μ •λ‹΅ 데이터와 λΉ„κ΅ν•©λ‹ˆλ‹€.

κ°€μž₯ 핡심인 SAA(Strictly Attributed Accuracy)λŠ” λ‹΅λ³€μ˜ 정확도(Ans.), 근거의 μ—°κ΄€μ„±(Rel.), 그리고 근거의 μž¬ν˜„μœ¨(Rec.) μ„Έ κ°€μ§€κ°€ λͺ¨λ‘ 좩쑱될 λ•Œλ§Œ 1점을 λΆ€μ—¬ν•˜λŠ” 이진 μ§€ν‘œμž…λ‹ˆλ‹€. 특히 μž¬ν˜„μœ¨μ€ λͺ¨λΈμ΄ μ˜ˆμΈ‘ν•œ λ°•μŠ€μ™€ μ‹€μ œ μ •λ‹΅ λ°•μŠ€μ˜ IoU(Intersection over Union)κ°€ 0.5 이상인지λ₯Ό ν™•μΈν•˜μ—¬, λͺ¨λΈμ΄ μ •λ§λ‘œ κ·Έ μœ„μΉ˜λ₯Ό μ •ν™•νžˆ κ°€λ¦¬μΌ°λŠ”μ§€ geometry κ΄€μ μ—μ„œ κ²€μ¦ν•©λ‹ˆλ‹€.

3. μ‹€ν—˜ κ²°κ³Ό 뢄석

연ꡬ진은 CiteVQA 벀치마크λ₯Ό 톡해 μ΅œμ‹  λ©€ν‹°λͺ¨λ‹¬ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(MLLM)λ“€μ˜ μ„±λŠ₯을 ν‰κ°€ν–ˆμŠ΅λ‹ˆλ‹€.

첫째, β€˜κ·€μ† ν• λ£¨μ‹œλ„€μ΄μ…˜β€™ ν˜„μƒμ„ λͺ…ν™•νžˆ ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€. μ΅œμƒμœ„κΆŒ λͺ¨λΈλ“€μ΄ λ‹¨μˆœ 질문 응닡 정확도(Answer Accuracy)μ—μ„œλŠ” 비ꡐ적 높은 점수λ₯Ό κΈ°λ‘ν–ˆμ§€λ§Œ, SAA μ§€ν‘œμ—μ„œλŠ” μ„±λŠ₯이 κΈ‰κ²©νžˆ λ–¨μ–΄μ§€λŠ” ν˜„μƒμ΄ κ΄€μ°°λ˜μ—ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” λͺ¨λΈλ“€μ΄ μ’…μ’… λ¬Έμ„œμ˜ λ‚΄μš©μ„ μ •ν™•νžˆ νŒŒμ•…ν•˜μ§€ λͺ»ν•œ 채 사전 μ§€μ‹μ΄λ‚˜ λ¬Έλ§₯의 λŠλ‚Œλ§ŒμœΌλ‘œ μš°μ—°νžˆ 정닡을 맞히고 μžˆμŒμ„ μ˜λ―Έν•©λ‹ˆλ‹€.

λ‘˜μ§Έ, κΈ΄ λ¬Έμ„œ μ²˜λ¦¬μ—μ„œμ˜ 어렀움을 λ“œλŸ¬λƒˆμŠ΅λ‹ˆλ‹€. 평균 40νŽ˜μ΄μ§€κ°€ λ„˜λŠ” λ¬Έμ„œμ—μ„œ λͺ¨λΈμ΄ μ •λ‹΅μ˜ κ·Όκ±°κ°€ λ˜λŠ” νŠΉμ • νŽ˜μ΄μ§€μ™€ μ˜μ—­μ„ μ°Ύμ•„λ‚΄λŠ” 데 μƒλ‹Ήν•œ 어렀움을 κ²ͺμ—ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” 기쑴의 짧은 λ¬Έμ„œ μœ„μ£Όμ˜ λ²€μΉ˜λ§ˆν¬μ—μ„œλŠ” λ°œκ²¬ν•  수 μ—†μ—ˆλ˜, μ‹€μ œ λ¬Έμ„œ μ§€λŠ₯(Document Intelligence) 적용 μ‹œμ˜ κ±Έλ¦ΌλŒμž…λ‹ˆλ‹€.

μ…‹μ§Έ, μžλ™ν™”λœ νŒŒμ΄ν”„λΌμΈμ˜ νš¨μœ¨μ„±μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€. μ‚¬λžŒμ΄ 직접 λͺ¨λ“  데이터λ₯Ό λΌλ²¨λ§ν•˜λŠ” 것은 λΉ„νš¨μœ¨μ μ΄μ§€λ§Œ, 이 논문이 μ œμ•ˆν•œ μžλ™ν™” νŒŒμ΄ν”„λΌμΈμ„ 톡해 μ „λ¬Έκ°€ μˆ˜μ€€μ˜ μ •κ΅ν•œ 질문과 κ·Όκ±° μŒμ„ λŒ€κ·œλͺ¨λ‘œ 생성할 수 μžˆμŒμ„ λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.

4. ν•œκ³„μ κ³Ό ν–₯ν›„ 연ꡬ λ°©ν–₯

μ €μžλ“€μ€ 높은 ν’ˆμ§ˆμ˜ 데이터λ₯Ό μžλ™μœΌλ‘œ μƒμ„±ν–ˆμŒμ—λ„ λΆˆκ΅¬ν•˜κ³ , λ³΅μž‘ν•œ λ¬Έμ„œ λ ˆμ΄μ•„μ›ƒμ΄λ‚˜ ν‘œ, κ·Έλž˜ν”„κ°€ μ„žμ—¬ μžˆλŠ” μ˜μ—­μ—μ„œμ˜ κ·Όκ±° μΆ”μΆœ 정확도가 μ—¬μ „νžˆ κ°œμ„ μ΄ ν•„μš”ν•˜λ‹€λŠ” 점을 μΈμ •ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, ν˜„μž¬μ˜ ν‰κ°€λŠ” 주둜 ν…μŠ€νŠΈ μœ„μ£Όμ˜ 근거에 μ§‘μ€‘λ˜μ–΄ μžˆμ–΄, μ‹œκ°μ  μš”μ†Œ(λ„ν‘œ, 이미지)κ°€ ν¬ν•¨λœ 볡합적인 κ·Όκ±°λ₯Ό μ–΄λ–»κ²Œ 더 μ •κ΅ν•˜κ²Œ μ •μ˜ν•˜κ³  평가할지가 ν–₯ν›„ κ³Όμ œμž…λ‹ˆλ‹€.

ν–₯ν›„ 연ꡬ λ°©ν–₯μœΌλ‘œλŠ” λͺ¨λΈμ΄ λ‹¨μˆœνžˆ κ·Όκ±°λ₯Ό μ°ΎλŠ” 것을 λ„˜μ–΄, λ¬Έμ„œ μ „μ²΄μ˜ 논리적 흐름을 νŒŒμ•…ν•˜μ—¬ μΆ”λ‘  λŠ₯λ ₯을 κ°•ν™”ν•˜λŠ” λ°©ν–₯으둜 λ‚˜μ•„κ°ˆ κ²ƒμž…λ‹ˆλ‹€. λ˜ν•œ, SAA와 같은 μ—„κ²©ν•œ 귀속 평가가 λͺ¨λΈ ν•™μŠ΅ 과정에 μ§μ ‘μ μœΌλ‘œ ν™œμš©λ  수 μžˆλŠ” κ°•ν™” ν•™μŠ΅(RLHF) 기법 λ“±κ³Όμ˜ 결합이 κΈ°λŒ€λ©λ‹ˆλ‹€.

5. 싀무 적용 κ°€λŠ₯μ„±

이 λ…Όλ¬Έμ˜ 기술과 λ²€μΉ˜λ§ˆν¬λŠ” 신뒰성이 μ΅œμš°μ„ μΈ 싀무 ν™˜κ²½μ— 즉각 적용될 수 μžˆμŠ΅λ‹ˆλ‹€. λŒ€ν‘œμ μœΌλ‘œ 법λ₯  λΆ„μ•Όμ˜ κ³„μ•½μ„œ κ²€ν†  μ‹œμŠ€ν…œ, 금육ꢌ의 리포트 생성 및 검증, 의료 λΆ„μ•Όμ˜ 진단 기둝 λ³΄κ³ μ„œ μž‘μ„± λ“±μ—μ„œ ν™œμš©λ  수 μžˆμŠ΅λ‹ˆλ‹€. λͺ¨λΈμ΄ 닡변을 내놓을 λ•Œ β€œμ΄ λ¬Έμ„œμ˜ 3νŽ˜μ΄μ§€ 2단락을 근거둜 ν•©λ‹ˆλ‹€β€λΌκ³  μ •ν™•ν•œ 좜처λ₯Ό 밝히기 λ•Œλ¬Έμ—, μ‚¬μš©μžλŠ” λͺ¨λΈμ˜ 생성물을 κ²€μ¦ν•˜κ³  μ‹ λ’°ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

μ‹€μ œ μ μš©μ„ μœ„ν•΄μ„œλŠ” κΈ΄ λ¬Έμ„œ(Long-context)λ₯Ό μ²˜λ¦¬ν•  수 μžˆλŠ” μ΅œμ‹  MLLM 인프라가 ν•„μš”ν•˜λ©°, 높은 ν•΄μƒλ„μ˜ λ¬Έμ„œ 이미지λ₯Ό μ²˜λ¦¬ν•˜κΈ° μœ„ν•΄ μΆ©λΆ„ν•œ GPU λ©”λͺ¨λ¦¬(VRAM)와 λΉ λ₯Έ μ—°μ‚° 속도λ₯Ό κ°–μΆ˜ ν•˜λ“œμ›¨μ–΄ λ¦¬μ†ŒμŠ€κ°€ μš”κ΅¬λ©λ‹ˆλ‹€.

6. 이 논문을 μ΄ν•΄ν•˜κΈ° μœ„ν•œ 사전 지식

  • Doc-VQA (Document Visual Question Answering): λ¬Έμ„œ 이미지λ₯Ό 보고 μ§ˆλ¬Έμ— λ‹΅ν•˜λŠ” 컴퓨터 λΉ„μ „κ³Ό μ–Έμ–΄ 처리의 κ²°ν•©λœ κ³Όμ œμž…λ‹ˆλ‹€.
  • MLLM (Multimodal Large Language Model): ν…μŠ€νŠΈλΏλ§Œ μ•„λ‹ˆλΌ 이미지, μ˜€λ””μ˜€ λ“± λ‹€μ–‘ν•œ ν˜•νƒœμ˜ 정보λ₯Ό μ΄ν•΄ν•˜κ³  생성할 수 μžˆλŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈμž…λ‹ˆλ‹€.
  • Bounding Box: μ΄λ―Έμ§€λ‚˜ λ¬Έμ„œ λ‚΄μ—μ„œ νŠΉμ • κ°μ²΄λ‚˜ μ˜μ—­μ„ κ°μ‹ΈλŠ” μ§μ‚¬κ°ν˜•μ˜ μ’Œν‘œ λ°•μŠ€λ₯Ό μ˜λ―Έν•©λ‹ˆλ‹€.
  • Halucination (ν• λ£¨μ‹œλ„€μ΄μ…˜): AI λͺ¨λΈμ΄ 사싀이 μ•„λ‹Œ λ‚΄μš©μ„ 마치 진싀인 κ²ƒμ²˜λŸΌ κ·ΈλŸ΄μ‹Έν•˜κ²Œ μƒμ„±ν•˜λŠ” ν˜„μƒμž…λ‹ˆλ‹€.
  • IoU (Intersection over Union): 두 λ°•μŠ€κ°€ κ²ΉμΉ˜λŠ” μ˜μ—­μ˜ 넓이λ₯Ό 두 λ°•μŠ€κ°€ 합쳐진 전체 μ˜μ—­μœΌλ‘œ λ‚˜λˆˆ κ°’μœΌλ‘œ, 객체 νƒμ§€μ˜ 정확도λ₯Ό μΈ‘μ •ν•˜λŠ” μ§€ν‘œμž…λ‹ˆλ‹€.
  • Ablation Study (μ†Œκ±° 연ꡬ): μ‹œμŠ€ν…œμ˜ νŠΉμ • ꡬ성 μš”μ†Œλ₯Ό μ œκ±°ν–ˆμ„ λ•Œ μ„±λŠ₯이 μ–΄λ–»κ²Œ λ³€ν•˜λŠ”μ§€ ν™•μΈν•˜μ—¬, ν•΄λ‹Ή μš”μ†Œμ˜ μ€‘μš”λ„λ₯Ό νŒŒμ•…ν•˜λŠ” μ‹€ν—˜ λ°©λ²•μž…λ‹ˆλ‹€.
  • Ground Truth (μ •λ‹΅ 데이터): λͺ¨λΈμ˜ μ„±λŠ₯을 ν‰κ°€ν•˜κΈ° μœ„ν•΄ μ‚¬λžŒμ΄ 직접 ν™•μΈν•˜κ³  μž…λ ₯ν•œ μ°Έκ°’μž…λ‹ˆλ‹€.

πŸ“š 이번 μ£Ό κ΄€λ ¨ Deep Dive

μˆœμœ„λ…Όλ¬ΈDeep Dive
πŸ₯‡CiteVQA: Benchmarking Evidence Attrβ€¦πŸ“ ν˜„μž¬ λ¬Έμ„œ
πŸ₯ˆCode as Agent HarnessDD-093
πŸ₯‰Anti-Self-Distillation for Reasonin…DD-094
4.DelTA: Discriminative Token Credit …DD-095
5.TransitLM: A Large-Scale Dataset an…DD-096

πŸ“… 생성일: 2026-05-24 | πŸ€– GLM-4.7 Deep Dive