β π μ΄λ² μ£Ό Weekly Digestλ‘ λμκ°κΈ°
DD-092 CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence
arXiv: 2605.12882 κΈ°κ΄: OpenDataLab Upvotes: 262 | Comments: 3 μμ: μ΄λ² μ£Ό Top 1
λ Όλ¬Έ 리뷰: CiteVQA
1. μ μ΄ λ Όλ¬Έμ΄ μ€μνκ°?
κΈ°μ‘΄ λ¬Έμ μ΄ν΄ νκ°λ λͺ¨λΈμ΄ λ΄λμ μ΅μ’ λ΅λ³μ μ νλλ§ μ±μ νμ¬, λͺ¨λΈμ΄ μ°μ°ν μ λ΅μ λ§νκ±°λ μλͺ»λ κ·Όκ±°λ₯Ό λ°νμΌλ‘ λ΅μ μμ±νλ μ¬κ°ν λ¬Έμ λ₯Ό κ°κ³Όν΄ μμ΅λλ€. μ΄ λ Όλ¬Έμ λͺ¨λΈμκ² λ¨μν λ΅λ³λΏλ§ μλλΌ κ·Έ λ΅λ³μ κ·Όκ±°κ° λ λ¬Έμ λ΄ νΉμ μμΉλ₯Ό μ νν κ°λ¦¬ν€λλ‘ μꡬν¨μΌλ‘μ¨, λμ μ λ’°λκ° νμν λ²λ₯ , κΈμ΅, μλ£ λΆμΌμμμ βν 루μλ€μ΄μ (Hallucination)β μνμ κ·Όλ³Έμ μΌλ‘ ν΄κ²°νκ³ μ ν©λλ€. μ¦, μ λ΅μ λ§κ³ νλ¦Όμ λμ΄ κ·Έ λ΅λ³μ΄ μ§μ§λ‘ λ―Ώμ μ μλ κ²μΈμ§λ₯Ό κ²μ¦νλ μλ‘μ΄ νκ° μ²λλ₯Ό μ μνλ€λ μ μμ λ§€μ° μ€μν©λλ€.
2. ν΅μ¬ μμ΄λμ΄ μ½κ² μ΄ν΄νκΈ°
μΌμμν λΉμ : μν μνμ νμ΄ κ³Όμ μ±μ
μ΄ λ Όλ¬Έμ ν΅μ¬ μμ΄λμ΄λ βμν μνμ μ±μ νλ λ°©μβκ³Ό κ°μ΅λλ€. κΈ°μ‘΄μ λ¬Έμ μ§μμλ΅ νκ°λ λ΅μμ§μ μ΅μ’ κ²°κ³Όκ°λ§ λ³΄κ³ μ±μ νλ κ²κ³Ό κ°μ΅λλ€. νμμ΄ μ°μ°ν μ λ΅μ μ μλλΌλ, νμ΄ κ³Όμ μ΄ μλ±νκ±°λ μμ μ μ§ μμλ€λ©΄ κ·Έ νμμ λ¬Έμ λ₯Ό μ λλ‘ μ΄ν΄ν κ²μ΄ μλλλ€. μ΄ λ Όλ¬Έμ λͺ¨λΈμ νκ°ν λ μ΅μ’ μ λ΅κ³Ό ν¨κ» κ·Έ λ΅μ μ μΆν΄ λΈ βνμ΄ κ³Όμ (λ¬Έμ λ΄ κ·Όκ±°)βμ νμμ μΌλ‘ μ μΆνλλ‘ ν©λλ€. λ§μ½ μ λ΅μ λ§μ·μ§λ§ κ·Όκ±°κ° λ λ¬Έλ¨μ΄ νλ Έλ€λ©΄ κ°μ μ²λ¦¬λ₯Ό νλ λ°©μμ λλ€.
λ¨κ³λ³ λμ λ°©μ
μ΄ λ Όλ¬Έμ λͺ¨λΈμ κ·μμ±(Attribution)μ ν μ€νΈνκΈ° μν΄ λ€μκ³Ό κ°μ νλ‘μΈμ€λ‘ λ°μ΄ν°μ κ³Ό νκ° λ°©λ²λ‘ μ ꡬμ±νμ΅λλ€.
첫째, λκ·λͺ¨μ μ€μ λ¬Έμμμ λ°μ΄ν°λ₯Ό μμ§νκ³ κ°κ³΅ν©λλ€. 1μ΅ κ° μ΄μμ PDF λ¬Έμ ν보ꡰμμ 7κ° λλ©μΈμ κ±Έμ³ 711κ°μ κ³ νμ§ λ¬Έμλ₯Ό μ μ ν©λλ€. μ΄ λ¬Έμλ€μ νκ· 40νμ΄μ§κ° λλ κΈ΄ λ¬Έμλ‘, μ€μ μ 무 νκ²½μ 볡μ‘μ±μ λ°μν©λλ€.
λμ§Έ, μλνλ μ£Όμ νμ΄νλΌμΈμ ν΅ν΄ μ§λ¬Έκ³Ό μ λ΅, κ·Έλ¦¬κ³ ν΅μ¬ κ·Όκ±°(Evidence)λ₯Ό μμ±ν©λλ€. μ¬κΈ°μλ βλ§μ€νΉ μκ±°(Masking Ablation)βλΌλ κΈ°λ²μ μ¬μ©νμ¬ νΉμ λ¬Έλ¨μ κ°λ Έμ λ λͺ¨λΈμ΄ λ΅μ λ§νμ§ λͺ»νλ€λ©΄, κ·Έ λ¬Έλ¨μ΄ μ λ΅μ κ²°μ μ μΈ κ·Όκ±°μμ νμΈνλ κ³Όμ μ κ±°μΉ©λλ€.
μ μ§Έ, νκ° μ§νλ‘ βμ격ν κ·μ μ νλ(Strictly Attributed Accuracy, SAA)βλ₯Ό λμ νμ΅λλ€. λͺ¨λΈμ΄ λ΅λ³μ μμ±ν λ λ¬Έμ λ΄ ν΄λΉ κ·Όκ±°μ μμΉλ₯Ό λ°μ΄λ© λ°μ€(Bounding Box) ννλ‘ ν¨κ» μΆλ ₯ν΄μΌ ν©λλ€. SAAλ μ΅μ’ λ΅λ³μ΄ λ§μμΌ ν¨μ λ¬Όλ‘ , μ μν κ·Όκ±° μμμ΄ μ€μ μ λ΅μ κ·Όκ±°μ 50% μ΄μ κ²Ήμ³μΌλ§ μ λ΅μΌλ‘ μΈμ νλ μμ£Ό κΉκΉν κΈ°μ€μ λλ€.
ν΅μ¬ μκ³ λ¦¬μ¦ λ° μ§ν
λ Όλ¬Έμμ μ μνλ κ°μ₯ μ€μν κ°λ μ βκ·μ ν 루μλ€μ΄μ (Attribution Hallucination)βμ μ‘μλ΄λ νκ° μ§νλ€μ λλ€. λͺ¨λΈμ μΆλ ₯μ λ΅λ³ μ§ν©κ³Ό κ·Όκ±° λ°μ€ μ§ν©μΌλ‘ μ μνκ³ , μ΄λ₯Ό μ λ΅ λ°μ΄ν°μ λΉκ΅ν©λλ€.
κ°μ₯ ν΅μ¬μΈ SAA(Strictly Attributed Accuracy)λ λ΅λ³μ μ νλ(Ans.), κ·Όκ±°μ μ°κ΄μ±(Rel.), κ·Έλ¦¬κ³ κ·Όκ±°μ μ¬νμ¨(Rec.) μΈ κ°μ§κ° λͺ¨λ μΆ©μ‘±λ λλ§ 1μ μ λΆμ¬νλ μ΄μ§ μ§νμ λλ€. νΉν μ¬νμ¨μ λͺ¨λΈμ΄ μμΈ‘ν λ°μ€μ μ€μ μ λ΅ λ°μ€μ IoU(Intersection over Union)κ° 0.5 μ΄μμΈμ§λ₯Ό νμΈνμ¬, λͺ¨λΈμ΄ μ λ§λ‘ κ·Έ μμΉλ₯Ό μ νν κ°λ¦¬μΌ°λμ§ geometry κ΄μ μμ κ²μ¦ν©λλ€.
3. μ€ν κ²°κ³Ό λΆμ
μ°κ΅¬μ§μ CiteVQA λ²€μΉλ§ν¬λ₯Ό ν΅ν΄ μ΅μ λ©ν°λͺ¨λ¬ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(MLLM)λ€μ μ±λ₯μ νκ°νμ΅λλ€.
첫째, βκ·μ ν 루μλ€μ΄μ β νμμ λͺ νν νμΈνμ΅λλ€. μ΅μμκΆ λͺ¨λΈλ€μ΄ λ¨μ μ§λ¬Έ μλ΅ μ νλ(Answer Accuracy)μμλ λΉκ΅μ λμ μ μλ₯Ό κΈ°λ‘νμ§λ§, SAA μ§νμμλ μ±λ₯μ΄ κΈκ²©ν λ¨μ΄μ§λ νμμ΄ κ΄μ°°λμμ΅λλ€. μ΄λ λͺ¨λΈλ€μ΄ μ’ μ’ λ¬Έμμ λ΄μ©μ μ νν νμ νμ§ λͺ»ν μ± μ¬μ μ§μμ΄λ λ¬Έλ§₯μ λλλ§μΌλ‘ μ°μ°ν μ λ΅μ λ§νκ³ μμμ μλ―Έν©λλ€.
λμ§Έ, κΈ΄ λ¬Έμ μ²λ¦¬μμμ μ΄λ €μμ λλ¬λμ΅λλ€. νκ· 40νμ΄μ§κ° λλ λ¬Έμμμ λͺ¨λΈμ΄ μ λ΅μ κ·Όκ±°κ° λλ νΉμ νμ΄μ§μ μμμ μ°Ύμλ΄λ λ° μλΉν μ΄λ €μμ κ²ͺμμ΅λλ€. μ΄λ κΈ°μ‘΄μ μ§§μ λ¬Έμ μμ£Όμ λ²€μΉλ§ν¬μμλ λ°κ²¬ν μ μμλ, μ€μ λ¬Έμ μ§λ₯(Document Intelligence) μ μ© μμ κ±Έλ¦Όλμ λλ€.
μ μ§Έ, μλνλ νμ΄νλΌμΈμ ν¨μ¨μ±μ μ μ¦νμ΅λλ€. μ¬λμ΄ μ§μ λͺ¨λ λ°μ΄ν°λ₯Ό λΌλ²¨λ§νλ κ²μ λΉν¨μ¨μ μ΄μ§λ§, μ΄ λ Όλ¬Έμ΄ μ μν μλν νμ΄νλΌμΈμ ν΅ν΄ μ λ¬Έκ° μμ€μ μ κ΅ν μ§λ¬Έκ³Ό κ·Όκ±° μμ λκ·λͺ¨λ‘ μμ±ν μ μμμ 보μ¬μ£Όμμ΅λλ€.
4. νκ³μ κ³Ό ν₯ν μ°κ΅¬ λ°©ν₯
μ μλ€μ λμ νμ§μ λ°μ΄ν°λ₯Ό μλμΌλ‘ μμ±νμμλ λΆκ΅¬νκ³ , 볡μ‘ν λ¬Έμ λ μ΄μμμ΄λ ν, κ·Έλνκ° μμ¬ μλ μμμμμ κ·Όκ±° μΆμΆ μ νλκ° μ¬μ ν κ°μ μ΄ νμνλ€λ μ μ μΈμ νκ³ μμ΅λλ€. λν, νμ¬μ νκ°λ μ£Όλ‘ ν μ€νΈ μμ£Όμ κ·Όκ±°μ μ§μ€λμ΄ μμ΄, μκ°μ μμ(λν, μ΄λ―Έμ§)κ° ν¬ν¨λ 볡ν©μ μΈ κ·Όκ±°λ₯Ό μ΄λ»κ² λ μ κ΅νκ² μ μνκ³ νκ°ν μ§κ° ν₯ν κ³Όμ μ λλ€.
ν₯ν μ°κ΅¬ λ°©ν₯μΌλ‘λ λͺ¨λΈμ΄ λ¨μν κ·Όκ±°λ₯Ό μ°Ύλ κ²μ λμ΄, λ¬Έμ μ 체μ λ Όλ¦¬μ νλ¦μ νμ νμ¬ μΆλ‘ λ₯λ ₯μ κ°ννλ λ°©ν₯μΌλ‘ λμκ° κ²μ λλ€. λν, SAAμ κ°μ μ격ν κ·μ νκ°κ° λͺ¨λΈ νμ΅ κ³Όμ μ μ§μ μ μΌλ‘ νμ©λ μ μλ κ°ν νμ΅(RLHF) κΈ°λ² λ±κ³Όμ κ²°ν©μ΄ κΈ°λλ©λλ€.
5. μ€λ¬΄ μ μ© κ°λ₯μ±
μ΄ λ Όλ¬Έμ κΈ°μ κ³Ό λ²€μΉλ§ν¬λ μ λ’°μ±μ΄ μ΅μ°μ μΈ μ€λ¬΄ νκ²½μ μ¦κ° μ μ©λ μ μμ΅λλ€. λνμ μΌλ‘ λ²λ₯ λΆμΌμ κ³μ½μ κ²ν μμ€ν , κΈμ΅κΆμ 리ν¬νΈ μμ± λ° κ²μ¦, μλ£ λΆμΌμ μ§λ¨ κΈ°λ‘ λ³΄κ³ μ μμ± λ±μμ νμ©λ μ μμ΅λλ€. λͺ¨λΈμ΄ λ΅λ³μ λ΄λμ λ βμ΄ λ¬Έμμ 3νμ΄μ§ 2λ¨λ½μ κ·Όκ±°λ‘ ν©λλ€βλΌκ³ μ νν μΆμ²λ₯Ό λ°νκΈ° λλ¬Έμ, μ¬μ©μλ λͺ¨λΈμ μμ±λ¬Όμ κ²μ¦νκ³ μ λ’°ν μ μμ΅λλ€.
μ€μ μ μ©μ μν΄μλ κΈ΄ λ¬Έμ(Long-context)λ₯Ό μ²λ¦¬ν μ μλ μ΅μ MLLM μΈνλΌκ° νμνλ©°, λμ ν΄μλμ λ¬Έμ μ΄λ―Έμ§λ₯Ό μ²λ¦¬νκΈ° μν΄ μΆ©λΆν GPU λ©λͺ¨λ¦¬(VRAM)μ λΉ λ₯Έ μ°μ° μλλ₯Ό κ°μΆ νλμ¨μ΄ 리μμ€κ° μꡬλ©λλ€.
6. μ΄ λ Όλ¬Έμ μ΄ν΄νκΈ° μν μ¬μ μ§μ
- Doc-VQA (Document Visual Question Answering): λ¬Έμ μ΄λ―Έμ§λ₯Ό λ³΄κ³ μ§λ¬Έμ λ΅νλ μ»΄ν¨ν° λΉμ κ³Ό μΈμ΄ μ²λ¦¬μ κ²°ν©λ κ³Όμ μ λλ€.
- MLLM (Multimodal Large Language Model): ν μ€νΈλΏλ§ μλλΌ μ΄λ―Έμ§, μ€λμ€ λ± λ€μν ννμ μ 보λ₯Ό μ΄ν΄νκ³ μμ±ν μ μλ λκ·λͺ¨ μΈμ΄ λͺ¨λΈμ λλ€.
- Bounding Box: μ΄λ―Έμ§λ λ¬Έμ λ΄μμ νΉμ κ°μ²΄λ μμμ κ°μΈλ μ§μ¬κ°νμ μ’ν λ°μ€λ₯Ό μλ―Έν©λλ€.
- Halucination (ν 루μλ€μ΄μ ): AI λͺ¨λΈμ΄ μ¬μ€μ΄ μλ λ΄μ©μ λ§μΉ μ§μ€μΈ κ²μ²λΌ κ·Έλ΄μΈνκ² μμ±νλ νμμ λλ€.
- IoU (Intersection over Union): λ λ°μ€κ° κ²ΉμΉλ μμμ λμ΄λ₯Ό λ λ°μ€κ° ν©μ³μ§ μ 체 μμμΌλ‘ λλ κ°μΌλ‘, κ°μ²΄ νμ§μ μ νλλ₯Ό μΈ‘μ νλ μ§νμ λλ€.
- Ablation Study (μκ±° μ°κ΅¬): μμ€ν μ νΉμ κ΅¬μ± μμλ₯Ό μ κ±°νμ λ μ±λ₯μ΄ μ΄λ»κ² λ³νλμ§ νμΈνμ¬, ν΄λΉ μμμ μ€μλλ₯Ό νμ νλ μ€ν λ°©λ²μ λλ€.
- Ground Truth (μ λ΅ λ°μ΄ν°): λͺ¨λΈμ μ±λ₯μ νκ°νκΈ° μν΄ μ¬λμ΄ μ§μ νμΈνκ³ μ λ ₯ν μ°Έκ°μ λλ€.
π μ΄λ² μ£Ό κ΄λ ¨ Deep Dive
| μμ | λ Όλ¬Έ | Deep Dive |
|---|---|---|
| π₯ | CiteVQA: Benchmarking Evidence Attrβ¦ | π νμ¬ λ¬Έμ |
| π₯ | Code as Agent Harness | DD-093 |
| π₯ | Anti-Self-Distillation for Reasoninβ¦ | DD-094 |
| 4. | DelTA: Discriminative Token Credit β¦ | DD-095 |
| 5. | TransitLM: A Large-Scale Dataset an⦠| DD-096 |
π μμ±μΌ: 2026-05-24 | π€ GLM-4.7 Deep Dive