Skip to content

[Eval] 검증 — P1~P5 적용 후 동일 80 QA 재측정 (Before/After 비교) #61

Description

@TaskerJang

요약

P1~P5 적용 후 동일 80 QA, 동일 LLM, 동일 Judge 로 재측정 → Before/After 비교 박제.

본 프로젝트의 최종 narrative 박는 검증 작업.

동기 — 정량 비교가 narrative 박는다

W6 측정 결과:

  • Faithful 5.0% / Correctness 1.41

P1~P5 적용 후 목표:

  • Faithful 50%+ / Correctness 3.0+

이 정량 비교가 박혀야 "GraphRAG의 부진 원인이 전처리 품질이었고, P1~P5 로 해결 가능했다" 라는 thesis 가 입증됨.

변경 사항 (예정)

본 이슈는 코드 변경 없음. 측정 실행 + 결과 박제 + 분석.

측정 명령

cd C:\Users\taske\doc-graph-agent

uv run python scripts/run_qa_eval.py ^
  --llm-model "openai/gpt-5-mini" ^
  --llm-base-url "https://openrouter.ai/api/v1" ^
  --llm-api-key-env "OPENROUTER_API_KEY" ^
  --judge-model "anthropic/claude-haiku-4.5" ^
  --judge-base-url "https://openrouter.ai/api/v1" ^
  --judge-api-key-env "OPENROUTER_API_KEY" ^
  --qa-set both ^
  --tag p5_complete_gpt5mini

uv run python scripts/run_qa_eval.py ^
  --llm-model "moonshotai/kimi-k2.5" ^
  --llm-base-url "https://openrouter.ai/api/v1" ^
  --llm-api-key-env "OPENROUTER_API_KEY" ^
  --judge-model "anthropic/claude-haiku-4.5" ^
  --judge-base-url "https://openrouter.ai/api/v1" ^
  --judge-api-key-env "OPENROUTER_API_KEY" ^
  --qa-set both ^
  --tag p5_complete_kimi

결과 표 자동 생성

uv run python scripts/make_report_tables.py ^
  --gpt5 eval/results/qa_eval_openai_gpt5mini_80qa_*_p5_complete_gpt5mini_*.json ^
  --kimi eval/results/qa_eval_kimi_k25_80qa_*_p5_complete_kimi_*.json ^
  --out  eval/results/report_tables_p5_complete.md

Before / After 비교 박제

docs/weekly-log/2026-XX-XX-p5-complete-measurement.md 박음:

메트릭 Before (W6) After (P5) 차이
Faithful (%) 5.0% ? ?
Correctness (/5) 1.41 ? ?
Routing Acc 87.5% ? ?
negative C 5.00 ? (유지 기대) ?
limitation C 4.50 ? (유지 기대) ?
numerical C 1.30 ? (3.0+ 기대) ?
factual C 1.00 ? (3.5+ 기대) ?
summary C 1.00 ? (3.5+ 기대) ?
multi_doc_trend C 1.00 ? (3.0+ 기대) ?

DoD

  • 80 QA × 2 LLM 재측정 완료, 결과 JSON 4개 박혀있어야 (gpt-5-mini + kimi 각각, before/after)
  • report_tables_p5_complete.md 박혀있어야 (Table 1~5)
  • Before/After 비교 표 박힌 weekly-log 박제
  • Faithful 5% → 목표 50%+ 달성 검증
  • 강점 영역 유지 (negative / limitation Correctness 그대로 박혀있어야)

검증 방법

본 이슈가 검증 자체. 결과:

  • 목표 달성 (Faithful 50%+) → 본 프로젝트 narrative 완성 ✅
  • 목표 미달 → 어느 영역이 회복 안 됐는지 진단 → 추가 이슈

예상 효과 — narrative 완성

본 측정 결과가 박히면:

"초기 W6 측정에서 Faithful 5%로 부진했던 doc-graph-agent 는, 측정 결과로 진단한 5가지 근본 원인 (Entity 라벨 오분류, Metric 노드 미생성, OCR 글자 깨짐, Layer C 미구현, BM25 미통합) 을 P1~P5 로 해결한 후 Faithful 50%+ 달성. Hybrid 아키텍처가 production 정답이라는 thesis 가 정량 증명됐다."

→ 회고록 / Velog / 발표자료 / 다음 멘토링 모집 narrative 모두 박힘.

의존

우선순위

검증 — P1~P5 머지 후 즉시 실행. 측정 자동화돼 있어서 ~1시간.


Refs #56, #57, #58, #59, #60, PR #53 (측정 인프라), PR #54 (reasoning OFF), W6 measurement results

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions