요약
P1~P5 적용 후 동일 80 QA, 동일 LLM, 동일 Judge 로 재측정 → Before/After 비교 박제.
본 프로젝트의 최종 narrative 박는 검증 작업.
동기 — 정량 비교가 narrative 박는다
W6 측정 결과:
- Faithful 5.0% / Correctness 1.41
P1~P5 적용 후 목표:
- Faithful 50%+ / Correctness 3.0+
이 정량 비교가 박혀야 "GraphRAG의 부진 원인이 전처리 품질이었고, P1~P5 로 해결 가능했다" 라는 thesis 가 입증됨.
변경 사항 (예정)
본 이슈는 코드 변경 없음. 측정 실행 + 결과 박제 + 분석.
측정 명령
cd C:\Users\taske\doc-graph-agent
uv run python scripts/run_qa_eval.py ^
--llm-model "openai/gpt-5-mini" ^
--llm-base-url "https://openrouter.ai/api/v1" ^
--llm-api-key-env "OPENROUTER_API_KEY" ^
--judge-model "anthropic/claude-haiku-4.5" ^
--judge-base-url "https://openrouter.ai/api/v1" ^
--judge-api-key-env "OPENROUTER_API_KEY" ^
--qa-set both ^
--tag p5_complete_gpt5mini
uv run python scripts/run_qa_eval.py ^
--llm-model "moonshotai/kimi-k2.5" ^
--llm-base-url "https://openrouter.ai/api/v1" ^
--llm-api-key-env "OPENROUTER_API_KEY" ^
--judge-model "anthropic/claude-haiku-4.5" ^
--judge-base-url "https://openrouter.ai/api/v1" ^
--judge-api-key-env "OPENROUTER_API_KEY" ^
--qa-set both ^
--tag p5_complete_kimi
결과 표 자동 생성
uv run python scripts/make_report_tables.py ^
--gpt5 eval/results/qa_eval_openai_gpt5mini_80qa_*_p5_complete_gpt5mini_*.json ^
--kimi eval/results/qa_eval_kimi_k25_80qa_*_p5_complete_kimi_*.json ^
--out eval/results/report_tables_p5_complete.md
Before / After 비교 박제
docs/weekly-log/2026-XX-XX-p5-complete-measurement.md 박음:
| 메트릭 |
Before (W6) |
After (P5) |
차이 |
| Faithful (%) |
5.0% |
? |
? |
| Correctness (/5) |
1.41 |
? |
? |
| Routing Acc |
87.5% |
? |
? |
negative C |
5.00 |
? (유지 기대) |
? |
limitation C |
4.50 |
? (유지 기대) |
? |
numerical C |
1.30 |
? (3.0+ 기대) |
? |
factual C |
1.00 |
? (3.5+ 기대) |
? |
summary C |
1.00 |
? (3.5+ 기대) |
? |
multi_doc_trend C |
1.00 |
? (3.0+ 기대) |
? |
DoD
검증 방법
본 이슈가 검증 자체. 결과:
- 목표 달성 (Faithful 50%+) → 본 프로젝트 narrative 완성 ✅
- 목표 미달 → 어느 영역이 회복 안 됐는지 진단 → 추가 이슈
예상 효과 — narrative 완성
본 측정 결과가 박히면:
"초기 W6 측정에서 Faithful 5%로 부진했던 doc-graph-agent 는, 측정 결과로 진단한 5가지 근본 원인 (Entity 라벨 오분류, Metric 노드 미생성, OCR 글자 깨짐, Layer C 미구현, BM25 미통합) 을 P1~P5 로 해결한 후 Faithful 50%+ 달성. Hybrid 아키텍처가 production 정답이라는 thesis 가 정량 증명됐다."
→ 회고록 / Velog / 발표자료 / 다음 멘토링 모집 narrative 모두 박힘.
의존
우선순위
✅ 검증 — P1~P5 머지 후 즉시 실행. 측정 자동화돼 있어서 ~1시간.
Refs #56, #57, #58, #59, #60, PR #53 (측정 인프라), PR #54 (reasoning OFF), W6 measurement results
요약
P1~P5 적용 후 동일 80 QA, 동일 LLM, 동일 Judge 로 재측정 → Before/After 비교 박제.
본 프로젝트의 최종 narrative 박는 검증 작업.
동기 — 정량 비교가 narrative 박는다
W6 측정 결과:
P1~P5 적용 후 목표:
이 정량 비교가 박혀야 "GraphRAG의 부진 원인이 전처리 품질이었고, P1~P5 로 해결 가능했다" 라는 thesis 가 입증됨.
변경 사항 (예정)
본 이슈는 코드 변경 없음. 측정 실행 + 결과 박제 + 분석.
측정 명령
결과 표 자동 생성
Before / After 비교 박제
docs/weekly-log/2026-XX-XX-p5-complete-measurement.md박음:negativeClimitationCnumericalCfactualCsummaryCmulti_doc_trendCDoD
report_tables_p5_complete.md박혀있어야 (Table 1~5)검증 방법
본 이슈가 검증 자체. 결과:
예상 효과 — narrative 완성
본 측정 결과가 박히면:
→ 회고록 / Velog / 발표자료 / 다음 멘토링 모집 narrative 모두 박힘.
의존
우선순위
✅ 검증 — P1~P5 머지 후 즉시 실행. 측정 자동화돼 있어서 ~1시간.
Refs #56, #57, #58, #59, #60, PR #53 (측정 인프라), PR #54 (reasoning OFF), W6 measurement results