[Eval] 검증 — P1~P5 적용 후 동일 80 QA 재측정 (Before/After 비교)

## 요약

P1~P5 적용 후 *동일 80 QA, 동일 LLM, 동일 Judge* 로 재측정 → Before/After 비교 박제.

본 프로젝트의 최종 narrative 박는 검증 작업.

## 동기 — 정량 비교가 narrative 박는다

W6 측정 결과:
- Faithful 5.0% / Correctness 1.41

P1~P5 적용 후 목표:
- **Faithful 50%+ / Correctness 3.0+**

이 정량 비교가 박혀야 *"GraphRAG의 부진 원인이 전처리 품질이었고, P1~P5 로 해결 가능했다"* 라는 thesis 가 입증됨.

## 변경 사항 (예정)

본 이슈는 *코드 변경 없음*. 측정 실행 + 결과 박제 + 분석.

### 측정 명령

```cmd
cd C:\Users\taske\doc-graph-agent

uv run python scripts/run_qa_eval.py ^
  --llm-model "openai/gpt-5-mini" ^
  --llm-base-url "https://openrouter.ai/api/v1" ^
  --llm-api-key-env "OPENROUTER_API_KEY" ^
  --judge-model "anthropic/claude-haiku-4.5" ^
  --judge-base-url "https://openrouter.ai/api/v1" ^
  --judge-api-key-env "OPENROUTER_API_KEY" ^
  --qa-set both ^
  --tag p5_complete_gpt5mini

uv run python scripts/run_qa_eval.py ^
  --llm-model "moonshotai/kimi-k2.5" ^
  --llm-base-url "https://openrouter.ai/api/v1" ^
  --llm-api-key-env "OPENROUTER_API_KEY" ^
  --judge-model "anthropic/claude-haiku-4.5" ^
  --judge-base-url "https://openrouter.ai/api/v1" ^
  --judge-api-key-env "OPENROUTER_API_KEY" ^
  --qa-set both ^
  --tag p5_complete_kimi
```

### 결과 표 자동 생성

```cmd
uv run python scripts/make_report_tables.py ^
  --gpt5 eval/results/qa_eval_openai_gpt5mini_80qa_*_p5_complete_gpt5mini_*.json ^
  --kimi eval/results/qa_eval_kimi_k25_80qa_*_p5_complete_kimi_*.json ^
  --out  eval/results/report_tables_p5_complete.md
```

### Before / After 비교 박제

`docs/weekly-log/2026-XX-XX-p5-complete-measurement.md` 박음:

| 메트릭 | Before (W6) | After (P5) | 차이 |
|---|---|---|---|
| Faithful (%) | 5.0% | ? | ? |
| Correctness (/5) | 1.41 | ? | ? |
| Routing Acc | 87.5% | ? | ? |
| `negative` C | 5.00 | ? (유지 기대) | ? |
| `limitation` C | 4.50 | ? (유지 기대) | ? |
| `numerical` C | 1.30 | ? (3.0+ 기대) | ? |
| `factual` C | 1.00 | ? (3.5+ 기대) | ? |
| `summary` C | 1.00 | ? (3.5+ 기대) | ? |
| `multi_doc_trend` C | 1.00 | ? (3.0+ 기대) | ? |

## DoD

- [ ] 80 QA × 2 LLM 재측정 완료, 결과 JSON 4개 박혀있어야 (gpt-5-mini + kimi 각각, before/after)
- [ ] `report_tables_p5_complete.md` 박혀있어야 (Table 1~5)
- [ ] Before/After 비교 표 박힌 weekly-log 박제
- [ ] **Faithful 5% → 목표 50%+ 달성 검증**
- [ ] *강점 영역 유지* (negative / limitation Correctness 그대로 박혀있어야)

## 검증 방법

본 이슈가 *검증 자체*. 결과:
- 목표 달성 (Faithful 50%+) → 본 프로젝트 narrative 완성 ✅
- 목표 미달 → 어느 영역이 회복 안 됐는지 진단 → 추가 이슈

## 예상 효과 — narrative 완성

본 측정 결과가 박히면:

> "초기 W6 측정에서 Faithful 5%로 부진했던 doc-graph-agent 는, 측정 결과로 진단한 5가지 근본 원인 (Entity 라벨 오분류, Metric 노드 미생성, OCR 글자 깨짐, Layer C 미구현, BM25 미통합) 을 P1~P5 로 해결한 후 *Faithful 50%+ 달성*. **Hybrid 아키텍처가 production 정답이라는 thesis 가 정량 증명됐다.**"

→ 회고록 / Velog / 발표자료 / 다음 멘토링 모집 narrative 모두 박힘.

## 의존

- **선행**: #56, #57, #58 (옵션), #59, #60 — 본 이슈는 *모든 선행 작업의 마지막 검증*

## 우선순위

✅ **검증** — P1~P5 머지 후 즉시 실행. 측정 자동화돼 있어서 ~1시간.

---

Refs #56, #57, #58, #59, #60, PR #53 (측정 인프라), PR #54 (reasoning OFF), W6 measurement results

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Eval] 검증 — P1~P5 적용 후 동일 80 QA 재측정 (Before/After 비교) #61

요약

동기 — 정량 비교가 narrative 박는다

변경 사항 (예정)

측정 명령

결과 표 자동 생성

Before / After 비교 박제

DoD

검증 방법

예상 효과 — narrative 완성

의존

우선순위

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

메트릭	Before (W6)	After (P5)	차이
Faithful (%)	5.0%	?	?
Correctness (/5)	1.41	?	?
Routing Acc	87.5%	?	?
`negative` C	5.00	? (유지 기대)	?
`limitation` C	4.50	? (유지 기대)	?
`numerical` C	1.30	? (3.0+ 기대)	?
`factual` C	1.00	? (3.5+ 기대)	?
`summary` C	1.00	? (3.5+ 기대)	?
`multi_doc_trend` C	1.00	? (3.0+ 기대)	?

[Eval] 검증 — P1~P5 적용 후 동일 80 QA 재측정 (Before/After 비교) #61

Description

요약

동기 — 정량 비교가 narrative 박는다

변경 사항 (예정)

측정 명령

결과 표 자동 생성

Before / After 비교 박제

DoD

검증 방법

예상 효과 — narrative 완성

의존

우선순위

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions