chore(eval): judge 프롬프트를 doc-summary 정본과 동기화 (측정 정합성 확보) by TaskerJang · Pull Request #62 · TaskerJang/doc-graph-agent

TaskerJang · 2026-05-29T23:22:50Z

배경 — eval 하니스 정합성 감사

doc-graph ↔ doc-summary 두 레포의 eval 하니스를 파일 단위로 대조한 결과, judge 프롬프트 2개만 갈라져 있었음:

faithfulness_v1.md — doc-summary 에만 Faithful/Not Faithful few-shot 예시 존재, doc-graph 엔 없음
numerical_faithfulness_v1.md — doc-summary 에만 Correct/Incorrect few-shot 예시 존재, doc-graph 엔 없음

judge 에게 주는 지시가 달라 Faithfulness / numerical_faithfulness 채점 기준이 두 시스템에서 불일치 → cross-system 비교가 깨지는 상태였음.

감사 결과 — 나머지는 모두 정합 (변경 불필요)

QA셋 qa_pairs.json — byte 완전 동일 (sha 20b071ce)
judge 모델·설정 — 둘 다 기본 gpt-5.2 + --judge-model 오버라이드, reasoning_effort/토큰/스키마 fallback 동일
answer_correctness 루브릭 (answer_correctness_v1.md) — 완전 동일
answer_correctness.py / semantic_similarity(bge-m3) / rouge(MeCab) / numerical_accuracy / entity_coverage — 기능적으로 동일 (차이는 주석/독스트링/__main__ 테스트 블록뿐, AST 비교로 확인)

변경 사항

doc-graph 의 두 프롬프트를 doc-summary 정본(few-shot 포함)과 byte 동일하게 동기화. md5 대조 확인 완료:

faithfulness_v1.md → 2798ad90…
numerical_faithfulness_v1.md → e542ca4c…

영향

이 동기화 이후 두 레포가 동일 채점 기준을 공유하므로, 두 시스템을 새로 측정하면 Faithfulness 계열까지 cross-system 비교가 정합해짐. (과거 doc-graph 측정은 예시 없는 프롬프트로 돌았으므로, 비교용으로 쓰려면 재측정 필요.)

doc-graph의 faithfulness_v1.md 에 few-shot 예시(Faithful/Not Faithful)가 빠져 있어 doc-summary 와 judge 지시가 달랐음. 두 레포 간 Faithfulness 채점 기준을 일치시켜 cross-system 비교 정합성 확보.

doc-graph의 numerical_faithfulness_v1.md 에 few-shot 예시(Correct/Incorrect)가 빠져 있어 doc-summary 와 judge 지시가 달랐음. 두 레포 간 수치 정확도 채점 기준을 일치시켜 cross-system 비교 정합성 확보.

TaskerJang added 2 commits May 30, 2026 08:21

TaskerJang merged commit a7f0638 into dev May 29, 2026

TaskerJang mentioned this pull request May 29, 2026

fix(agent): gpt-5.2 등 OpenAI reasoning 모델 effort=minimal 분기 + CoT 누출 제거 #63

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

chore(eval): judge 프롬프트를 doc-summary 정본과 동기화 (측정 정합성 확보)#62

chore(eval): judge 프롬프트를 doc-summary 정본과 동기화 (측정 정합성 확보)#62
TaskerJang merged 2 commits into
devfrom
chore/sync-judge-prompts

TaskerJang commented May 29, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

TaskerJang commented May 29, 2026

배경 — eval 하니스 정합성 감사

감사 결과 — 나머지는 모두 정합 (변경 불필요)

변경 사항

영향

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant