Skip to content

chore(eval): judge 프롬프트를 doc-summary 정본과 동기화 (측정 정합성 확보)#62

Merged
TaskerJang merged 2 commits into
devfrom
chore/sync-judge-prompts
May 29, 2026
Merged

chore(eval): judge 프롬프트를 doc-summary 정본과 동기화 (측정 정합성 확보)#62
TaskerJang merged 2 commits into
devfrom
chore/sync-judge-prompts

Conversation

@TaskerJang

Copy link
Copy Markdown
Owner

배경 — eval 하니스 정합성 감사

doc-graph ↔ doc-summary 두 레포의 eval 하니스를 파일 단위로 대조한 결과, judge 프롬프트 2개만 갈라져 있었음:

  • faithfulness_v1.md — doc-summary 에만 Faithful/Not Faithful few-shot 예시 존재, doc-graph 엔 없음
  • numerical_faithfulness_v1.md — doc-summary 에만 Correct/Incorrect few-shot 예시 존재, doc-graph 엔 없음

judge 에게 주는 지시가 달라 Faithfulness / numerical_faithfulness 채점 기준이 두 시스템에서 불일치 → cross-system 비교가 깨지는 상태였음.

감사 결과 — 나머지는 모두 정합 (변경 불필요)

  • QA셋 qa_pairs.json — byte 완전 동일 (sha 20b071ce)
  • judge 모델·설정 — 둘 다 기본 gpt-5.2 + --judge-model 오버라이드, reasoning_effort/토큰/스키마 fallback 동일
  • answer_correctness 루브릭 (answer_correctness_v1.md) — 완전 동일
  • answer_correctness.py / semantic_similarity(bge-m3) / rouge(MeCab) / numerical_accuracy / entity_coverage — 기능적으로 동일 (차이는 주석/독스트링/__main__ 테스트 블록뿐, AST 비교로 확인)

변경 사항

doc-graph 의 두 프롬프트를 doc-summary 정본(few-shot 포함)과 byte 동일하게 동기화. md5 대조 확인 완료:

  • faithfulness_v1.md2798ad90…
  • numerical_faithfulness_v1.mde542ca4c…

영향

이 동기화 이후 두 레포가 동일 채점 기준을 공유하므로, 두 시스템을 새로 측정하면 Faithfulness 계열까지 cross-system 비교가 정합해짐. (과거 doc-graph 측정은 예시 없는 프롬프트로 돌았으므로, 비교용으로 쓰려면 재측정 필요.)

doc-graph의 faithfulness_v1.md 에 few-shot 예시(Faithful/Not Faithful)가
빠져 있어 doc-summary 와 judge 지시가 달랐음. 두 레포 간 Faithfulness 채점
기준을 일치시켜 cross-system 비교 정합성 확보.
doc-graph의 numerical_faithfulness_v1.md 에 few-shot 예시(Correct/Incorrect)가
빠져 있어 doc-summary 와 judge 지시가 달랐음. 두 레포 간 수치 정확도 채점
기준을 일치시켜 cross-system 비교 정합성 확보.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant