chore(eval): judge 프롬프트를 doc-summary 정본과 동기화 (측정 정합성 확보)#62
Merged
Conversation
doc-graph의 faithfulness_v1.md 에 few-shot 예시(Faithful/Not Faithful)가 빠져 있어 doc-summary 와 judge 지시가 달랐음. 두 레포 간 Faithfulness 채점 기준을 일치시켜 cross-system 비교 정합성 확보.
doc-graph의 numerical_faithfulness_v1.md 에 few-shot 예시(Correct/Incorrect)가 빠져 있어 doc-summary 와 judge 지시가 달랐음. 두 레포 간 수치 정확도 채점 기준을 일치시켜 cross-system 비교 정합성 확보.
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Add this suggestion to a batch that can be applied as a single commit.This suggestion is invalid because no changes were made to the code.Suggestions cannot be applied while the pull request is closed.Suggestions cannot be applied while viewing a subset of changes.Only one suggestion per line can be applied in a batch.Add this suggestion to a batch that can be applied as a single commit.Applying suggestions on deleted lines is not supported.You must change the existing code in this line in order to create a valid suggestion.Outdated suggestions cannot be applied.This suggestion has been applied or marked resolved.Suggestions cannot be applied from pending reviews.Suggestions cannot be applied on multi-line comments.Suggestions cannot be applied while the pull request is queued to merge.Suggestion cannot be applied right now. Please check back later.
배경 — eval 하니스 정합성 감사
doc-graph ↔ doc-summary 두 레포의 eval 하니스를 파일 단위로 대조한 결과, judge 프롬프트 2개만 갈라져 있었음:
faithfulness_v1.md— doc-summary 에만 Faithful/Not Faithful few-shot 예시 존재, doc-graph 엔 없음numerical_faithfulness_v1.md— doc-summary 에만 Correct/Incorrect few-shot 예시 존재, doc-graph 엔 없음judge 에게 주는 지시가 달라 Faithfulness / numerical_faithfulness 채점 기준이 두 시스템에서 불일치 → cross-system 비교가 깨지는 상태였음.
감사 결과 — 나머지는 모두 정합 (변경 불필요)
qa_pairs.json— byte 완전 동일 (sha20b071ce)--judge-model오버라이드, reasoning_effort/토큰/스키마 fallback 동일answer_correctness_v1.md) — 완전 동일__main__테스트 블록뿐, AST 비교로 확인)변경 사항
doc-graph 의 두 프롬프트를 doc-summary 정본(few-shot 포함)과 byte 동일하게 동기화. md5 대조 확인 완료:
faithfulness_v1.md→2798ad90…numerical_faithfulness_v1.md→e542ca4c…영향
이 동기화 이후 두 레포가 동일 채점 기준을 공유하므로, 두 시스템을 새로 측정하면 Faithfulness 계열까지 cross-system 비교가 정합해짐. (과거 doc-graph 측정은 예시 없는 프롬프트로 돌았으므로, 비교용으로 쓰려면 재측정 필요.)