fix: reasoning OFF for OpenRouter reasoning models (Kimi K2.5 / Claude judge) by TaskerJang · Pull Request #54 · TaskerJang/doc-graph-agent

TaskerJang · 2026-05-25T13:55:23Z

배경

PR #53 의 첫 80 QA 측정 결과를 분석한 결과, doc-graph-agent 도 doc-summary-agent (PR #133) 와 동일한 reasoning model 빈 응답 문제 의 영향을 받았음이 확인됨.

증거

시스템	LLM	Faithfulness	비고
doc-summary	deepseek-v3.2	87.5% (n=57)	정상
doc-summary	Kimi K2.5	13.8% (n=80)	reasoning 무력화 → 빈 응답 누적
doc-graph	deepseek-v3.2	80%+ 추정	정상
doc-graph	Kimi K2.5	42.5~45% (n=80)	절반으로 떨어짐

doc-graph 가 doc-summary 만큼 완전히 무너지지 않은 이유는 LLM 호출 횟수 차이:

doc-summary: Map-Reduce 패턴 → 80 QA × ~20 청크 × 3단계 ≈ 5,000 호출 (누적 영향 큼)
doc-graph: 단일 retrieval → 80 QA × 1단계 ≈ 80 호출 (영향 적음)

다만 영향 자체는 똑같이 받음 → Faithfulness 가 deepseek 측정 대비 절반.

원인

OpenRouter 공식 문서 (https://openrouter.ai/docs/guides/best-practices/reasoning-tokens) 박힌 내용:

Reasoning tokens are considered output tokens and charged accordingly.

Kimi K2.5 / DeepSeek V3.2 등 reasoning 모델은 thinking tokens 가 max_tokens 를 소진한 뒤 실제 출력 (content) 은 빈 문자열로 반환되는 케이스가 발생.

이전 코드 박힌 reasoning: {"enabled": False} 만으로는 일부 모델 (특히 Kimi K2.5) 에서 무시 됨.

패치

공식 문서 박힌 정답 패턴:

"reasoning": {
    "max_tokens": 1,    # ← 공식 권장값 (모든 모델 호환)
    "enabled": False,   # ← Anthropic 일부 모델
    "exclude": True,    # ← reasoning 응답 전달 X
}

3중 안전을 모든 LLM 호출 지점에 박음:

변경 파일

agent/llm_client.py — retrieval 답변 생성 LLM
- LLMConfig.is_openrouter 프로퍼티 박아 자동 감지
- OpenRouter 경유 시만 extra_body 박기 (Kimi 직결 / OpenAI 직결 영향 0)
- 빈 응답 진단 + reasoning_content / reasoning 필드 fallback
eval/metrics/faithfulness_judge.py — Faithfulness / Numerical Faithfulness judge
- _use_openrouter_extras 플래그 박음
- _REASONING_OFF_BODY 3중 안전
- TIMEOUT 30 → 60s
- reasoning + reasoning_content 두 필드 모두 fallback
eval/metrics/answer_correctness.py — Answer Correctness judge
- faithfulness_judge._REASONING_OFF_BODY 재사용
- 동일한 reasoning OFF 패턴

호환성

환경	영향
prod / W4 정성 검증 (KIMI_* 직결)	❌ 영향 0 — `is_openrouter` False 박혀서 extra_body 미적용
OpenAI 직결 (configure_llm 미호출)	❌ 영향 0
OpenRouter 경유 측정	✅ reasoning OFF 자동 적용

예상 효과

doc-graph Kimi 재측정 시 Faithfulness 42-45% → 70-85% 박힐 거 예상
doc-summary Kimi 측정 박힌 deepseek 87.5% 와 비교 가능한 수치 박힐 거
비용 절감: reasoning tokens 안 박혀서 약 1/3

재측정 명령어

cd C:\Users\taske\doc-graph-agent && git fetch origin && git checkout feat/disable-reasoning && uv run python scripts/run_qa_eval.py --llm-model "moonshotai/kimi-k2.5" --llm-base-url "https://openrouter.ai/api/v1" --llm-api-key-env "OPENROUTER_API_KEY" --judge-model "anthropic/claude-haiku-4.5" --judge-base-url "https://openrouter.ai/api/v1" --judge-api-key-env "OPENROUTER_API_KEY" --qa-set both --tag kimi_no_reasoning_80qa

🤖 Generated with Claude (자고 일어나면 결과 박혀있을 거 예상)

Refs #127, PR #53, doc-summary PR #133

…t.py doc-summary-agent PR #133 과 동일 패턴. 문제: - Kimi K2.5 (moonshotai/kimi-k2.5) 는 reasoning model - thinking tokens 가 max_tokens 다 박아버리고 content 빈 문자열 반환 - doc-graph 의 첫 측정 결과 Faithfulness 42-45% — deepseek 87.5% 의 절반 - 즉 doc-graph 도 reasoning 영향 받았음 (다만 LLM 호출 횟수 적어서 완전 fail 안 박힘) 공식 문서 (https://openrouter.ai/docs/guides/best-practices/reasoning-tokens): - reasoning: {"max_tokens": 1} ← 공식 권장값 (모든 모델 호환) - reasoning: {"enabled": false} ← Anthropic 일부 모델 패치 박은 거: 1. _REASONING_OFF_BODY 3중 안전: - enabled: false - max_tokens: 1 ← 공식 권장 (0 박은 거 일부 모델 거부 가능) - exclude: true 2. LLMConfig.is_openrouter 프로퍼티 박아서 자동 감지 3. OpenRouter 경유 시만 extra_body 박기 (Kimi 직결 / OpenAI 직결 영향 0) 4. reasoning_content / reasoning 필드 fallback 박기 5. 빈 응답 진단 logger.warning 박기 예상 효과: - 80 QA 재측정 시 Faithfulness 42-45% → 70-85% 박힐 거 예상 - 비용 절감: reasoning tokens 안 박혀서 약 1/3 박힘

이전 코드: reasoning: {"enabled": False} 만 박혔는데 Kimi 같은 일부 모델에서 무시되는 케이스 발견 (이전 측정의 60+ Judge 빈 응답 증거). 공식 문서 (https://openrouter.ai/docs/guides/best-practices/reasoning-tokens): - max_tokens: 1 이 공식 권장값 (모든 모델 호환) - enabled: false 는 Anthropic 일부 모델만 지원 패치: 1. reasoning 3중 안전: - enabled: false - max_tokens: 1 ← 공식 권장 - exclude: true 2. _use_openrouter_extras 플래그 박아 OpenRouter 경유 시만 적용 3. TIMEOUT 30 -> 60s (reasoning 모델 대응 margin) 4. reasoning + reasoning_content 두 필드 모두 fallback 박기 5. summarizer/llm.py 와 동일 패턴 (doc-summary PR #133 정합)

faithfulness_judge.py 와 동일 패턴 적용. 변경: 1. faithfulness_judge 의 _REASONING_OFF_BODY 재사용 (max_tokens: 1 + enabled: false + exclude: true 3중) 2. _use_openrouter_extras 플래그 박아 OpenRouter 경유 시만 적용 3. TIMEOUT 30 -> 60s 4. reasoning + reasoning_content 두 필드 모두 fallback 5. 빈 응답 진단 logger.warning 박기

PR #54 가 base=feat/qa-eval-dual-system 으로 머지됐는데, 그 시점에 PR #53 (qa-eval-dual-system → dev) 이 이미 머지된 뒤라 PR #54 의 변경분이 dev 로 흘러오지 못함. 자기 전 OpenAI + Kimi 측정 박을 거라 dev 에 직접 patch 박음: 1. agent/llm_client.py — LLMConfig.is_openrouter 프로퍼티 + _REASONING_OFF_BODY 3중 안전 (max_tokens:1 / enabled:false / exclude:true) + reasoning_content fallback + 빈 응답 진단 2. eval/metrics/faithfulness_judge.py — _use_openrouter_extras 플래그 + _REASONING_OFF_BODY 3중 + TIMEOUT 60s + reasoning / reasoning_content 두 필드 모두 fallback 3. eval/metrics/answer_correctness.py — faithfulness_judge 의 _REASONING_OFF_BODY 재사용 + 동일 패턴 호환성: - OpenAI 직결 (configure_llm 미호출) → 영향 0 - KIMI_* 직결 (prod / W4) → 영향 0 (is_openrouter False) - OpenRouter 경유 → reasoning OFF 자동 적용

TaskerJang added 3 commits May 25, 2026 22:53

TaskerJang merged commit 711c34b into feat/qa-eval-dual-system May 25, 2026

This was referenced May 26, 2026

[Eval] 검증 — P1~P5 적용 후 동일 80 QA 재측정 (Before/After 비교) #61

Closed

fix(agent): gpt-5.2 등 OpenAI reasoning 모델 effort=minimal 분기 + CoT 누출 제거 #63

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix: reasoning OFF for OpenRouter reasoning models (Kimi K2.5 / Claude judge)#54

fix: reasoning OFF for OpenRouter reasoning models (Kimi K2.5 / Claude judge)#54
TaskerJang merged 3 commits into
feat/qa-eval-dual-systemfrom
feat/disable-reasoning

TaskerJang commented May 25, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

TaskerJang commented May 25, 2026

배경

증거

원인

패치

변경 파일

호환성

예상 효과

재측정 명령어

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant