UnsupervisedJudgeBench

Judge Bench

This is a framework for evaluating judges accuracy on unsupervised tasks. We compare the judges accuracy with the ground truth.

python eval.py

Can adjust eval.py to change the judge type, model name, etc.

Can create new judges in judges/ folder.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
judges		judges
lib		lib
logs		logs
utils		utils
.DS_Store		.DS_Store
README.md		README.md
eval.py		eval.py
main.py		main.py
results		results
results_consensus_judge.json		results_consensus_judge.json
results_orm_judge.json		results_orm_judge.json
results_prm_judge.json		results_prm_judge.json
sample_outputs.json		sample_outputs.json