55个LLM盲审互评揭示裁判系统性同家族偏见
一项公开评估让来自11个开发家族的55个LLM回答了198个人工编写的问题,随后模型之间进行盲审互评,排除自我评分后共获得22,254次判断。所有有足够数据的8个家族均显示出统计显著的同家族评分偏差:Qwen裁判对其他Qwen模型评分平均高出0.91分,而Mistral裁判对其他Mistral模型评分低出1.02分,为绝对值最大的偏差。其余家族偏差介于xAI的+0.75到Meta的-0.68之间。综合排行榜掩盖了类别差异——九个类别中有六个不同的模型夺冠,且代码类任务的裁判分歧最大。完整数据集、代码和提示词以MIT许可证开放,作者提出了锚定真实答案、分离裁判偏差与回答质量等后续改进方向。