AI 信息流

R LOCALLLAMA2026年6月28日重点

55个LLM盲审互评揭示裁判系统性同家族偏见

一项公开评估让来自11个开发家族的55个LLM回答了198个人工编写的问题，随后模型之间进行盲审互评，排除自我评分后共获得22,254次判断。所有有足够数据的8个家族均显示出统计显著的同家族评分偏差：Qwen裁判对其他Qwen模型评分平均高出0.91分，而Mistral裁判对其他Mistral模型评分低出1.02分，为绝对值最大的偏差。其余家族偏差介于xAI的+0.75到Meta的-0.68之间。综合排行榜掩盖了类别差异——九个类别中有六个不同的模型夺冠，且代码类任务的裁判分歧最大。完整数据集、代码和提示词以MIT许可证开放，作者提出了锚定真实答案、分离裁判偏差与回答质量等后续改进方向。

R LOCALLLAMA2026年6月28日重点

量化Gemma 4-31B MTP草稿接受率：Q5_K_S最高，IQ4_XS和IQ3_M几乎持平，IQ2_M在n=1时仍达84.5%

一项社区实验测量了Gemma 4-31B-it主干在Q5_K_S、IQ4_XS、IQ3_M、IQ2_M量化下配合其MTP起草器的推测解码接受率。单token草稿接受率（n=1）从88.5%（Q5_K_S）降至84.5%（IQ2_M）；n=4时分别为66.7%和61.2%。IQ4_XS与IQ3_M在各个深度下表现几乎一致。最大加速收益来自CUDA上的n=2配置，Apple Metal仅从n=1中获益微小。IQ2_M主干约需12 GB内存，使消费级GPU可运行推测解码。

过滤噪音，保留 AI 信号。

55个LLM盲审互评揭示裁判系统性同家族偏见

量化Gemma 4-31B MTP草稿接受率：Q5_K_S最高，IQ4_XS和IQ3_M几乎持平，IQ2_M在n=1时仍达84.5%