OpenEvidence批评近期LLM基准研究,呼吁更好基准,Medmarks被建议作为替代评估
OpenEvidence对近期一项LLM基准研究表示不满,呼应了需要更好基准的呼声。作者赞同这一观点,并建议使用公开透明的Medmarks基准套件来评估OpenEvidence。
AI 论文、发布、工具与金融信号
Loading / 加载中
Infogap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
第 2 / 26 页
OpenEvidence对近期一项LLM基准研究表示不满,呼应了需要更好基准的呼声。作者赞同这一观点,并建议使用公开透明的Medmarks基准套件来评估OpenEvidence。
该文章对检索增强生成(RAG)流水线和确定性全扫描引擎在10万行数据上进行聚合任务基准测试。结果表明,增大上下文窗口并不能提高准确性,反而让错误更难发现。作者得出结论:计算密集型查询必须完全绕开RAG,并构建了一个将此类查询导向确定性全扫描引擎的系统,以保持准确性。
刷屏研究测试了医疗AI产品UpToDate和OpenEvidence(非底层模型),在MedQA、HealthBench等有限基准上表现不如前沿通用模型。作者指出这并不证明领域专用模型天生劣势;其自有综合基准显示将前沿模型针对医学微调可获得显著提升。当前领域专用模型常因基于较旧或较弱的开源模型而落后,并非专精失效。例如百川智能的Baichuan-M4声称医疗专用模型性能超越前沿模型。关键结论是:若能快速将强大的前沿模型适配为医学工具,将诞生更优的领域专用系统,但开源基座模型进步和适配速度仍是瓶颈。
研究人员提出了FORT框架,用于合成能抵抗捷径学习的深度搜索代理训练数据。该框架识别并缓解了四种捷径风险:证据共覆盖、单线索选择性、暴露常量和先验知识绑定。它利用轨迹签名来测量和控制数据生成中的捷径风险。实验表明,FORT生成的数据使搜索代理在深度搜索基准上性能提升。配套工具FORT-Searcher在挑战性任务上优于同类代理。代码已开源在GitHub。
该论文提出EvoArena基准,模拟真实世界动态变化以测试LLM智能体,并推出EvoMem记忆范式,对渐进式更新和结构化记忆演化进行建模。现有的LLM智能体在EvoArena不断变化的任务上表现挣扎。EvoMem能持续提升在EvoArena上的性能,并在GAIA和LoCoMo等标准基准上提高准确率。通过记录记忆演化和更新历史,EvoMem使智能体更好地推理环境变化。该工作证明了将演化建模融入评估和记忆对于有效部署智能体的重要性。
月之暗面发布了 Kimi K2.7-Code,一款基于 Modified MIT 许可的开源代码专用代理模型。它采用混合专家架构,总参数 1 万亿,每令牌激活 32B,包含 384 个专家(每步选 8+1 共享),使用 MLA 注意力、SwiGLU 前馈网络和一个 400M 参数的 MoonViT 视觉编码器。模型支持 256K 上下文窗口,原生 INT4 量化,强制开启思考模式并固定采样参数(温度 1.0、top_p 0.95、n 1)。公司公布的基准测试显示,K2.7-Code 在 Kimi Code Bench v2 上得分为 62.0(相对 K2.6 提升 21.8%),在 MCP Mark Verified 上得分为 81.1(超过 Claude Opus 4.8 的 76.4),推理 token 消耗比 K2.6 减少约 30%,在代理工作流中降低成本和延迟。模型权重约 595 GB,已发布在 Hugging Face,可通过 vLLM、SGLang 或 KTransformers 自托管;API 使用 kimi-k2.7-code 模型名,兼容 OpenAI 接口。