ARXIV · 2026年6月15日 · 重点
该论文提出MetaSyn数据集,包含442篇经专家整理的《自然》系列期刊荟萃分析,每篇均配有PI/ECO标准、14万篇PubMed检索语料库、验证过的相关研究及精心设计的干扰项。在检索-筛选-合成的完整流程中,对12种流程配置(9种检索增强生成方案和1种基于协议的智能体)进行了基准测试。尽管在K=200时检索召回率达90.9%,但没有任何系统对真实纳入文献的召回率超过52.7%,暴露出关键的筛选瓶颈。当前大语言模型难以可靠区分符合PI/ECO标准的研究与主题相似但不符合标准的干扰文章。为定位故障点,作者建议使用分阶段归因指标,而非单一的端到端评分。
ARXIV · 2026年6月15日
DeepRubric 是一个数据构建框架,它反转了通常为查询生成评分标准的流程。该框架先从种子主题出发,递归扩展证据支撑的子问题,构建一棵证据树;随后以树的叶子节点作为原子化、可验证的评估目标,合成对齐的查询-评分标准对。由此确保奖励信号准确评估查询所要求的信息。作者利用 9K 条此类样本,以基于评分标准的 GRPO 训练了 DeepRubric-8B,使其在三个基准上的性能与之前开源的最佳深度研究模型持平,而所需的强化学习 GPU 小时仅约 1/13。
ARXIV · 2026年6月15日 · 重点
研究人员提出了TuneJury,一个开源的实例级成对奖励模型,用于文本到音乐生成,根据文本提示和音频片段预测音乐偏好评分。模型使用公开的人类偏好数据训练,包括竞技场式投票、度量对齐偏好对、众包成对比较和专家美学评分。在留出测试集上得分差值校准良好,可通过简单阈值进行数据过滤,并能泛化至分布外基准。针对训练后新发布的生成器,论文提出锚定校准,一种无需重新训练即可高效恢复一致性的后验Bradley-Terry校准方法。使用该固定的奖励模型,TuneJury在三个下游任务中带来稳定收益:推理时best-of-N选择、DITTO风格潜在优化和专家迭代后训练。模型已在GitHub上开源。
ARXIV · 2026年6月15日 · 重点
本文提出一个贝叶斯推断框架,利用LiveBench、Open LLM Leaderboard v2、LMArena、GAIA和tau-bench等公开排行榜档案,对前沿AI评估进行审计。研究发现,仅凭终值性能声明会产生歧义:同一终值快照可与截然不同的前期演化历史兼容,导致接近性能上限的时间相差三倍以上。合成实验表明,考虑候选选择的前沿模型在合成恢复、目标档案预测、偏好迁移和不确定性校准等方面均告失败,审计关卡因此拒绝其较强论断。文中引入的档案-裁决协议能够重建公开评估历史,确定经验证的时序边界,并证伪缺乏支持的前沿论断,为解读排行榜数据提供了严谨方法。
ARXIV · 2026年6月15日 · 重点
该论文提出一个多中心基准,仅利用平扫CT进行多器官腹部疾病诊断和自动化放射报告生成,旨在避免造影剂相关风险。研究收集了来自两个中心的配对平扫-增强CT数据集及相应报告,划分为内部和外部验证队列。在统一评估协议下,对五种当代深度学习架构(涵盖胸部专用、腹部专用和通用多模态模型)进行了基准测试。基于平扫CT的模型在内部队列上平均多器官AUC为69.1%,外部队列为63.1%,表明平扫CT保留了诊断信号。作者公开了数据集、代码和基准,以促进安全、资源高效的无造影腹部影像研究。
ARXIV · 2026年6月15日
作者以2025年ACM EC会议论文“Stable Menus of Public Goods”中的一个公开问题为试验台,研究不同“AI for EconCS”研究流程的有效性。他们考察了三个问题:在提示中加入人类直觉是否有帮助、自动多轮交互能否改善结果,以及大语言模型(LLM)是否优于一年级博士生。实验表明,加入人类直觉的提示能促使LLM展现出更好的“品味”,而多轮工作流在鼓励“有野心”的解题步骤时是有益的。通过使用资深作者在与博士生合作前撰写的未发表手稿进行比较,发现LLM的效果略逊于该一年级博士生。论文为将LLM融入经济学研究提供了流程建议。