Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

62 条内容

ARXIV2026年6月15日重点

Benchmarking LLM Agents on Meta-Analysis Articles from Nature Portfolio

该论文提出MetaSyn数据集，包含442篇经专家整理的《自然》系列期刊荟萃分析，每篇均配有PI/ECO标准、14万篇PubMed检索语料库、验证过的相关研究及精心设计的干扰项。在检索-筛选-合成的完整流程中，对12种流程配置（9种检索增强生成方案和1种基于协议的智能体）进行了基准测试。尽管在K=200时检索召回率达90.9%，但没有任何系统对真实纳入文献的召回率超过52.7%，暴露出关键的筛选瓶颈。当前大语言模型难以可靠区分符合PI/ECO标准的研究与主题相似但不符合标准的干扰文章。为定位故障点，作者建议使用分阶段归因指标，而非单一的端到端评分。

ARXIV2026年6月15日

DEEPRUBRIC: Evidence-Tree Rubric Supervision for Efficient Reinforcement Learning of Deep Research Agents

DeepRubric 是一个数据构建框架，它反转了通常为查询生成评分标准的流程。该框架先从种子主题出发，递归扩展证据支撑的子问题，构建一棵证据树；随后以树的叶子节点作为原子化、可验证的评估目标，合成对齐的查询-评分标准对。由此确保奖励信号准确评估查询所要求的信息。作者利用 9K 条此类样本，以基于评分标准的 GRPO 训练了 DeepRubric-8B，使其在三个基准上的性能与之前开源的最佳深度研究模型持平，而所需的强化学习 GPU 小时仅约 1/13。

ARXIV2026年6月15日重点

TuneJury: An Open Metric for Improving Music Generation Preference Alignment

研究人员提出了TuneJury，一个开源的实例级成对奖励模型，用于文本到音乐生成，根据文本提示和音频片段预测音乐偏好评分。模型使用公开的人类偏好数据训练，包括竞技场式投票、度量对齐偏好对、众包成对比较和专家美学评分。在留出测试集上得分差值校准良好，可通过简单阈值进行数据过滤，并能泛化至分布外基准。针对训练后新发布的生成器，论文提出锚定校准，一种无需重新训练即可高效恢复一致性的后验Bradley-Terry校准方法。使用该固定的奖励模型，TuneJury在三个下游任务中带来稳定收益：推理时best-of-N选择、DITTO风格潜在优化和专家迭代后训练。模型已在GitHub上开源。

ARXIV2026年6月15日重点

Bayesian Inference and Decision Audits for Public Archives of Frontier AI Evaluations

本文提出一个贝叶斯推断框架，利用LiveBench、Open LLM Leaderboard v2、LMArena、GAIA和tau-bench等公开排行榜档案，对前沿AI评估进行审计。研究发现，仅凭终值性能声明会产生歧义：同一终值快照可与截然不同的前期演化历史兼容，导致接近性能上限的时间相差三倍以上。合成实验表明，考虑候选选择的前沿模型在合成恢复、目标档案预测、偏好迁移和不确定性校准等方面均告失败，审计关卡因此拒绝其较强论断。文中引入的档案-裁决协议能够重建公开评估历史，确定经验证的时序边界，并证伪缺乏支持的前沿论断，为解读排行榜数据提供了严谨方法。

ARXIV2026年6月15日重点

A Multi-Center Benchmark for Abdominal Disease Diagnosis and Report Generation from Non-Contrast CT

该论文提出一个多中心基准，仅利用平扫CT进行多器官腹部疾病诊断和自动化放射报告生成，旨在避免造影剂相关风险。研究收集了来自两个中心的配对平扫-增强CT数据集及相应报告，划分为内部和外部验证队列。在统一评估协议下，对五种当代深度学习架构（涵盖胸部专用、腹部专用和通用多模态模型）进行了基准测试。基于平扫CT的模型在内部队列上平均多器官AUC为69.1%，外部队列为63.1%，表明平扫CT保留了诊断信号。作者公开了数据集、代码和基准，以促进安全、资源高效的无造影腹部影像研究。

ARXIV2026年6月15日

Stable Menus of Public Goods: AI-Enabled Progress

作者以2025年ACM EC会议论文“Stable Menus of Public Goods”中的一个公开问题为试验台，研究不同“AI for EconCS”研究流程的有效性。他们考察了三个问题：在提示中加入人类直觉是否有帮助、自动多轮交互能否改善结果，以及大语言模型（LLM）是否优于一年级博士生。实验表明，加入人类直觉的提示能促使LLM展现出更好的“品味”，而多轮工作流在鼓励“有野心”的解题步骤时是有益的。通过使用资深作者在与博士生合作前撰写的未发表手稿进行比较，发现LLM的效果略逊于该一年级博士生。论文为将LLM融入经济学研究提供了流程建议。