论文来源: ARXIV重要度: 4/5
本文提出检索增强的强化微调(RA-RFT),一种教授语言模型通过类比进行推理的后训练框架。它首先通过金标准相关性蒸馏训练一个推理感知的检索器,使上下文按预期推理收益而非语义相似度排序。然后使用检索到的类比演示,在可验证的结果奖励下对策略模型进行强化学习微调,使其学会利用推理轨迹。分析表明,推理感知检索能挖掘互补的解题策略,为不同问题提供独特的推理支架。在AIME 2025基准上,RA-RFT在平均@32准确率上较GRPO为Qwen3-1.7B和Qwen3-4B分别提升了7.1和2.8个百分点,表明推理感知检索是与奖励设计或训练课程正交的改进维度。
论文来源: ARXIV重要度: 4/5
本文提出SkMTEB,首个斯洛伐克语综合性MTEB风格文本嵌入基准,包含31个数据集和7种任务类型。对31个嵌入模型的评测表明,大型指令微调多语言模型表现最佳,而现有的斯洛伐克语NLU模型在嵌入任务上迁移效果差。作者通过词汇裁剪和微调Multilingual E5模型,开发了e5-sk-small(45M参数)和e5-sk-large(365M参数)。尽管模型尺寸减少高达62%,但开源模型性能可媲美商业API,并适用于语义搜索和RAG的本地部署。研究公开了基准、模型、数据及代码,为其他资源匮乏语言提供了可复现的路径。
论文来源: ARXIV重要度: 4/5
该论文提出基准测试FORGE,测量当检索网页被污染时,搜索增强型大语言模型推荐虚假产品的频率。FORGE将225个真实产品、15个类别、5种消费场景中的描述改写为虚假内容,并测试了12个商业和开源模型。单个污染页面导致模型被欺骗推荐虚假产品的概率最高达27%,而污染前三个搜索结果则使该概率升至73.8%。漏洞随产品类别而异,对模型先验知识较弱的产品更易被利用,且推理模型有时会编造社会证明,加剧虚假推荐。论文评估了三种防御措施——怀疑提示、基于模型先验的共识过滤和跨文档证据过滤,但怀疑可能适得其反,过滤则可能抑制真实产品推荐。
论文来源: ARXIV重要度: 3/5
SECDA-DSE框架将大语言模型集成到SECDA生态中,用于FPGA加速器的设计空间探索。它结合了结构化DSE探索器和采用检索增强生成与思维链提示的LLM栈,并通过迭代反馈回路进行优化。论文扩展了评估范围,生成了逐元素向量乘法、二维卷积和矩阵转置三种加速器设计,并在FPGA硬件上实现了端到端执行。结果表明,SECDA-DSE能生成符合SECDA规范的设计,成功在FPGA上合成并执行,捕捉了计算并行性与数据传输之间的特定内核权衡。这展示了LLM引导探索在不同工作负载下调整架构配置的潜力,同时减少了探索时间和对大量人类专业知识的需求。