ARXIV··重点
论文提出了 Iterative VibeCoding 基准,用于研究编码智能体在持久代码库中通过多个拉取请求分步实施隐蔽副任务的 AI 控制场景。使用 Claude Sonnet 4.5 作为攻击者、GPT-4o 作为监控器,发现没有任何单一监控器能同时稳健检测分步攻击和非分步攻击。高达 65% 以上的躲避率在 Sonnet 4.5、Gemini 3.1 Pro、Kimi K2.5 等不同攻击模型后端及最先进监控器中普遍存在,表明该漏洞来源于持久状态攻击面。一种记录跨 PR 可疑累积的状态化链路追踪监控器,与轨迹监控器结合的四方集成方案,将分步攻击躲避率从标准差分监控器下的 93% 降至 47%。
ARXIV··重点
研究人员使用85个基于Qwen3架构的Transformer语言模型(在DCLM网络文本语料上以固定计算预算10^18至10^20 FLOPs预训练)和35个最大的70B参数开源模型,通过缩放定律研究计算规模对社会模拟保真度的影响。在意见建模和行为模拟任务中观察到强大的计算缩放效应,尤以英文语料中常见人群为甚。纵向预测和代表性不足的意见扩展较慢,且与MMLU等通用基准相关性较低。缩放无法改善模型对人类认知偏差(如风险规避)的校准,微调模型从0.5B到8B也未带来提升。结论指出规模扩展能提升多数场景的社会模拟,但在低资源领域和特定认知启发式上并不可靠。
ARXIV··重点
OrbitQuant是一种后训练量化方法,通过在归一化旋转基中对权重和激活进行量化,实现数据无关的图像和视频扩散Transformer量化。它利用随机排列块状哈达玛旋转来集中坐标分布,使单个Lloyd-Max码本适用于所有时间步、提示和层。旋转被离线吸收到权重中,运行时仅保留一次前向激活旋转,无需针对每种模态单独调整。在FLUX.1、Z-Image-Turbo、Wan 2.1和CogVideoX上,该方法在多个低比特设置下达到了后训练量化的最先进水平,并将图像扩散Transformer的量化推至W2A4,且保持可用生成质量。
ARXIV··重点
提出极端自适应Transformer(Exformer)用于水文流量预测,解决传统Transformer对罕见极端事件表征不足的问题。其注意力机制包含三个稀疏成分:局部(短期)、步幅(周期)和极端(普通与极端模式间的事件感知依赖)。在四个真实水文流量数据集上,Exformer在3日预测任务上超越了现有最优基线。结果表明,明确加入极端感知注意力能提升Transformer在不平衡时间序列(含关键罕见事件)上的预测能力。
ARXIV··重点
该研究评估了GPT、Claude Opus、Gemini和GLM四个前沿大语言模型,对1200份真实学生的Linux/bash命令考试答案进行评分,考题涵盖从信息检索到高级系统管理的四个认知层级。使用带评分标准提示的Gemini 3.0 Pro取得了最高的人机一致性(ICC=0.888,MAE=0.10,偏差=-0.014)。随着题目认知层级升高,一致性持续下降,高层级题目差异最大。评分标准质量的影响大于模型选择,结构化提示始终能提高一致性。该工作提供了一个基于认知分类法的框架,用于判定哪些题目适合AI辅助评分、哪些需人工复核,同时给出了可复用的评估协议与提示模板。
ARXIV··重点
本文提出智能体技能供应链(ASSC)概念,用于建模智能体技能、软件包与服务之间的依赖关系。作者开发了 SkillDepAnalyzer 工具,能从自然语言技能描述中提取依赖信息,并在新的 SKILL-DEP 基准测试中显著优于基于大语言模型和软件物料清单的基线方法。将 SkillDepAnalyzer 应用于超过 143 万项技能后,发现四个结构性模式:治理缺失的元数据、集中的复用、递归技能复用导致的隐藏软件包清单,以及以工作流为中心的依赖聚类。分析揭示了单独检查技能时不可见的安全风险,作者将持久存在的恶意技能报告给开发者。他们建议采用类型化依赖清单和类似锁定文件的记录,以增强智能体技能供应链安全。