MARKTECHPOST··重点
Interfaze 开源了 diffusion-gemma-asr-small,这是首个多语言扩散语音识别模型。该系统仅在冻结的 Whisper-small 编码器和 Google 的 26B DiffusionGemma 骨干上微调了 42M 参数的适配器,使用并行去噪解码器替代自回归生成。通过 CTC 辅助训练突破收敛难题,单个适配器支持英语、德语、法语、西班牙语、印地语和普通话的转录。在 16 个去噪步骤下,LibriSpeech test-clean 上的词错误率(WER)为 6.6%,领先其他扩散 ASR 模型,但落后于自回归 Whisper。转录成本取决于去噪步骤数而非音频长度,约 8 个并行轮次即可收敛。
MARKTECHPOST··重点
Anthropic 于2026年7月1日恢复了Claude Fable 5的全球访问,此前美国出口管制于6月30日解除,该模型自6月12日起曾被暂停。暂停源于亚马逊研究人员发现的一个提示词,可绕过安全防护识别软件漏洞并生成漏洞利用代码,但Anthropic证明该技术在GPT-5.5及早期Claude等多个模型上均可复现。新训练的安全分类器可在超过99%的情况下阻断该特定技术,并将受影响的请求路由至Claude Opus 4.8而非直接拒绝。Anthropic还提出了一套包含四个维度的越狱严重性框架,并计划对最严重级别立即部署缓解措施。暂停期间,智谱AI发布了GLM-5.2,一个总参数7500亿、单次激活400亿的开源权重模型,定价每百万token 1.40/4.40美元,提供了更廉价的替代选项。Fable 5定价为每百万输入token 10美元、输出token 50美元,Pro、Max、Team及部分企业版用户可在7月7日前享受每周上限50%的免费使用额度。
MARKTECHPOST··重点
NVIDIA 以开放权重发布了 Nemotron-Labs-TwoTower,一个离散扩散语言模型。它采用冻结的自回归上下文塔(基于 Nemotron-3-Nano-30B-A3B)和单独训练的去噪塔。该模型保留了 AR 基线 98.7% 的综合基准质量,同时实现了 2.42 倍的生成吞吐量(γ=0.8,块大小 16,2×H100)。去噪塔在约 2.1T 个 token 上训练,远少于骨干的 25T。单一检查点支持三种生成模式:全量掩码扩散、模拟 AR 和标准 AR 解码。双塔架构通过逐层交叉注意力和 Mamba-2 状态播种,在扩散步骤间保持上下文表示的一致性。
MARKTECHPOST··重点
Anthropic 于 2026 年 6 月 30 日发布 Claude Sonnet 5,称其为迄今为止最具智能体能力的 Sonnet 模型。它在所有已发布基准上均超越 Sonnet 4.6,包括 SWE-bench Pro(63.2% 对 58.1%)、OSWorld-Verified(81.2% 对 78.5%)以及带工具的 Humanity’s Last Exam(57.4% 对 46.8%),并在多项评估中接近 Opus 4.8,同时在 GDPval-AA v2 上以 1618 对 1615 略胜一筹。输入/输出价格分别为每百万 token 2 美元/10 美元(2026 年 8 月 31 日前为推广价,之后变为 3/15 美元),低于 Opus 4.8 的 5/25 美元。模型支持努力级别,在低级和中级下性价比最佳,但在 xhigh 级别下成本可能高于 Opus 且质量相近。Sonnet 5 使用了更新的分词器,可能导致 token 数量最多增加 1.35 倍,其网络能力被刻意降低,对精度要求高的任务仍推荐使用 Opus。
MARKTECHPOST··重点
Meta AI 发布了 Brain2Qwerty v2,这是一个非侵入式的脑信号到文本解码器,利用脑磁图(MEG)信号实时重建打字句子,无需手术植入。该系统平均词准确率达 61%(词错误率 39%),远高于此前非侵入式方法的 8% 基准,表现最佳的参与者达到了 78% 的准确率,一半以上的句子错误不超过一个词。该流程结合了卷积编码器、Transformer 和字符级语言模型,并通过微调大语言模型融入语义上下文。准确率随 MEG 记录数据量呈对数线性增长。Meta 已以 CC BY-NC 4.0 许可公开 v1 和 v2 的完整训练代码。此为研究发布,在受控实验室环境中对 9 名健康志愿者进行测试;实际应用受限,需要磁屏蔽室和参与者保持静止。
MARKTECHPOST·
本教程为 Hugging Face 上的 Fable 5 Traces 编码智能体数据集 (Glint-Research/Fable-5-traces) 展示了一套可复现的 Colab 工作流。它手动下载合并的 JSONL 轨迹文件,然后构建纯 Python 工具从智能体输出中提取工具名称、参数和文本载荷。审计环节包括检测和脱敏潜在的 API 密钥、token 等秘密模式,并生成输出类型、工具、来源节点和文本长度的分布图。接着将每条轨迹转换为系统-用户-助手的消息格式,生成安全的无 CoT 对话/SFT 导出(训练/验证/测试划分)。通过纯 NumPy 的 TF-IDF + SVD 投影对上下文嵌入进行可视化,并训练两个纯 Python 朴素贝叶斯分类器,根据上下文预测助手的输出类型和工具名称,同时保存评估指标和关键词。工作流最终输出分析索引、分类器报告和关键词搜索演示,全程不依赖脆弱的科学计算库。