AI 信息流

MARKTECHPOST2026年7月3日重点

Interfaze 发布 diffusion-gemma-asr-small：基于 DiffusionGemma 并行去噪解码器的开源扩散语音识别模型，支持六种语言

Interfaze 开源了 diffusion-gemma-asr-small，这是首个多语言扩散语音识别模型。该系统仅在冻结的 Whisper-small 编码器和 Google 的 26B DiffusionGemma 骨干上微调了 42M 参数的适配器，使用并行去噪解码器替代自回归生成。通过 CTC 辅助训练突破收敛难题，单个适配器支持英语、德语、法语、西班牙语、印地语和普通话的转录。在 16 个去噪步骤下，LibriSpeech test-clean 上的词错误率（WER）为 6.6%，领先其他扩散 ASR 模型，但落后于自回归 Whisper。转录成本取决于去噪步骤数而非音频长度，约 8 个并行轮次即可收敛。

MARKTECHPOST2026年7月2日重点

Anthropic 于7月1日重新部署Claude Fable 5，美国出口管制解除后新增网络安全分类器

Anthropic 于2026年7月1日恢复了Claude Fable 5的全球访问，此前美国出口管制于6月30日解除，该模型自6月12日起曾被暂停。暂停源于亚马逊研究人员发现的一个提示词，可绕过安全防护识别软件漏洞并生成漏洞利用代码，但Anthropic证明该技术在GPT-5.5及早期Claude等多个模型上均可复现。新训练的安全分类器可在超过99%的情况下阻断该特定技术，并将受影响的请求路由至Claude Opus 4.8而非直接拒绝。Anthropic还提出了一套包含四个维度的越狱严重性框架，并计划对最严重级别立即部署缓解措施。暂停期间，智谱AI发布了GLM-5.2，一个总参数7500亿、单次激活400亿的开源权重模型，定价每百万token 1.40/4.40美元，提供了更廉价的替代选项。Fable 5定价为每百万输入token 10美元、输出token 50美元，Pro、Max、Team及部分企业版用户可在7月7日前享受每周上限50%的免费使用额度。

MARKTECHPOST2026年7月1日重点

NVIDIA 发布 Nemotron-Labs-TwoTower：基于冻结自回归 Nemotron-3-Nano-30B-A3B 骨干的开源扩散语言模型

NVIDIA 以开放权重发布了 Nemotron-Labs-TwoTower，一个离散扩散语言模型。它采用冻结的自回归上下文塔（基于 Nemotron-3-Nano-30B-A3B）和单独训练的去噪塔。该模型保留了 AR 基线 98.7% 的综合基准质量，同时实现了 2.42 倍的生成吞吐量（γ=0.8，块大小 16，2×H100）。去噪塔在约 2.1T 个 token 上训练，远少于骨干的 25T。单一检查点支持三种生成模式：全量掩码扩散、模拟 AR 和标准 AR 解码。双塔架构通过逐层交叉注意力和 Mamba-2 状态播种，在扩散步骤间保持上下文表示的一致性。

MARKTECHPOST2026年7月1日重点

Anthropic 发布 Claude Sonnet 5，缩小与 Opus 4.8 的智能体差距

Anthropic 于 2026 年 6 月 30 日发布 Claude Sonnet 5，称其为迄今为止最具智能体能力的 Sonnet 模型。它在所有已发布基准上均超越 Sonnet 4.6，包括 SWE-bench Pro（63.2% 对 58.1%）、OSWorld-Verified（81.2% 对 78.5%）以及带工具的 Humanity’s Last Exam（57.4% 对 46.8%），并在多项评估中接近 Opus 4.8，同时在 GDPval-AA v2 上以 1618 对 1615 略胜一筹。输入/输出价格分别为每百万 token 2 美元/10 美元（2026 年 8 月 31 日前为推广价，之后变为 3/15 美元），低于 Opus 4.8 的 5/25 美元。模型支持努力级别，在低级和中级下性价比最佳，但在 xhigh 级别下成本可能高于 Opus 且质量相近。Sonnet 5 使用了更新的分词器，可能导致 token 数量最多增加 1.35 倍，其网络能力被刻意降低，对精度要求高的任务仍推荐使用 Opus。

MARKTECHPOST2026年6月30日重点

Meta AI 发布 Brain2Qwerty v2：通过非侵入式 MEG 脑磁图实时解码打字句子的流程，平均词准确率达 61%

Meta AI 发布了 Brain2Qwerty v2，这是一个非侵入式的脑信号到文本解码器，利用脑磁图（MEG）信号实时重建打字句子，无需手术植入。该系统平均词准确率达 61%（词错误率 39%），远高于此前非侵入式方法的 8% 基准，表现最佳的参与者达到了 78% 的准确率，一半以上的句子错误不超过一个词。该流程结合了卷积编码器、Transformer 和字符级语言模型，并通过微调大语言模型融入语义上下文。准确率随 MEG 记录数据量呈对数线性增长。Meta 已以 CC BY-NC 4.0 许可公开 v1 和 v2 的完整训练代码。此为研究发布，在受控实验室环境中对 9 名健康志愿者进行测试；实际应用受限，需要磁屏蔽室和参与者保持静止。

MARKTECHPOST2026年6月28日

教程：为 Fable 5 Traces 数据集构建稳定的 Colab 工作流——解析工具调用、审计数据并训练朴素贝叶斯基线

本教程为 Hugging Face 上的 Fable 5 Traces 编码智能体数据集 (Glint-Research/Fable-5-traces) 展示了一套可复现的 Colab 工作流。它手动下载合并的 JSONL 轨迹文件，然后构建纯 Python 工具从智能体输出中提取工具名称、参数和文本载荷。审计环节包括检测和脱敏潜在的 API 密钥、token 等秘密模式，并生成输出类型、工具、来源节点和文本长度的分布图。接着将每条轨迹转换为系统-用户-助手的消息格式，生成安全的无 CoT 对话/SFT 导出（训练/验证/测试划分）。通过纯 NumPy 的 TF-IDF + SVD 投影对上下文嵌入进行可视化，并训练两个纯 Python 朴素贝叶斯分类器，根据上下文预测助手的输出类型和工具名称，同时保存评估指标和关键词。工作流最终输出分析索引、分类器报告和关键词搜索演示，全程不依赖脆弱的科学计算库。