中文LLM审查过滤器因“六月四日”日期阻断代码调试
用户通过litellm使用glm-5.1调试代码时发现,模型因调试日志中包含“6月4日”日期而拒绝处理,抛出的AnthropicException提示检测到潜在不安全或敏感内容。该日志只是历史错误记录,但日期触发了审查过滤器。这表明中文LLM的安全过滤器在遇到与敏感事件关联的日期时,可能意外干扰日常技术工作。
Thinkgap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
3 条内容
用户通过litellm使用glm-5.1调试代码时发现,模型因调试日志中包含“6月4日”日期而拒绝处理,抛出的AnthropicException提示检测到潜在不安全或敏感内容。该日志只是历史错误记录,但日期触发了审查过滤器。这表明中文LLM的安全过滤器在遇到与敏感事件关联的日期时,可能意外干扰日常技术工作。
OpenLumara智能体的开发者搭建了一个公共Discord机器人挑战,以测试其沙盒安全性。尽管最初宣称保护严密,但很快发现了三个不同的漏洞:编程模块存在路径穿越缺陷可导致非授权文件访问;在受限命令后附加一个公开命令即可绕过授权检查;另有一个未公开的利用方式被报告。开发者承认了所有问题,并通过GitHub提交发布了相应修复。
论文《可预测的压缩失败》(ICML 2026)针对证据根基问答中的幻觉问题,将证据顺序敏感性建模为排列分散,推导出期望级解压缩定律(EDFL)。据此定义了一个固定的 ISR=1 回答/弃权门控,无需阈值调参,在预注册的留出审计中达到 0.0–0.7% 的幻觉率,同时弃权约 24%,尝试回答的准确率为 80.5%。今日发布的 ntkMirror 以免训练方式为本地开源模型实现了该门控,采用多证据排列下的顺序边缘验证。融合核能将排列前向计算加速 2.6–10 倍,fp32 下结果逐比特一致。在 Qwen2.5 和 Gemma 等小模型上的新幻觉检测基准显示,SciFact 上 AUROC 最高达 0.96,门控将基于事实的声明比例从 50% 提升至 75–90%,代价是舍弃 10–20% 的有效声明。