Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

3 条内容

REDDIT LOCALLLAMA2026年6月11日

中文LLM审查过滤器因“六月四日”日期阻断代码调试

用户通过litellm使用glm-5.1调试代码时发现，模型因调试日志中包含“6月4日”日期而拒绝处理，抛出的AnthropicException提示检测到潜在不安全或敏感内容。该日志只是历史错误记录，但日期触发了审查过滤器。这表明中文LLM的安全过滤器在遇到与敏感事件关联的日期时，可能意外干扰日常技术工作。

REDDIT LOCALLLAMA2026年6月10日

OpenLumara智能体安全挑战发现多个沙盒绕过漏洞

OpenLumara智能体的开发者搭建了一个公共Discord机器人挑战，以测试其沙盒安全性。尽管最初宣称保护严密，但很快发现了三个不同的漏洞：编程模块存在路径穿越缺陷可导致非授权文件访问；在受限命令后附加一个公开命令即可绕过授权检查；另有一个未公开的利用方式被报告。开发者承认了所有问题，并通过GitHub提交发布了相应修复。

REDDIT LOCALLLAMA2026年6月9日重点

ICML 2026 论文提出可预测幻觉的弃权门控机制，并发布面向开源模型的免训练工具 ntkMirror

论文《可预测的压缩失败》（ICML 2026）针对证据根基问答中的幻觉问题，将证据顺序敏感性建模为排列分散，推导出期望级解压缩定律（EDFL）。据此定义了一个固定的 ISR=1 回答/弃权门控，无需阈值调参，在预注册的留出审计中达到 0.0–0.7% 的幻觉率，同时弃权约 24%，尝试回答的准确率为 80.5%。今日发布的 ntkMirror 以免训练方式为本地开源模型实现了该门控，采用多证据排列下的顺序边缘验证。融合核能将排列前向计算加速 2.6–10 倍，fp32 下结果逐比特一致。在 Qwen2.5 和 Gemma 等小模型上的新幻觉检测基准显示，SciFact 上 AUROC 最高达 0.96，门控将基于事实的声明比例从 50% 提升至 75–90%，代价是舍弃 10–20% 的有效声明。