网络安全专家称Anthropic的Fable模型在白宫越狱测试中行为正常
Luta Security CEO Katie Moussouris在审阅白宫关于Fable越狱的报告后指出,该模型拒绝了“检查代码安全问题”的提示,但在要求“修复此代码”并经过手动操作后遵从了指令。她评估此行为是模型在网络安全防御任务中“按预期工作”。Moussouris未因此收取Anthropic报酬。通过《大西洋月刊》记者Matteo Wong的报道,该观点反驳了白宫将此事件定性为安全故障的结论。
Thinkgap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
2 条内容
Luta Security CEO Katie Moussouris在审阅白宫关于Fable越狱的报告后指出,该模型拒绝了“检查代码安全问题”的提示,但在要求“修复此代码”并经过手动操作后遵从了指令。她评估此行为是模型在网络安全防御任务中“按预期工作”。Moussouris未因此收取Anthropic报酬。通过《大西洋月刊》记者Matteo Wong的报道,该观点反驳了白宫将此事件定性为安全故障的结论。
微软发布了两款新的文本LLM:MAI-Thinking-1(推理模型,总参数1万亿,活跃参数350亿)和MAI-Code-1-Flash(1370亿总参数,50亿活跃,专为GitHub Copilot编码设计)。这些模型使用了大规模网络爬虫数据,包括Common Crawl和专有爬虫,并经过过滤以去除AI生成内容和成人内容。微软声称MAI-Thinking-1在盲测中优于Anthropic的Sonnet 4.6。作者最初错误报告了参数数量,随后进行了更正。这些模型目前仅对早期合作伙伴开放。