MARKTECHPOST··重点
谷歌云发布了开放知识格式(OKF)v0.1,这是一个开放的、供应商中立的规范,将LLM-wiki模式形式化为带有YAML前置内容的Markdown文件目录。OKF并非服务或平台,无需SDK、运行时或注册中心,一个包可在GitHub上渲染、作为tar包分发或挂载到任意文件系统。每个概念为一个Markdown文件,以路径为标识,前置内容中仅需一个必填字段(type);文件间的交叉链接形成知识图谱,代理可直接导航而无需转换。谷歌同时发布了参考工具:一个BigQuery增强代理、一个静态HTML可视化器和示例包。该格式针对分散的内部知识问题,让代理直接读取和编辑已管理的、版本化的上下文,有别于检索增强生成(RAG)。
MARKTECHPOST·
本教程流式处理了FineWeb sample-10BT的3,000篇文档,无需下载完整的多TB语料。复现了Gopher、C4及自定义质量过滤器,由于数据已预过滤,大部分文档通过检测。使用128个哈希排列和0.7阈值的MinHash去重仅发现极少数近似重复对,证实了每次爬取已去重。通过与存储字段对比验证GPT-2分词数,平均绝对差接近0,高度一致。分析涵盖token分布、语言得分、每字符token数和顶级域名,为大规模语料预处理管线提供了可操作的参考。
MARKTECHPOST··重点
Databricks 发布了 Omnigent,一个 Apache 2.0 开源元编排器,它统一了命令行编程代理(Claude Code、Codex、Pi)和代理 SDK 的接口,使其成为可互换的组件。它在这些代理之上增加了一个共享层,支持组合(通过一行代码切换代理)、上下文控制(如在花费达限时暂停、在安装 npm 包后要求人工批准 git 推送)和协作(通过 URL 共享实时代理会话)。架构包含一个沙盒化运行器(提供统一 API)和策略服务器,会话在终端、Web UI 和移动端同步。操作系统沙盒 Omnibox 仅在批准的代理请求中注入凭据以保护安全。两个内置示例代理展示了编排和多模型模式,交互式概念演示展示了并行代理委托和策略执行。
MARKTECHPOST·
本教程展示了在 Google Colab 中搭建完整的 QwenPaw 智能体工作区。流程包括安装、环境配置和随机密码认证。系统自动从 Colab 密文配置大语言模型提供商(OpenAI、OpenRouter、DashScope、DeepSeek 或 Gemini),并创建自定义 research_brief 技能以及演示知识文件。QwenPaw 控制台在可配置端口启动,通过 Colab 代理和可选的 Cloudflare 隧道暴露访问,随后使用流式聊天 API 客户端测试智能体的响应。最终得到一个可复现、安全且可扩展的本地优先智能体平台,适用于研究与自动化流程。
MARKTECHPOST··重点
2026年6月12日,美国商务部出口管制指令迫使Anthropic对其所有用户关闭两款最强模型Claude Fable 5和Mythos 5,原因是无法实时过滤外籍人士访问。该命令源于另一家公司声称已破解Mythos模型的安全限制,但Anthropic辩称该破解范围狭窄且非通用。Fable 5的安全系统通过分类器将网络安全、生化及知识蒸馏等敏感查询回退至Opus 4.8,触发率低于5%的会话;该模型自6月9日起公开提供服务。其他Claude模型(包括Opus 4.8)未受影响。这似乎是首例政府强制下架公开部署的前沿AI模型的事件。
MARKTECHPOST··重点
月之暗面发布了 Kimi K2.7-Code,一款基于 Modified MIT 许可的开源代码专用代理模型。它采用混合专家架构,总参数 1 万亿,每令牌激活 32B,包含 384 个专家(每步选 8+1 共享),使用 MLA 注意力、SwiGLU 前馈网络和一个 400M 参数的 MoonViT 视觉编码器。模型支持 256K 上下文窗口,原生 INT4 量化,强制开启思考模式并固定采样参数(温度 1.0、top_p 0.95、n 1)。公司公布的基准测试显示,K2.7-Code 在 Kimi Code Bench v2 上得分为 62.0(相对 K2.6 提升 21.8%),在 MCP Mark Verified 上得分为 81.1(超过 Claude Opus 4.8 的 76.4),推理 token 消耗比 K2.6 减少约 30%,在代理工作流中降低成本和延迟。模型权重约 595 GB,已发布在 Hugging Face,可通过 vLLM、SGLang 或 KTransformers 自托管;API 使用 kimi-k2.7-code 模型名,兼容 OpenAI 接口。