MARKTECHPOST··重点
月之暗面发布了 Kimi K2.7-Code,一款基于 Modified MIT 许可的开源代码专用代理模型。它采用混合专家架构,总参数 1 万亿,每令牌激活 32B,包含 384 个专家(每步选 8+1 共享),使用 MLA 注意力、SwiGLU 前馈网络和一个 400M 参数的 MoonViT 视觉编码器。模型支持 256K 上下文窗口,原生 INT4 量化,强制开启思考模式并固定采样参数(温度 1.0、top_p 0.95、n 1)。公司公布的基准测试显示,K2.7-Code 在 Kimi Code Bench v2 上得分为 62.0(相对 K2.6 提升 21.8%),在 MCP Mark Verified 上得分为 81.1(超过 Claude Opus 4.8 的 76.4),推理 token 消耗比 K2.6 减少约 30%,在代理工作流中降低成本和延迟。模型权重约 595 GB,已发布在 Hugging Face,可通过 vLLM、SGLang 或 KTransformers 自托管;API 使用 kimi-k2.7-code 模型名,兼容 OpenAI 接口。
MARKTECHPOST·
本教程完整实现了微软SkillOpt的插桩提示优化流程。环境配置为兼容OpenAI的模型访问,优化器使用GPT-4o,目标模型使用GPT-4o-mini。在SearchQA验证集上先进行了基线评测,然后运行优化循环,包括rollout、reflection、aggregation、selection、slow update和meta-skill等步骤。训练过程通过准确率曲线、编辑预算调度和累计令牌用量进行可视化。最后,将优化后的最佳技能在未见过数据上评测,硬匹配准确率相比种子基线有可量化的提升。
MARKTECHPOST··重点
哈佛大学与Perplexity联合研究分析了来自Perplexity Search和AI代理Perplexity Computer在90天内的一万对匹配会话。Computer每次会话自主工作26分钟(中位数9分钟),是Search的33秒(中位数14秒)的48倍。在匹配任务上,Computer加人类相比Search加人类将预估时间降低87%,成本降低94%,且其有意义的不满意率仅为1.3%(Search为2.9%)。Computer的查询还拓展了工作范围:跨职业查询占比升至59%(Search为50%),76%的查询需高阶认知(Search为55%),并且23%的查询解决了从未提交给Search的任务描述。
MARKTECHPOST··重点
谷歌研究团队推出了一款集成在Gemini企业代理平台中的新型Agentic RAG框架。该框架包含一个“充分上下文代理”,能够反复迭代搜索,直到收集到完整的上下文后再生成响应。这种多代理架构将复杂查询分解为子任务,与标准RAG相比,在事实性数据集上准确率最高提升34%。在FramesQA基准测试中,该系统在跨语料检索中达到90.1%的准确率,同时保持低延迟。该功能名为“跨语料检索”,现已进入公开预览阶段。
MARKTECHPOST·
本教程演示了如何使用GEPA框架对算术应用题进行反思性提示优化。内容包括建立确定性的基准测试、定义带有评分和反馈的结构化评估器,以及使用反思模型进化多组件提示(指令和格式规则)。过程从一个弱的初始提示开始,基于可操作的反馈迭代改进。优化后的提示在保留验证集上进行比较,以评估泛化能力。教程提供了完整的工作流程和代码,突出了从手动试错到自动提示进化的转变。