Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

5 条内容

MARKTECHPOST2026年6月13日重点

月之暗面发布 Kimi K2.7-Code：开源 1 万亿参数编码模型，256K 上下文，Kimi Code Bench v2 相对 K2.6 提升 21.8%

月之暗面发布了 Kimi K2.7-Code，一款基于 Modified MIT 许可的开源代码专用代理模型。它采用混合专家架构，总参数 1 万亿，每令牌激活 32B，包含 384 个专家（每步选 8+1 共享），使用 MLA 注意力、SwiGLU 前馈网络和一个 400M 参数的 MoonViT 视觉编码器。模型支持 256K 上下文窗口，原生 INT4 量化，强制开启思考模式并固定采样参数（温度 1.0、top_p 0.95、n 1）。公司公布的基准测试显示，K2.7-Code 在 Kimi Code Bench v2 上得分为 62.0（相对 K2.6 提升 21.8%），在 MCP Mark Verified 上得分为 81.1（超过 Claude Opus 4.8 的 76.4），推理 token 消耗比 K2.6 减少约 30%，在代理工作流中降低成本和延迟。模型权重约 595 GB，已发布在 Hugging Face，可通过 vLLM、SGLang 或 KTransformers 自托管；API 使用 kimi-k2.7-code 模型名，兼容 OpenAI 接口。

MARKTECHPOST2026年6月10日

教程：使用微软SkillOpt进行SearchQA提示优化，含基线对比与技能演化分析

本教程完整实现了微软SkillOpt的插桩提示优化流程。环境配置为兼容OpenAI的模型访问，优化器使用GPT-4o，目标模型使用GPT-4o-mini。在SearchQA验证集上先进行了基线评测，然后运行优化循环，包括rollout、reflection、aggregation、selection、slow update和meta-skill等步骤。训练过程通过准确率曲线、编辑预算调度和累计令牌用量进行可视化。最后，将优化后的最佳技能在未见过数据上评测，硬匹配准确率相比种子基线有可量化的提升。

MARKTECHPOST2026年6月9日重点

哈佛与Perplexity最新研究：AI代理平均每次会话自主工作26分钟，而搜索仅33秒

哈佛大学与Perplexity联合研究分析了来自Perplexity Search和AI代理Perplexity Computer在90天内的一万对匹配会话。Computer每次会话自主工作26分钟（中位数9分钟），是Search的33秒（中位数14秒）的48倍。在匹配任务上，Computer加人类相比Search加人类将预估时间降低87%，成本降低94%，且其有意义的不满意率仅为1.3%（Search为2.9%）。Computer的查询还拓展了工作范围：跨职业查询占比升至59%（Search为50%），76%的查询需高阶认知（Search为55%），并且23%的查询解决了从未提交给Search的任务描述。

MARKTECHPOST2026年6月8日重点

谷歌研究在Gemini企业代理平台中添加Agentic RAG，并提供用于多跳查询的充分上下文代理

谷歌研究团队推出了一款集成在Gemini企业代理平台中的新型Agentic RAG框架。该框架包含一个“充分上下文代理”，能够反复迭代搜索，直到收集到完整的上下文后再生成响应。这种多代理架构将复杂查询分解为子任务，与标准RAG相比，在事实性数据集上准确率最高提升34%。在FramesQA基准测试中，该系统在跨语料检索中达到90.1%的准确率，同时保持低延迟。该功能名为“跨语料检索”，现已进入公开预览阶段。

MARKTECHPOST2026年6月7日

使用GEPA构建反思性提示优化：多组件提示、结构化反馈和保留验证

本教程演示了如何使用GEPA框架对算术应用题进行反思性提示优化。内容包括建立确定性的基准测试、定义带有评分和反馈的结构化评估器，以及使用反思模型进化多组件提示（指令和格式规则）。过程从一个弱的初始提示开始，基于可操作的反馈迭代改进。优化后的提示在保留验证集上进行比较，以评估泛化能力。教程提供了完整的工作流程和代码，突出了从手动试错到自动提示进化的转变。