Harness-1:在状态化搜索框架内通过强化学习训练的200亿参数检索子代理
Harness-1是一个200亿参数的检索子代理,通过有状态框架将搜索决策与簿记分离。它在八个基准测试中平均达到0.730的策划召回率,超越其他开放模型,接近前沿性能。该模型通过监督微调学习接口操作,通过强化学习优化搜索策略,使用有限工具集和工作记忆。权重和框架代码已在Hugging Face和GitHub上公开发布。
Thinkgap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
2 条内容
Harness-1是一个200亿参数的检索子代理,通过有状态框架将搜索决策与簿记分离。它在八个基准测试中平均达到0.730的策划召回率,超越其他开放模型,接近前沿性能。该模型通过监督微调学习接口操作,通过强化学习优化搜索策略,使用有限工具集和工作记忆。权重和框架代码已在Hugging Face和GitHub上公开发布。
Google发布了Colab CLI,这是一个命令行界面,将本地终端连接到远程Colab运行时。它允许开发者和AI代理在不离开终端的情况下在云端GPU和TPU上运行代码。该工具采用Apache 2.0开源许可,并附带了供代理使用的技能文件(COLAB_SKILL.md)。它支持配置T4、A100等GPU以及TPU,并演示了针对Gemma 3 1B模型的微调流程。该CLI专为脚本化、自动化和代理驱动的工作流设计。