Harness-1:在状态化搜索框架内通过强化学习训练的200亿参数检索子代理
Harness-1是一个200亿参数的检索子代理,通过有状态框架将搜索决策与簿记分离。它在八个基准测试中平均达到0.730的策划召回率,超越其他开放模型,接近前沿性能。该模型通过监督微调学习接口操作,通过强化学习优化搜索策略,使用有限工具集和工作记忆。权重和框架代码已在Hugging Face和GitHub上公开发布。
Thinkgap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
1 条内容
Harness-1是一个200亿参数的检索子代理,通过有状态框架将搜索决策与簿记分离。它在八个基准测试中平均达到0.730的策划召回率,超越其他开放模型,接近前沿性能。该模型通过监督微调学习接口操作,通过强化学习优化搜索策略,使用有限工具集和工作记忆。权重和框架代码已在Hugging Face和GitHub上公开发布。