里约热内卢市发布基于Qwen的397B开源语言模型“Rio 3.5 Open”
里约热内卢市发布了一个名为Rio 3.5 Open的大语言模型,参数规模达397B。该模型基于Qwen(具体为Qwen 7/2变体)进行后训练,并集成了SwiGLU激活和旋转位置嵌入。模型以开放形式提供,是公共部门贡献大规模开源LLM的罕见案例。
Thinkgap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
8 条内容
里约热内卢市发布了一个名为Rio 3.5 Open的大语言模型,参数规模达397B。该模型基于Qwen(具体为Qwen 7/2变体)进行后训练,并集成了SwiGLU激活和旋转位置嵌入。模型以开放形式提供,是公共部门贡献大规模开源LLM的罕见案例。
刷屏研究测试了医疗AI产品UpToDate和OpenEvidence(非底层模型),在MedQA、HealthBench等有限基准上表现不如前沿通用模型。作者指出这并不证明领域专用模型天生劣势;其自有综合基准显示将前沿模型针对医学微调可获得显著提升。当前领域专用模型常因基于较旧或较弱的开源模型而落后,并非专精失效。例如百川智能的Baichuan-M4声称医疗专用模型性能超越前沿模型。关键结论是:若能快速将强大的前沿模型适配为医学工具,将诞生更优的领域专用系统,但开源基座模型进步和适配速度仍是瓶颈。
轨迹实验室宣布他们使用一个开放模型,在不到24小时的后训练中实现了前沿模型性能。训练算力由Together Compute和NVIDIA提供。社交媒体公告中未披露具体模型名称、基准指标或数据集细节。该公告突显了开放模型与高效训练基础设施结合的潜力。
在 NVIDIA AI 播客中,Mistral AI 首席技术官兼联合创始人 Timothée Lacroix 讨论了公司的开放模型理念、Forge 定制化框架,以及通过 Nemotron 联盟与 NVIDIA 的合作。对话聚焦于如何将开放模型引入企业。Lacroix 阐述了 Mistral 在开放性与模型适配上的做法。Nemotron 联盟是一项旨在提升 AI 能力的合作关系。
Hugging Face上的每周顶尖AI论文汇总中,重点介绍了一项关于扩展参数高效微调(PEFT)以实现百万个个性化模型和万亿参数的研究。该研究探索了如何在不进行完全微调的情况下,高效地将大型模型适配到个人用户。这种方法可能为大规模高度个性化的AI系统铺平道路。该论文是6月1日至7日期间一系列著名AI出版物的一部分。
一名用户在X上表示,对Hugging Face模型进行后续训练并推送回Hub共享的过程令人鼓舞。Hugging Face官方账号转发了这条评论,凸显用户对该平台工作流程的认可。这一互动表明,通过Hugging Face生态进行模型微调与再发布已变得非常顺畅。