Omi Med STT v1:基于微调 Parakeet 0.6B 的开放权重本地医疗语音识别模型发布
Omi Health 创始人发布 Omi Med STT v1,基于 NVIDIA Parakeet TDT 0.6B v2 微调、专为医疗语音设计的开放权重模型(CC-BY-4.0),并提供本地运行环境,可自动适配不同后端(Apple Silicon 用 MLX,CUDA 用 NeMo,CPU 用 GGUF)。在 1513 个医疗片段(7.18 小时)的独立评测中,医疗词错误率 M-WER 为 2.37%,整体 WER 8.30%,在 A10 上达到 145 倍实时速度,大幅超过基础模型和大多数本地开源方案。该模型 M-WER 仅落后于 VibeVoice-ASR 9B,但 WER 和速度更优,且能与 ElevenLabs Scribe v2(M-WER 1.39%)和 AssemblyAI(1.81%)等云端医疗转录服务抗衡,并具备本地处理的延迟优势。训练使用了 127 小时音频(71% 真实 + 29% 合成),评测集与训练无重合;主要弱项药品名称错误率 4.75% 计划在 v2 中改进。