Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

1 条内容

REDDIT LOCALLLAMA2026年6月9日重点

Omi Med STT v1：基于微调 Parakeet 0.6B 的开放权重本地医疗语音识别模型发布

Omi Health 创始人发布 Omi Med STT v1，基于 NVIDIA Parakeet TDT 0.6B v2 微调、专为医疗语音设计的开放权重模型（CC-BY-4.0），并提供本地运行环境，可自动适配不同后端（Apple Silicon 用 MLX，CUDA 用 NeMo，CPU 用 GGUF）。在 1513 个医疗片段（7.18 小时）的独立评测中，医疗词错误率 M-WER 为 2.37%，整体 WER 8.30%，在 A10 上达到 145 倍实时速度，大幅超过基础模型和大多数本地开源方案。该模型 M-WER 仅落后于 VibeVoice-ASR 9B，但 WER 和速度更优，且能与 ElevenLabs Scribe v2（M-WER 1.39%）和 AssemblyAI（1.81%）等云端医疗转录服务抗衡，并具备本地处理的延迟优势。训练使用了 127 小时音频（71% 真实 + 29% 合成），评测集与训练无重合；主要弱项药品名称错误率 4.75% 计划在 v2 中改进。