Mistral Voxtral Mini 4B 发布:实时流式 ASR
Mistral 发布 Voxtral Mini 4B Realtime,4B 参数流式语音识别模型,延迟低于 500ms,准确率可比离线模型,vLLM 首日支持
查看原文Mistral 推出 4B 参数流式 ASR 模型 Voxtral Mini 4B Realtime,延迟压到 500ms 以内、准确率可比肩离线大模型,首日即获 vLLM 支持。这标志着端侧/边缘部署实时语音识别进入实用阶段,小模型不再是'凑合用'而是'够专业'。
产品是什么
Voxtral Mini 4B Realtime 是 Mistral 发布的专注于实时流式语音识别(Streaming ASR)的轻量模型,参数规模仅 4B。相比传统的批处理 ASR,它设计为边接收音频流边输出识别结果,而非等待整段录音结束后再处理。这是语音识别从「录音后转写」走向「实时字幕 / 对话助手」场景的关键能力。
核心技术指标
官方披露三个核心卖点:
- 延迟 < 500ms:从音频输入到首个 token 输出的全链路延迟控制在 500 毫秒以内,这对于实时交互场景(如 AI 助手、实时字幕、会议转录)是硬门槛。
- 准确率可比离线模型:暗示其流式输出质量并未因低延迟而大幅牺牲字准确率(WER),但具体 WER 数据需等社区 benchmark。
- vLLM 首日支持:模型发布当天即进入 vLLM 框架的推理支持列表,这对想要本地部署或自建服务的开发者是重大利好——无需等待第三方集成周期。
解决什么问题
实时 ASR 传统上需要 大模型 + 低延迟推理引擎 的组合。Whisper Larg
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
- vLLM Project 官宣 Voxtral Mini 4B Realtime 支持 · 2026-02-04
- Mistral Voxtral 系列模型官方文档 · 2026-02-04