IBM 发布 Granite 4.0 1B Speech,是一款面向资源受限设备的紧凑型多语种语音模型,支持 ASR 与双向语音翻译。该模型参数仅为前代一半,提升了英語识别准确率、推理速度并新增日语 ASR 与关键词偏置功能,且在 OpenASR 排行榜名列第一。
- 主要特性
- 模型定位:紧凑型语音-语言模型,面向企业与边缘设备部署
- 参数规模:约 1B 参数,是 granite-speech-3.3-2b 的一半
- 功能:多语种自动语音识别(ASR)与双向语音翻译(AST)
- 语言覆盖:英语、法语、德语、西班牙语、葡萄牙语、日语
-
新增项:日语 ASR 支持;关键词列表偏置(提升专有名词与首字母缩略词识别)
-
性能与评测
- 在标准英文 ASR 基准上表现竞争力强,Word Error Rate(WER)低且在多个数据集上成绩优秀
- 尽管体积小,仍能匹配或优于参数更多的模型
-
最近在 OpenASR 排行榜中排名第一
-
推理与部署
- 支持 speculative decoding(提高推理速度)
- 在 transformers 与 vLLM 中有原生支持
- 开源许可:Apache 2.0,便于企业集成与二次开发
-
建议:生产环境可与 Granite Guardian 一起使用以增强风险检测
-
可获取信息
- 模型卡提供完整评测结果、架构细节、训练数据与使用示例
- 官方鼓励社区试用并反馈
这款 1B 参数的模型在保留性能的同时极大降低了部署成本,适合边缘与企业场景。