【IBM】Granite 4.0 1B:面向边缘的多语音模组

IBM 发布 Granite 4.0 1B Speech,是一款面向资源受限设备的紧凑型多语种语音模型,支持 ASR 与双向语音翻译。该模型参数仅为前代一半,提升了英語识别准确率、推理速度并新增日语 ASR 与关键词偏置功能,且在 OpenASR 排行榜名列第一。

  • 主要特性
  • 模型定位:紧凑型语音-语言模型,面向企业与边缘设备部署
  • 参数规模:约 1B 参数,是 granite-speech-3.3-2b 的一半
  • 功能:多语种自动语音识别(ASR)与双向语音翻译(AST)
  • 语言覆盖:英语、法语、德语、西班牙语、葡萄牙语、日语
  • 新增项:日语 ASR 支持;关键词列表偏置(提升专有名词与首字母缩略词识别)

  • 性能与评测

  • 在标准英文 ASR 基准上表现竞争力强,Word Error Rate(WER)低且在多个数据集上成绩优秀
  • 尽管体积小,仍能匹配或优于参数更多的模型
  • 最近在 OpenASR 排行榜中排名第一

  • 推理与部署

  • 支持 speculative decoding(提高推理速度)
  • 在 transformers 与 vLLM 中有原生支持
  • 开源许可:Apache 2.0,便于企业集成与二次开发
  • 建议:生产环境可与 Granite Guardian 一起使用以增强风险检测

  • 可获取信息

  • 模型卡提供完整评测结果、架构细节、训练数据与使用示例
  • 官方鼓励社区试用并反馈

这款 1B 参数的模型在保留性能的同时极大降低了部署成本,适合边缘与企业场景。

原文链接

Leave a Comment