谷歌翻译庆祝 20 周年,服务覆盖近 250 种语言、每月逾 10 亿用户和约 1 万亿字的翻译量;此次更新引入了 Android 端“发音练习”功能,并持续在背后运用 Gemini 模型、TPU 与神经网络技术提升实时语音翻译与对话体验。文章回顾了翻译从统计方法到深度学习的演进,以及 Live Translate、耳机实时翻译和对濒危语言的支持等实用场景。
概览
- 成立背景:2006 年起步为 AI 试验,历经统计机器学习到 2016 年的神经网络转型,现基于 Gemini 模型与 TPU 持续改进。
- 规模与覆盖:支持近 250 种语言、超过 6 万种语言对,覆盖约 95% 的世界人口;每月有超过 10 亿用户、约 1 万亿字被翻译。
本次重点更新
- 发音练习(Pronunciation practice)
- 平台:Translate 应用(Android)
- 功能:AI 实时分析用户朗读并给出发音反馈,帮助在真实对话前校正发音。
- 可用性:目前在美国和印度上线,支持英语、西班牙语和印地语。
已有与持续强化的能力
- 实时对话与耳机体验
- Live Translate:耳机可用作个人翻译,保留说话者语气与节奏,优化旅行与导览场景。
-
Gemini 驱动的音频到音频模型:推动更自然的实时语音双向交流。
-
技术演进与研究贡献
-
从基于词频的大规模语言模型到序列到序列(Seq2Seq)与深度学习,Google Translate 曾带动 Google 在机器学习与 TPU 硬件上的长期投入。
-
社会与语言多样性
- 支持濒危与土著语言,旨在让更多声音被听见并促进跨语言连接。
适用场景与建议
- 语言学习者:用发音练习在真实交流前打磨口语。
- 旅行与即时沟通:耳机实时翻译与 Live Translate 提供低延迟沟通支持。
- 开发者/研究者:关注 Gemini 模型与 TPU 在语音翻译与多语言模型上的进展。
发音练习是一次面向用户体验的实用升级,但更核心的价值仍在于背后不断演进的语音与多语言模型。