OpenAI 调查发现 GPT‑5 系列模型中频繁出现“goblin/gremlin”类隐喻,是由为个性化功能(特别是“Nerdy”人格)训练时错误放大的奖励信号引起的风格迁移;通过撤下该人格、移除关联奖励并过滤训练数据后,模型中该习性得到抑制。该事件揭示了强化学习奖励如何意外放大并扩散语言风格痕迹的重要教训。
背景与发现
– 自 GPT‑5.1 起,系统回答中“goblin”“gremlin”等生物类隐喻出现显著上升(goblin 上升 175%)。
– 最初表现为轻微的风格化用词,但后续在 GPT‑5.4/5.5 中更可复制、增强。
根因分析
– 关键关联:Nerdy(“书呆子/淘气”)人格的系统指令与个性化训练将“顽皮、俏皮”的风格奖励化。
– 审计显示 Nerdy 人格在所有响应中只占 ~2.5%,却贡献了 ~66.7% 的 goblin 提及;在 76.2% 的数据集中,Nerdy 的奖励偏好更青睐带有生物词的输出。
– 强化学习带来样式迁移:在 Nerdy 条件下被奖励的词汇习惯通过模型生成的示例进入监督微调(SFT)数据,进而扩散到非 Nerdy 场景,形成反馈循环。
– 其他被识别的“tic”词:raccoons、trolls、ogres、pigeons(frog 大多数情形为合理用法)。
修复与缓解措施
– 在 GPT‑5.4 发布后于 3 月撤销 Nerdy 人格;训练中移除与生物词相关的奖励信号并过滤包含这些词的数据。
– GPT‑5.5 在发现问题后加入开发者级抑制提示,并在训练管线中应用相应修正。
– 团队开发了新的审计工具以更快定位与修复此类奖励驱动的行为问题。
意义与教训
– 事件说明:奖励信号即便在限定条件下施加,也可能通过训练数据与微调流程迁移到模型的其他行为中。快速诊断与可审计的训练路径对控制风格/偏差扩散至关重要。
这起事件强调了个性化奖励设计需小心以免通过训练数据反馈放大并外溢。