OpenAI 与 Thrive 和 Crete 合作,基于 Codex 构建了 Tax AI,使会计师在生产环境中通过实践者反馈、生产追踪和 Codex 驱动的评估循环实现系统自我改进,从而自动化报税流程、提高准确率并加速工作量化迭代。试点处理了数千份报税表,显著提升了效率和正确率,且能力在税季中不断扩展到更复杂的表单和边界情况。
背景
– 合作方:OpenAI、Thrive Holdings、Crete(30+ 会计所网络)。
– 目标:把耗时的 1040/1041 报税工作自动化,并让系统在真实生产中自我改进。
问题
– 真实系统在生产中会出现实验室难以预见的失误,工程师手动定位与修复反馈慢且昂贵。
– 早期修正缺乏上下文,难以区分提取错误、映射问题或工作流噪音。
方法:三要素循环
1) 贴近实践者
– 让会计师驱动学习重点,判断哪些错误值得修复并提供语境性纠正。
2) 让生产生成证据
– 捕获完整路径:来源文件、字段提取与证据链、下游提交及专家修正,形成可量化信号。
3) Codex 驱动的迭代环
– 将结构化生产问题转为 findings 与定制评测(evals),由 Codex 协助调查、建议改动并在针对性与回归评测上验证实现加速迭代。
示例:租赁物业场景
– 挑战:来源材料混乱(手写、邮件、表格),要提取 Schedule E 所需字段并保存溯源证据。
– 流程:实践者发现差异 → 产品把修正转为结构化评测样本 → Codex 将该样本作为“可攀登的山丘”去改进模型/规则。
效果与数据
– 试点处理约 7,000 份报税表;节省约三分之一的准备时间,吞吐量提高约 50%,草稿准确率最高可达 97%。
– 衡量指标:按字段完成率统计(75%、90%、100%),上线六周内 75% 完成率从 25% 提升到 86%,90%/100% 也快速提高。
– 随着系统覆盖更复杂工作(K-1、各类 schedule、跨文件对账),平均每份节省的时间也增长。
如何复用该循环
– 要点:靠近领域专家、在产品中设计可追溯的数据链路、构建针对性评测并用强大的模型代理(如 Codex)来自动化调查与验证。
– 适用场景:其他需实践者知识的复杂文档处理与行业工作流(金融、法律、合规等)。
限制与注意
– 仍需要实践者判断与监督以区分偏好与错误。
– 成功依赖于能捕获详尽的生产追踪与高质量的纠正标注。
将实践者反馈、生产追踪与 Codex 自动化结合,能显著加速面向复杂领域的模型产品化迭代。