【OPENAI】用Codex构建自我改进税务智能体

OpenAI 与 Thrive 和 Crete 合作，基于 Codex 构建了 Tax AI，使会计师在生产环境中通过实践者反馈、生产追踪和 Codex 驱动的评估循环实现系统自我改进，从而自动化报税流程、提高准确率并加速工作量化迭代。试点处理了数千份报税表，显著提升了效率和正确率，且能力在税季中不断扩展到更复杂的表单和边界情况。

背景
– 合作方：OpenAI、Thrive Holdings、Crete（30+ 会计所网络）。
– 目标：把耗时的 1040/1041 报税工作自动化，并让系统在真实生产中自我改进。

问题
– 真实系统在生产中会出现实验室难以预见的失误，工程师手动定位与修复反馈慢且昂贵。
– 早期修正缺乏上下文，难以区分提取错误、映射问题或工作流噪音。

方法：三要素循环
1) 贴近实践者
– 让会计师驱动学习重点，判断哪些错误值得修复并提供语境性纠正。
2) 让生产生成证据
– 捕获完整路径：来源文件、字段提取与证据链、下游提交及专家修正，形成可量化信号。
3) Codex 驱动的迭代环
– 将结构化生产问题转为 findings 与定制评测（evals），由 Codex 协助调查、建议改动并在针对性与回归评测上验证实现加速迭代。

示例：租赁物业场景
– 挑战：来源材料混乱（手写、邮件、表格），要提取 Schedule E 所需字段并保存溯源证据。
– 流程：实践者发现差异 → 产品把修正转为结构化评测样本 → Codex 将该样本作为“可攀登的山丘”去改进模型/规则。

效果与数据
– 试点处理约 7,000 份报税表；节省约三分之一的准备时间，吞吐量提高约 50%，草稿准确率最高可达 97%。
– 衡量指标：按字段完成率统计（75%、90%、100%），上线六周内 75% 完成率从 25% 提升到 86%，90%/100% 也快速提高。
– 随着系统覆盖更复杂工作（K-1、各类 schedule、跨文件对账），平均每份节省的时间也增长。

如何复用该循环
– 要点：靠近领域专家、在产品中设计可追溯的数据链路、构建针对性评测并用强大的模型代理（如 Codex）来自动化调查与验证。
– 适用场景：其他需实践者知识的复杂文档处理与行业工作流（金融、法律、合规等）。

限制与注意
– 仍需要实践者判断与监督以区分偏好与错误。
– 成功依赖于能捕获详尽的生产追踪与高质量的纠正标注。

将实践者反馈、生产追踪与 Codex 自动化结合，能显著加速面向复杂领域的模型产品化迭代。

原文链接

Leave a Comment Cancel reply