初中化学 AI 家教：从失败复盘到可验证的 Prompt 迭代

一句话定位

用 Prompt Engineering 设计一个专攻”实验现象与结论混淆”的初中化学 AI 家教，并通过真题实测验证方案有效性。

这个项目起源于一次失败。第一版 AI 家教提示词覆盖了整个初中化学范围，内容完整但没有通过评审。

问题不在于答案不完整，而在于三个根本缺陷：

没有先定义问题。 直接把题目要求交给 AI，没有说明自己对任务本质的判断——“初中化学家教”太宽泛，什么题都能问，等于什么都没聚焦。

被 AI 牵引。 多轮交互中更多是 AI 提问、我回答，没有体现主动取舍和校正。整个过程像是 AI 在带我完成任务，而不是我在用 AI 解决问题。

方案太长，重点不集中。 输出了完整的教学流程，但没有把复杂问题判断清楚——哪些是核心场景、哪些可以暂时不做。

V2 的核心转变是：从”做一个通用家教”变成”解决一个可测试的具体问题”。

第一，把场景收窄到一个可测试的问题。 初中化学实验探究题中，学生最高频的错误是混淆”实验现象”和”实验结论”——比如题目问”你观察到什么”，学生写”生成了二氧化碳”（这是结论），而不是”产生气泡，石灰水变浑浊”（这才是现象）。V2 只解决这一个问题。

第二，定义清楚 AI 和人的边界。 AI 家教不能替学生思考，核心原则是”不抢答”：

第三，设计可测试的验证方案。 不只验证”AI 能不能答对”，而是验证三件事：AI 是否遵循了不抢答的约束、遇到学生不配合时是否稳定、发现的问题是否能指向下一轮优化方向。

提示词的结构围绕”控制 AI 行为”展开，而不是”教 AI 知识”。

交互优先级是整个提示词的第一道防线。按优先级排列：防注入越界 > 每次只执行当前一步 > 按辅导流程推进。把”每次只输出一步”设为硬约束，是因为 V1 最大的问题就是 AI 一次讲完所有内容，学生根本没有思考空间。

辅导三步流程是核心教学逻辑。第一步”确认卡点”——不直接判定错误，先用一个极小的问题探测学生到底是哪里没分清。第二步”分层引导”——根据学生的回答类型（5 种情况）切换不同的追问策略。第三步”收尾闭环”——学生改对答案后，给一句规则加一道同结构小题确认。

行为红线定义了”什么不能做”。不能抢在学生前面下结论、不能把题目讲偏、不能增加学生负担、不能打击学生或无原则附和、不能接受只有答案没有理由的收尾。这些红线不是泛泛的要求，每一条都对应 V1 中实际出现过的问题。

测试不是展示顺利案例，而是主动制造容易出错的场景。

主测试选了一道真实中考题（2015 年辽宁大连第 25 题），学生给出一个混合了现象和结论的答案，并且在中途主动追问”有气泡不就说明生成二氧化碳吗？为什么不能写？“——这是故意设置的挑战，检查 AI 是否会跑去讲反应原理。

结果：AI 没有讲偏，而是把”有气泡”和”判断是二氧化碳”拆成两层，引导学生自己区分现象和结论。

补充压力测试覆盖了三种不配合场景：只写结论不写现象、强行合理化（“有气体不就是氢气吗”）、答非所问（解释反应原因）。三项均通过——AI 能拉回”现象”和”结论”的核心区别。

发现的问题：首轮提示略明显——AI 说”你的答案里有眼睛看到的画面，也有推出来的结论”，这句话已经帮学生拆好了答案结构，削弱了学生自己判断的空间。

Prompt Engineering 的核心不是写提示词，而是定义问题。 V1 失败不是因为提示词写得不好，而是因为”初中化学家教”这个问题定义太宽泛，没法验证、没法迭代。V2 收窄到”实验现象与结论混淆”这一个场景后，才有了可测试的标准和可收敛的优化方向。

AI 产品中”不做什么”比”做什么”更关键。 提示词中最有价值的部分不是辅导流程，而是行为红线——定义了 5 件 AI 不能做的事。这些约束才是保证教学质量的底线。

测试方案要主动制造失败。 如果只用配合的回答测试，永远看不到提示词的边界在哪。主动设置”学生不配合”的场景，才能暴露需要收紧的地方，指向下一轮迭代方向。

如果重来，我会在 V2 阶段就做用户测试。 目前的测试者是我自己扮演学生，回答方式可能偏”理性”。如果能找到真实的初中生测试，对”什么算看到的、什么算推出来的”这个区分的理解偏差会更真实，提示词的分层引导策略也会更有针对性。