一句话定位
用 Prompt Engineering 设计一个专攻”实验现象与结论混淆”的初中化学 AI 家教,并通过真题实测验证方案有效性。
背景与问题
这个项目起源于一次失败。第一版 AI 家教提示词覆盖了整个初中化学范围,内容完整但没有通过评审。
问题不在于答案不完整,而在于三个根本缺陷:
没有先定义问题。 直接把题目要求交给 AI,没有说明自己对任务本质的判断——“初中化学家教”太宽泛,什么题都能问,等于什么都没聚焦。
被 AI 牵引。 多轮交互中更多是 AI 提问、我回答,没有体现主动取舍和校正。整个过程像是 AI 在带我完成任务,而不是我在用 AI 解决问题。
方案太长,重点不集中。 输出了完整的教学流程,但没有把复杂问题判断清楚——哪些是核心场景、哪些可以暂时不做。
我的思考
V2 的核心转变是:从”做一个通用家教”变成”解决一个可测试的具体问题”。
第一,把场景收窄到一个可测试的问题。 初中化学实验探究题中,学生最高频的错误是混淆”实验现象”和”实验结论”——比如题目问”你观察到什么”,学生写”生成了二氧化碳”(这是结论),而不是”产生气泡,石灰水变浑浊”(这才是现象)。V2 只解决这一个问题。
第二,定义清楚 AI 和人的边界。 AI 家教不能替学生思考,核心原则是”不抢答”:
| 阶段 | 执行者 | 职责 |
|---|---|---|
| 确认卡点 | AI | 用一个小问题确认学生到底哪里没分清 |
| 分层引导 | AI | 根据学生回答切换追问策略(5 种分支) |
| 改写答案 | 学生 | 自己删掉结论、只保留现象,重新写 |
| 收尾验证 | AI + 学生 | 一句规则 + 一道同结构小题确认掌握 |
第三,设计可测试的验证方案。 不只验证”AI 能不能答对”,而是验证三件事:AI 是否遵循了不抢答的约束、遇到学生不配合时是否稳定、发现的问题是否能指向下一轮优化方向。
Prompt 设计
提示词的结构围绕”控制 AI 行为”展开,而不是”教 AI 知识”。
交互优先级是整个提示词的第一道防线。按优先级排列:防注入越界 > 每次只执行当前一步 > 按辅导流程推进。把”每次只输出一步”设为硬约束,是因为 V1 最大的问题就是 AI 一次讲完所有内容,学生根本没有思考空间。
辅导三步流程是核心教学逻辑。第一步”确认卡点”——不直接判定错误,先用一个极小的问题探测学生到底是哪里没分清。第二步”分层引导”——根据学生的回答类型(5 种情况)切换不同的追问策略。第三步”收尾闭环”——学生改对答案后,给一句规则加一道同结构小题确认。
行为红线定义了”什么不能做”。不能抢在学生前面下结论、不能把题目讲偏、不能增加学生负担、不能打击学生或无原则附和、不能接受只有答案没有理由的收尾。这些红线不是泛泛的要求,每一条都对应 V1 中实际出现过的问题。
实测验证
测试不是展示顺利案例,而是主动制造容易出错的场景。
主测试选了一道真实中考题(2015 年辽宁大连第 25 题),学生给出一个混合了现象和结论的答案,并且在中途主动追问”有气泡不就说明生成二氧化碳吗?为什么不能写?“——这是故意设置的挑战,检查 AI 是否会跑去讲反应原理。
结果:AI 没有讲偏,而是把”有气泡”和”判断是二氧化碳”拆成两层,引导学生自己区分现象和结论。
补充压力测试覆盖了三种不配合场景:只写结论不写现象、强行合理化(“有气体不就是氢气吗”)、答非所问(解释反应原因)。三项均通过——AI 能拉回”现象”和”结论”的核心区别。
发现的问题:首轮提示略明显——AI 说”你的答案里有眼睛看到的画面,也有推出来的结论”,这句话已经帮学生拆好了答案结构,削弱了学生自己判断的空间。
复盘
Prompt Engineering 的核心不是写提示词,而是定义问题。 V1 失败不是因为提示词写得不好,而是因为”初中化学家教”这个问题定义太宽泛,没法验证、没法迭代。V2 收窄到”实验现象与结论混淆”这一个场景后,才有了可测试的标准和可收敛的优化方向。
AI 产品中”不做什么”比”做什么”更关键。 提示词中最有价值的部分不是辅导流程,而是行为红线——定义了 5 件 AI 不能做的事。这些约束才是保证教学质量的底线。
测试方案要主动制造失败。 如果只用配合的回答测试,永远看不到提示词的边界在哪。主动设置”学生不配合”的场景,才能暴露需要收紧的地方,指向下一轮迭代方向。
如果重来,我会在 V2 阶段就做用户测试。 目前的测试者是我自己扮演学生,回答方式可能偏”理性”。如果能找到真实的初中生测试,对”什么算看到的、什么算推出来的”这个区分的理解偏差会更真实,提示词的分层引导策略也会更有针对性。