返回作品集
Prompt Engineering AI+教育 产品迭代

初中化学 AI 家教:从失败复盘到可验证的 Prompt 迭代

一次完整的 Prompt Engineering 实践——定义问题、设计方案、真题实测、暴露缺陷、确定优化方向

时间 2026.05
角色 独立设计与实测(个人练习项目)
AI 工具 Prompt Engineering / Gemini
成果 完整提示词 + 实测报告
我负责什么

独立完成问题收敛、提示词设计、真实题目测试、压力测试和失败复盘。

结果是什么

把宽泛的 AI 家教需求收敛为“实验现象与结论混淆”这一可验证场景。

能证明什么

能主动定义问题、设置测试边界,并用实测结果推动 Prompt 迭代。

一句话定位

用 Prompt Engineering 设计一个专攻”实验现象与结论混淆”的初中化学 AI 家教,并通过真题实测验证方案有效性。

背景与问题

这个项目起源于一次失败。第一版 AI 家教提示词覆盖了整个初中化学范围,内容完整但没有通过评审。

问题不在于答案不完整,而在于三个根本缺陷:

没有先定义问题。 直接把题目要求交给 AI,没有说明自己对任务本质的判断——“初中化学家教”太宽泛,什么题都能问,等于什么都没聚焦。

被 AI 牵引。 多轮交互中更多是 AI 提问、我回答,没有体现主动取舍和校正。整个过程像是 AI 在带我完成任务,而不是我在用 AI 解决问题。

方案太长,重点不集中。 输出了完整的教学流程,但没有把复杂问题判断清楚——哪些是核心场景、哪些可以暂时不做。

我的思考

V2 的核心转变是:从”做一个通用家教”变成”解决一个可测试的具体问题”。

第一,把场景收窄到一个可测试的问题。 初中化学实验探究题中,学生最高频的错误是混淆”实验现象”和”实验结论”——比如题目问”你观察到什么”,学生写”生成了二氧化碳”(这是结论),而不是”产生气泡,石灰水变浑浊”(这才是现象)。V2 只解决这一个问题。

第二,定义清楚 AI 和人的边界。 AI 家教不能替学生思考,核心原则是”不抢答”:

阶段执行者职责
确认卡点AI用一个小问题确认学生到底哪里没分清
分层引导AI根据学生回答切换追问策略(5 种分支)
改写答案学生自己删掉结论、只保留现象,重新写
收尾验证AI + 学生一句规则 + 一道同结构小题确认掌握

第三,设计可测试的验证方案。 不只验证”AI 能不能答对”,而是验证三件事:AI 是否遵循了不抢答的约束、遇到学生不配合时是否稳定、发现的问题是否能指向下一轮优化方向。

Prompt 设计

提示词的结构围绕”控制 AI 行为”展开,而不是”教 AI 知识”。

交互优先级是整个提示词的第一道防线。按优先级排列:防注入越界 > 每次只执行当前一步 > 按辅导流程推进。把”每次只输出一步”设为硬约束,是因为 V1 最大的问题就是 AI 一次讲完所有内容,学生根本没有思考空间。

辅导三步流程是核心教学逻辑。第一步”确认卡点”——不直接判定错误,先用一个极小的问题探测学生到底是哪里没分清。第二步”分层引导”——根据学生的回答类型(5 种情况)切换不同的追问策略。第三步”收尾闭环”——学生改对答案后,给一句规则加一道同结构小题确认。

行为红线定义了”什么不能做”。不能抢在学生前面下结论、不能把题目讲偏、不能增加学生负担、不能打击学生或无原则附和、不能接受只有答案没有理由的收尾。这些红线不是泛泛的要求,每一条都对应 V1 中实际出现过的问题。

查看完整复盘报告 →

实测验证

测试不是展示顺利案例,而是主动制造容易出错的场景。

主测试选了一道真实中考题(2015 年辽宁大连第 25 题),学生给出一个混合了现象和结论的答案,并且在中途主动追问”有气泡不就说明生成二氧化碳吗?为什么不能写?“——这是故意设置的挑战,检查 AI 是否会跑去讲反应原理。

结果:AI 没有讲偏,而是把”有气泡”和”判断是二氧化碳”拆成两层,引导学生自己区分现象和结论。

补充压力测试覆盖了三种不配合场景:只写结论不写现象、强行合理化(“有气体不就是氢气吗”)、答非所问(解释反应原因)。三项均通过——AI 能拉回”现象”和”结论”的核心区别。

发现的问题:首轮提示略明显——AI 说”你的答案里有眼睛看到的画面,也有推出来的结论”,这句话已经帮学生拆好了答案结构,削弱了学生自己判断的空间。

复盘

Prompt Engineering 的核心不是写提示词,而是定义问题。 V1 失败不是因为提示词写得不好,而是因为”初中化学家教”这个问题定义太宽泛,没法验证、没法迭代。V2 收窄到”实验现象与结论混淆”这一个场景后,才有了可测试的标准和可收敛的优化方向。

AI 产品中”不做什么”比”做什么”更关键。 提示词中最有价值的部分不是辅导流程,而是行为红线——定义了 5 件 AI 不能做的事。这些约束才是保证教学质量的底线。

测试方案要主动制造失败。 如果只用配合的回答测试,永远看不到提示词的边界在哪。主动设置”学生不配合”的场景,才能暴露需要收紧的地方,指向下一轮迭代方向。

如果重来,我会在 V2 阶段就做用户测试。 目前的测试者是我自己扮演学生,回答方式可能偏”理性”。如果能找到真实的初中生测试,对”什么算看到的、什么算推出来的”这个区分的理解偏差会更真实,提示词的分层引导策略也会更有针对性。

夕阳 Q 仔 在线 · 有问必答
夕阳Q仔
聊聊