思维链提示(Chain-of-Thought Prompting)
本文作者:天疆说
定义
思维链提示(Chain-of-Thought Prompting,简称CoT)是一种由Wei等(2022年)提出的提示工程技术,其核心思想是引导大语言模型(LLM)在回答问题之前,先生成一系列中间推理步骤,而非直接给出最终答案。这种方法显著提升了LLM在需要多步逻辑推理的复杂任务上的表现。
核心结构
一个完整的思维链提示通常包含三个要素:
- 指令(Instruction):明确任务目标和期望的输出格式
- 推理过程(Rationale):中间推理步骤,包括问题的解法、中间推导和相关外部知识
- 示例(Exemplars):以few-shot方式提供输入-输出对的范例,每个示例包含问题、推理过程和对应答案
工作原理
CoT的工作方式是通过在提示中提供包含显式推理链的少量示例(few-shot examples),教会模型在处理新问题时也生成类似的逐步推理过程。
例如,在航天器意图识别任务中,一个CoT提示示例可能如下:
输入:目标持续接近我方空间站,到达最近距离后逐渐远离。目标是大型合作航天器,搭载操作机械臂。光照条件为全日照,电磁条件良好。
输出:目标持续接近我方,到达最近距离后逐渐远离,推断运动意图为飞越(flyby);目标是大型合作卫星且搭载机械臂,推断操作意图为加注(refuel);基于此信息,任务意图不明确。
模型在面对新输入时,会模仿这种推理格式,先分析观测数据,再逐步推导出各层意图。
性能特点
- 随模型规模提升而增强:随着模型参数量增加,CoT的回答准确率逐步提高
- 超越标准提示:在大多数领域,CoT提示的准确率高于标准提示方法
- 在特定领域超越人类:在某些领域(如体育知识),CoT提示的回答准确率甚至超过人类
- 可解释性:CoT输出的推理过程提供了模型决策的可追溯路径
局限性
- 机制未明:目前没有公认理论解释为什么CoT能提升模型推理能力
- 小模型挑战:在参数量小于10B的较小模型上,CoT的效果可能受限(尽管微调可以缓解这一问题)
- 推理质量不稳定:生成的推理过程可能包含错误或不相关的步骤
变体与扩展
- 自洽性(Self-Consistency):Wang等(2022年)提出通过多次采样和多数投票来提升CoT的回答准确率
- 最少到最多提示(Least-to-Most Prompting):Zhou等(2022年)提出先将复杂问题分解为子问题,再依次用CoT解决每个子问题
- 零样本CoT(Zero-shot CoT):直接在提示末尾添加"Let's think step by step"即可触发推理链,无需提供示例
在航天器意图识别中的应用
在Jing等(2025年)的研究中,CoT被用于增强LLM对航天器意图的推理能力。通过在CoT提示中提供包含推理过程的示例,模型学会了先分析轨道运动模式和目标特征,再逐步推导出运动意图、操作意图和任务意图。实验表明,CoT提示微调后的ChatGLM2-6B模型在意图识别任务上达到了99.81%的准确率。
相关概念
参考文献
- Wei J, Wang X, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models. Adv Neural Inform Proc Syst. 2022;35:24824-24837.
- Wang X, Wei J, Schuurmans D, et al. Self-consistency improves chain of thought reasoning in language models. arXiv:2203.11171, 2022.
- Zhou D, Schärli N, Hou L, et al. Least-to-most prompting enables complex reasoning in large language models. arXiv:2205.10625, 2022.
- Jing H, Sun Q, Dang Z, Wang H. Intention Recognition of Space Noncooperative Targets Using Large Language Models. Space Sci. Technol. 2025;5:0271.
