做vi 设计国外网站,服装公司logo设计,中国十大网络科技公司,同城购物网站怎么做文献阅读#xff1a;Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 1. 文章简介2. 具体方法3. 实验结果 1. 数学推理 1. 实验设计2. 实验结果3. 消解实验4. 鲁棒性考察 2. 常识推理 1. 实验设计2. 实验结果 3. 符号推理 1. 实验设计2. 实验结果 4.…文献阅读Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 1. 文章简介2. 具体方法3. 实验结果 1. 数学推理 1. 实验设计2. 实验结果3. 消解实验4. 鲁棒性考察 2. 常识推理 1. 实验设计2. 实验结果 3. 符号推理 1. 实验设计2. 实验结果 4. 结论 思考 文献链接https://arxiv.org/abs/2201.11903
1. 文章简介
这篇文章还是一篇关于大模型的prompt调优的文章。
这里主体的思路是使用Chain of Thought也就是说把CoT的思路加入到prompt调优当中。和finetune当中使用的CoT方式相似前者是将答案推导的推理链给出然后交给模型进行finetune而这里不在用于finetune而是将其给出到few-shot learning当中作为例子来指导模型进行生成推理从而优化推理过程。
下面是一个具体的CoT prompt的例子 而CoT Prompting效果的话我们可以从下述GSM8K上的效果上一窥大概 可以看到在GSM8K测试集上CoT Prompting的效果给LLM带来了显著的效果提升且超过了当前的SOTA结果。
下面我们就来看一下CoT Prompting的设计以及文中的实验考察。
2. 具体方法
关于CoT Prompting的具体方法设计其实在上述的样例图中已经展示的比较清晰了主旨来说其实就是通过带有CoT的推理链的few shot例子的方式教给LLM推理的思路链从而使得模型可以模仿其将问题进行拆分从而获得更加合理的回答。
更具体的文中给出了CoT Prompting的4个主要的优点如下
CoT Prompting将问题进行了解构从而将多步的问题拆分为了多个中间子问题从而使得模型在推理过程中可以获得更多的计算从而优化推理准确率CoT由于解构了问题从而在回答过程中存在了更多的可解释性便于调试以及模型的自纠正可拓展性CoT Prompting的方式可以广泛地用于数学问题常识推理以及符号推理等问题当中使用上的便捷性只需要通过几个简单的few shot的case就能引导模型进行CoT的推理方式
我们给出一些常见问题当中CoT Prompting使用的case如下 下面我们来看一下文中给出的一些具体的实验考察。
3. 实验结果
文中从数学推理常识推理以及符号推理三个方面对CoT Prompting的效果进行了具体的考察。
下面我们来看一下其各自的实验结果。
1. 数学推理
1. 实验设计
对于数学推理的问题文中使用的测试数据主要包括
GSM8KSVAMPASDivAQuAMAWPS
而关于Prompt的设计作为control文中使用Brown et al.(2020)给出prompt具体可以参考图一左侧的样例。而作为treatment则是通过few-shot给出了CoT的样例同样可以参考图一当中右侧的样例。
最后关于实验中使用的LLM模型具体包括以下一些
GPT-3LaMDAPaLMUL2 20BCodex
2. 实验结果
给出文中具体的实验结果如下 可以看到
和早期的CoT实验效果相仿对于小模型CoT Prompting不一定能够带来提升但是对于大模型CoT Prompting可以带来显著的效果提升。
3. 消解实验
对于数学推理问题中文还给出了CoT Prompting的一些消解实验具体考察了以下几方面的影响
用公式替换文本描述依然只给出公式不过公式中用变量名替换掉纯数字将CoT的解释放置到给出答案之后而不是之前
得到的实验结果如下 可以看到普遍效果都不太好而这些也都比较好理解
LLM显然对于语义的理解方面做的比公式的理解能力会强很多前置解释可以辅助语言模型对于后续答案概率的生成优化。
4. 鲁棒性考察
而除了上述实验之外文中还对CoT Prompting的鲁棒性进行了考察具体而言通过
给出不同的人写作的CoT Prompting进行考察用不同的样例作为few-shot的case
得到的结果如下 可以看到
虽然存在一定的效果波动不过整体而言CoT Prompting依然可以稳定地带来效果上的提升。
2. 常识推理
文中除了对于数学推理之外还对常识推理进行了一些实验考察。
1. 实验设计
我们首先来看一下常识推理的一些实验设计。
在数据集选择方面文中使用了如下一些测试数据集
CSQAStrategyQADateSportsSayCan
而关于prompt以及模型的设计则保持和前述数学推理相一致。
2. 实验结果
给出文中的实验结果如下 可以看到
除了在CSQA数据集上没有获得较大的提升之外在其他数据集上CoT Prompting都带来了很大的性能提升甚至在Sports数据集上超出了人类的水平。
3. 符号推理
最后我们来看一下文中对于符号推理的实验结果。
1. 实验设计
首先在实验设计方面其他方面同样和之前的两个实验保持一致只有在数据集上存在区别。
具体而言这里使用如下两个数据集
Last letter concatenationCoin flip
2. 实验结果
给出文中的实验结果如下 同样可以看到
CoT可以稳定地带来效果提升。
4. 结论 思考
综上我们基本可以得出结论
通过在few-shot learning当中加入CoT的方式可以使得模型在生成过程中模仿CoT的方式从而优化生成的结果。
这个结论本身倒是还挺好理解的易用且有效在这个以优化prompt为王的时代里倒是可以在工作当中帮上大忙了。
不过这里我个人觉得更本质的特征还是如何诱导模型进行CoT推理诚然这里是使用了一个最直接的方式就是在few-shot当中直接加入样例但是对于一些context非常长的case这不一定可行但是核心思路依然是可以借鉴的在后续的prompt调优当中个人觉得不失为一种优化的思路。