物流公司怎么做网站,网站在线统计代码,如何做音乐分享类网站,开公司需要什么条件这里写自定义目录标题 介绍模型推理的输出过程方案原始Token输出RM输出#xff08;回归任务#xff09; 介绍
奖励函数模型 (Reward Model) 是人工智能 (AI) 中的一种方法#xff0c;模型因其对给定提示的响应而获得奖励或分数。现在的文章清一色的讲解RM的训练#xff0c… 这里写自定义目录标题 介绍模型推理的输出过程方案原始Token输出RM输出回归任务 介绍
奖励函数模型 (Reward Model) 是人工智能 (AI) 中的一种方法模型因其对给定提示的响应而获得奖励或分数。现在的文章清一色的讲解RM的训练但是没有讲解RM是如何输出一个分数的。本文只讲RM的输出以补充资料的缺乏。RM通常采用Llama-7B模型本文也沿用这一模型同时模型的推理计算过程作为已知的知识只讲解推理最后的输出部分。本文章先介绍传统Llama模型原始Token输出过程再讲解RM的输出。以作为对比更好的学习。
模型推理的输出过程方案 原始Token输出
预训练语言模型如LLaMA、GPT等的默认任务是语言建模它们的输出是针对每个token的概率分布即词汇表中的每个词的概率 注W矩阵在llama-7b中是lm_head.weight RM输出回归任务
写在前面回归任务就不需要原始Token输出中的logits矩阵的计算即图中H*WB的部分和softmax的计算。
处理每个token的隐藏状态以生成全局表示 隐藏状态的介绍 1 平均池化Mean Pooling 2 最大池化Max Pooling回归任务输出分数