网站推广一般怎么做,如何分析网站,邢台网站推广多少钱,做网站图片不够大GPT-4能力大赏
常识知识推理
一个猎人向南走了一英里#xff0c;向东走了一英里#xff0c;向北走了一英里#xff0c;最后回到了起点。他看到了一只熊#xff0c;于是开枪打了它。这只熊是什么颜色的#xff1f; 答案是白色#xff0c;因为这种情况只可能发生在北…GPT-4能力大赏
常识知识推理
一个猎人向南走了一英里向东走了一英里向北走了一英里最后回到了起点。他看到了一只熊于是开枪打了它。这只熊是什么颜色的 答案是白色因为这种情况只可能发生在北极那里生活着北极熊。在这种情况下 GPT-4 正确地识别了这些事实并得出结论熊是白色的而它的前身 ChatGPT 放弃了并说“我不知道” 我驾驶一架飞机离开我的营地直接向东飞行 24901 英里然后回到营地。当我回到营地时看到一个老虎在我的帐篷里吃我的食物这只老虎是什么物种 答案是任何生活在赤道上的老虎物种例如孟加拉虎和苏门答腊虎。AI 系统需要知道地球赤道长 24901 英里只有在赤道上才能向东或向西行驶并返回同一点以及哪些老虎物种生活在赤道上。同样GPT-4 成功地找到了关键信息并解决了谜题而 ChatGPT 立即放弃了 编码能力
让GPT-4生成数据可视化代码 让 GPT-4 使用模糊的规格要求用 HTML 和 JavaScript 编写一个 2D 坦克战争游戏。游戏涉及复杂的逻辑和状态管理包括敌人、玩家、炮弹和墙壁对象的逻辑以及碰撞的逻辑。再次GPT-4 生成了一个完全功能的游戏甚至添加了“常识”未指定的细节如“炮弹应在撞击墙壁后消失”。它还能够根据用户的请求编辑游戏。相比之下ChatGPT 不仅拒绝创建游戏而且生成了一个不会根据 WASD 键移动的正方形和三角形的代码。它根本不动只有在按下“d”键时向下指并在按下“a”键时向上指即使这也是错误的因为“w”应该向上指“s”向下指。 我们要求 GPT-4 和 ChatGPT 预测和解释一个 C 程序的输出该程序需要打印两个结构的大小。GPT-4 正确地解释了输出可能因编译器使用的对齐规则而异并给出了一个可能具有 4 字节对齐的输出示例。ChatGPT 忽略了对齐问题给出了错误的输出并且还做出了一个关于顺序不影响结构大小的错误陈述。 数学能力
两个模型都意识到拉格朗日乘数法在这个问题中很有用这种策略适用于在约束条件下最小化某个表达式的问题。虽然 ChatGPT 以错误的方式应用了这种方法如果是人类可能会被视为缺乏理解力但 GPT-4 提出了一个合理的论证。 对隐函数的求导GPT-4 正确应用隐函数求导法考虑到 y 和 x 的导数之间的依赖关系。ChatGPT 的答案以“我们可以使用链式法则”开始这与此问题无关并特征是继续附以大多不连贯的论证。 视觉能力
使用 Javascript 生成一个 3D 模型。我们用提示语「一个由浮岛、瀑布和桥梁组成的幻想景观天空中有一只飞龙和一个位于最大岛上的城堡」来对 GPT-4 发出指令。与 2D 实验类似我们要求 GPT-4 以各种方式修改 3D 模型如添加、重新定位、重新着色对象和改变飞龙的轨迹等。 音乐
当被指示生成一个简短的曲调下图时模型能够生成有效的 ABC 符号。这个曲调有一个清晰的结构小节之间的拍子一致音符遵循逐渐上升和下降的模式。曲调还使用了一组一致的音符节奏有重复的模式。然而模型似乎没有获得理解和声的技能。事实上在生成的曲调中连续的音符几乎总是相邻的即跟在 C 后面的音符通常是 B 或 D在测试了 10 个生成的曲调后我们无法提取任何清晰的和弦或琶音。 做题能力
在日常普通的对话任务中GPT-4和GPT-3.5的差距是非常小的而随着任务复杂性的增加GPT-4的优势就会显现出来它会更可靠更有创造力并且能处理更细微的指令。OpenAI官方为了验证GPT-4和GPT-3.5的区别, 专门收集了一些考试的问题比如奥赛的题目美国AP课程、SAT考试等题目来让模型来做。由于模型预训练的数据集太大了OpenAI的研究员还专门分开了两个测试版本一个是直接让模型做题出分数另一个是把在预训练集中可能出现过的题目去除让模型去做它没见过的题目两者取较低分的那个作为模型的考试分数来增加说服力。
下图中展示的是GPT模型的考试结果横坐标为考试科目纵坐标为在这些考试中排名的百分比。GPT-4 在大多数考试中都超过了GPT3.5。 然而很有意思的是 在AP English Writing的这项考试中模型的分数并不高。根据我们平时使用GPT最常用最强大的功能是用来生成各种文案和语言润色然而在英语写作考试中GPT的表现并没有表现的很好我们猜测GPT没有诞生真正的智能它还没有真的思考能力在文本生成的时候很多时候说的话都是很空洞的这样的文章如果在写作考试中很难拿到足够的高分。
除此之外GPT在数学方面的能力较差。
当然在传统的自然语言处理的一些任务的benchmark上GPT-4还是把榜单都刷新了一遍。 多语言能力
除了英文之外GPT-4在其他语言方面也有优秀的表现包括了繁体和简体中文根据下图可以看到在26种语言中有24种语言GPT-4的表现超越了GPT-3.5和其他的一些语言模型其中还包括了一些没有什么训练数据的语种Latvian,Welah, Swahili。虽然不知道GPT-4的训练预料中有多少语种但有一些开源的只使用英文预训练的语言模型也具有多语言的能力这点非常的有意思。 视觉能力
GPT-4拥有可以接受图片输入作为Prompt然后生成文本CoT思维链 in-context learning 在图像方面也适用不过可惜的是图像输入的功能目前GPT-4还在内测没有公开给大家测试。