鹤壁网站优化,石家庄建站工具,js开发安卓app,建个企业网站多少钱在上一篇文章 荒腔走板Mac电脑本地部署 LLM 中介绍过本地部署大模型之后#xff0c;可以通过定制 prompt 来实现 domain 提取等各种各样的需求。 但是实际上#xff0c;部署本地大模型 这种方式对于个人开发者来说实在是不太友好。一方面需要投入大量资金确保设备的算力足够支… 在上一篇文章 荒腔走板Mac电脑本地部署 LLM 中介绍过本地部署大模型之后可以通过定制 prompt 来实现 domain 提取等各种各样的需求。 但是实际上部署本地大模型 这种方式对于个人开发者来说实在是不太友好。一方面需要投入大量资金确保设备的算力足够支撑LLM的训练和推理另一方面本地部署的大模型的量级都不会太大所以效果也不会太理想。 对于个人开发者来说想开发一个 AI 应用最快的方式就是集成某个大模型平台 API。这种情况下所有的成本主要体现在 Token 花费。以下是各大 LLM 平台的 Token 价格 通义千问 智普 百度文心Ernie 月之暗面 Kimi 谷歌 Gemini Claude 接下来我将使用通义千问平台实现一个伪需求来看下具体的 Token 使用情况。 实际上各个平台都提供了一定量的免费Token之所以采用通义千问是因为通义千问相对便宜。 通义千问实现展览馆搜索 我将实现的伪需求是列举某个城市的3个展览馆并分别介绍每一个展览馆的一些藏品。 返回JSON格式 通过定制 Prompt可以让大模型返回固定格式的数据一种常用的格式就是 JSON。 Prompt 如下 具体代码如下 返回结果如下图 很明显通义千问大模型返回的结果是符合我们需求的。但是请求时间使用了将近 17s并且一次性消耗了 543 个 Token。1百万的Token量只能支持访问 1000000/543 1841 次请求。 假设你开发的大模型应用比较受大众欢迎有1000个日活用户每个用户每天会请求10次请求。那你每天的 Token 消耗计算公式如下 1000用户 * 10次请求 * 单次请求Token 543 5430000个 作为一名合格的穷人一定要节约使用 Token。如何优化 prompt尽量在不损失准确率的基础上减少 token 的使用量显得尤为重要。 精简 JSON 格式 在基于JSON格式的基础上进行格式精简并删除非必要内容。在之前 Prompt 基础上新增如下内容 可以看出Prompt新增了一行 使用精简模式的JSON删除一切不必要的空格和换行符号。 具体修改代码如下 运行上述代码最终返回结果如下 明显可以看出性能有明显提升推理耗时优化到8s并且 Token 消耗也减少到393个。 使用自定义格式 实际上就算是精简后的JSON格式依然是一种比较复杂的数据格式。我们可以通过自定义一种简单进一步减少大模型推理的耗时以及Token使用。 比如以下格式 上图中我们自定义的格式相比于JSON格式虽然可读性很差但是对于高性能的机器来说不算一件难事。我用 ! 符号代表一个JSON的Object用 ? 符号代表一个字符串最后用 # 符号代表数组对象。 具体修改代码如下 最终运行结果如下图 通过自定义数据格式到模型推理的时间和Token消耗被进一步优化。 Prompt Engineering 是一个不断持续优化的过程但是也是有一些基本规则的。后面文章会尝试梳理如何写一个完善 Prompt 的基本准则。 如果你喜欢本文 长按二维码关注