电子商务网站建设课设,投资网站建设,企业云服务平台,深圳南山区住房和建设局网站官网大语言模型可能不可靠#xff0c;这几乎算不上头条新闻。对于某些用例#xff0c;这可能会带来不便。而对于其他行业#xff0c;尤其是受监管行业#xff0c;后果则要严重得多。于是#xff0c;业内首个大语言模型自动评估平台 Patronus AI 应运而生。 Patronus AI 由 Met… 大语言模型可能不可靠这几乎算不上头条新闻。对于某些用例这可能会带来不便。而对于其他行业尤其是受监管行业后果则要严重得多。于是业内首个大语言模型自动评估平台 Patronus AI 应运而生。 Patronus AI 由 Meta AI 和 Meta Reality Labs 的机器学习专家创立旨在增强企业对生成式 AI 应用程序的信心在塑造值得信赖的 AI 生态方面处于领先地位。 Patronus 联合创始人兼首席技术官 Rebecca Qian 解释道“我们的平台支持工程师在真实场景中对 LLM 性能进行评分和基准测试生成对抗性测试用例监控幻觉并检测 PII 及其他意外和不安全的行为。客户使用 Patronus AI 大规模检测 LLM 错误从而安全、自信地部署 AI 产品。” 在最近发表并被广泛引用的基于 FinanceBench 问答 (QA) 评估套件研究中Patronus 有了一个惊人的发现。研究人员发现许多广泛使用的先进 LLM 经常出现幻觉错误回答或拒绝回答金融分析师问题的比例高达 81% 尽管模型的上下文窗口已通过从外部向量存储中检索到的上下文得到了增强但错误率仍然如此之高。
检索增强生成 (RAG) 是为模型提供最新的、特定于领域上下文的一种常见方式但应用程序所有者面临的一个关键问题是如何以可扩展的方式测试模型输出的可靠性。这时候Patronus 的作用就凸显出来了。该公司采用生成式 AI 生态系统包括模型提供商和框架以及向量存储和 RAG 解决方案中的领先技术提供托管评估服务、测试套件和对抗数据集。
“当我们评估形势以确定最佳合作伙伴时我们看到了客户对 MongoDB Atlas 的巨大需求”Qian 说道。“ 通过我们的 Patronus RAG 评估 API我们可以帮助客户验证他们基于 MongoDB Atlas 构建的 RAG 系统是否能持续提供优质、可靠的信息。 ”
在其新发布的十分钟指南中Patronus 向开发者演示了一个工作流展示了如何评估基于 MongoDB Atlas 的检索系统。该指南的重点是对照 SEC 10-K 文件评估幻觉和回答的相关性模拟金融分析师查询文件以获得分析和见解的过程。该工作流由以下工具构建
LlamaIndex 数据框架用于导入和切分源 PDF 文档Atlas Vector Search 用于存储、索引和查询切分后的元数据和嵌入Patronus用于对模型响应进行评分
工作流如下图所示:
根据分析结果开发者可以采取一些措施来提高 RAG 系统的性能包括探索不同的索引、修改文档切分大小、重新设计提示以及对嵌入模型本身进行微调针对大多数特定领域的应用程序。
正如 Qian 所说“无论您采用哪种方法来调试和修复幻觉一定要对 RAG 系统进行持续测试以确保长期实施性能改进。当然您可以反复使用 Patronus API 进行确认。”
MongoDB Atlas MongoDB Atlas 是 MongoDB 公司提供的 MongoDB 云服务由 MongoDB 数据库的开发团队构建和运维可以在亚马逊云科技、Microsoft Azure、Google Cloud Platform 云平台上轻松部署、运营和扩展。MongoDB Atlas 内建了 MongoDB 安全和运维最佳实践可自动完成基础设施的部署、数据库的构建、高可用部署、数据的全球分发、备份等即费时又需要大量经验运维工作。让您通过简单的界面和 API 就 可以完成这些工作由此您可以将更多宝贵的时间花在构建您的应用上。