受欢迎的常州做网站,软件开发的五个基本步骤,外贸网站建设维护,建筑企业网站模板评估基准是推动人工智能领域技术进步和应用落地的关键工具#xff0c;通过这些基准#xff0c;我们可以更全面地理解LLMs的能力#xff0c;并指导未来的研究和实践。 评估基准#xff0c;是一套衡量标准#xff0c;就像老师用考试来检查学生学得怎么样。在大模型的世界里… 评估基准是推动人工智能领域技术进步和应用落地的关键工具通过这些基准我们可以更全面地理解LLMs的能力并指导未来的研究和实践。 评估基准是一套衡量标准就像老师用考试来检查学生学得怎么样。在大模型的世界里这些标准就是用来衡量这些电脑大脑在处理语言、图像或者其他任务时的表现。 评估基准
1、性能衡量
评估基准提供了一套标准化的测试来衡量LLMs在特定任务上的性能如语言理解、文本生成等等。
2、模型比较
通过评估基准研究人员可以比较不同LLMs的性能识别出哪些模型在特定任务上表现更优。
3、模型优化
评估基准的结果可以反馈给模型开发者帮助他们优化模型结构和训练过程。 数据集READOC|文档结构化提取数据集|评估基准数据集 创建时间2024-09-08 链接地址READOC|文档结构化提取数据集|评估基准数据集 数据集介绍READOC数据集是由中国科学院软件研究所和中国信息处理实验室创建的一个统一基准旨在评估真实文档结构化提取系统。该数据集包含2233个从arXiv和GitHub收集的多样化真实世界文档涵盖了多种类型、年份和主题。数据集的创建过程包括自动构建PDF-Markdown对并开发了一个包含标准化、分段和评分模块的评估套件。READOC数据集主要应用于文档结构化提取领域旨在解决现有评估方法的碎片化和不现实性问题推动该领域的进一步发展。 数据集GMAI-MMBench|医疗AI数据集|评估基准数据集 创建时间2024-08-07 链接地址GMAI-MMBench|医疗AI数据集|评估基准数据集 数据集介绍GMAI-MMBench是由上海人工智能实验室等机构创建的综合性医疗AI评估基准包含285个高质量数据集覆盖39种医疗图像模态和18个临床任务。数据集内容丰富包括2D检测、分类和2D/3D分割等多种任务数据来源于全球各地的公共和医院资源。创建过程中数据集经过严格筛选和标准化处理确保了数据的多样性和临床相关性。该数据集主要用于评估和提升大型视觉语言模型在医疗领域的应用特别是在疾病诊断和治疗方面的辅助能力。 数据集DreamBench 图像自动评估基准数据集|图像评估数据集|人工智能数据集 创建时间2024-07-09 链接地址DreamBench 图像自动评估基准数据集|图像评估数据集|人工智能数据集 数据集介绍DreamBench 是一个由清华大学、西安交通大学、伊利诺伊厄巴纳-香槟分校、中科院、旷视的研究人员于 2024 年共同推出的新基准旨在解决个性化图像生成技术评估中存在的问题。它通过引入支持多模态的 GPT-4o实现了与人类偏好的深度对齐和自动化评估并推出了一个更为全面和多元化的数据集。 数据集UBENCH|语言模型评估数据集|基准测试数据集 创建时间2024-06-19 链接地址UBENCH|语言模型评估数据集|基准测试数据集 数据集介绍UBENCH是由南开大学软件学院创建的一个综合基准用于评估大型语言模型LLMs的可靠性。该数据集包含3978个多选题覆盖知识、语言、理解和推理四个主要领域旨在通过这些题目评估LLMs在不同任务中的表现。UBENCH的数据来源于多个公开数据集经过特殊处理和严格的质量控制以确保评估的准确性。该数据集适用于广泛的开放源和闭源模型特别强调高效的推理和可扩展性。UBENCH的应用领域包括但不限于模型评估和改进旨在解决LLMs在实际应用中的不确定性和可靠性问题。 数据集DeepFaceGen|人脸伪造检测数据集|评估基准数据集 创建时间2024-06-13 发布机构浙江大学 链接地址DeepFaceGen|人脸伪造检测数据集|评估基准数据集 数据集介绍DeepFaceGen是由浙江大学开发的一个大规模人脸伪造检测评估基准。该数据集包含463,583张真实人脸图像和313,407个真实视频以及350,264张伪造图像和423,548个伪造视频这些伪造样本使用了34种主流的人脸生成技术。在构建过程中DeepFaceGen考虑了内容多样性、种族公平性和全面的标签可用性确保了其多功能性和便利性。该数据集主要用于评估和分析现有面部伪造检测技术旨在推动面部伪造检测技术的发展解决由AI生成内容技术引发的真实性验证难题。 数据集m-a-p/CHC-Bench|中文理解评估数据集|多学科基准数据集 创建时间2024-04-08 链接地址m-a-p/CHC-Bench|中文理解评估数据集|多学科基准数据集 数据集介绍CHC-Bench是一个精心挑选的多学科中文硬案例基准用于评估模型在理解和遵循中文指令方面的能力。数据集包含来自多个来源的问题涵盖写作、人文历史、科学、数学、阅读理解、角色扮演等多个类别并特别关注中文理解的硬案例如中文发音和古代中文语言理解等。评估方法综合考虑了响应的准确性、有用性、相关性、深度、创造性和详细程度等多个维度。 数据集FETV|文本到视频生成数据集|评估基准数据集 创建时间2024-03-29 链接地址FETV|文本到视频生成数据集|评估基准数据集 数据集介绍FETV是开放域文本到视频生成的细粒度评估基准 数据集中文生成式聊天评估基准(CGCE)|自然语言生成数据集|聊天模型评估数据集 创建时间2023-05-24 链接地址中文生成式聊天评估基准(CGCE)|自然语言生成数据集|聊天模型评估数据集 数据集介绍中文生成式聊天评估基准(CGCE)是由度小满创建的一个专注于中文生成式聊天模型的评估数据集。该数据集包含350个问题分为200个通用领域问题和150个金融领域专业问题。通用领域问题涵盖数学计算、场景写作、逻辑推理等13个维度而金融领域则涉及金融术语理解、市场评论、数据分析等多个专业方面。数据集通过人工评分评估模型的准确性、连贯性、表达清晰度和完整性。CGCE旨在为研究人员提供一个标准化的评估框架以评估和比较中文生成式聊天模型的性能推动自然语言生成(NLG)领域的研究进展。 一、自然语言处理NLP 数据集nyu-mll/glue|自然语言处理数据集|语言理解数据集 更新时间2024-01-30 发布机构nyu-mll 链接地址nyu-mll/glue|自然语言处理数据集|语言理解数据集 数据集介绍GLUE通用语言理解评估基准是一个集合了多种资源的数据集用于训练、评估和分析自然语言理解系统。它涵盖了多个任务包括文本分类、自然语言推理、语义相似性评分等每个任务都有详细的数据集结构和评估标准。GLUE通过多个子任务来全面评估模型的语言理解能力并提供了一个Leaderboard来展示不同模型的性能。 数据集rajpurkar/squad|自然语言处理数据集|阅读理解数据集 更新时间2024-03-04 链接地址SQuad|自然语言处理数据集|阅读理解数据集 数据集介绍斯坦福问答数据集SQuAD是一个阅读理解数据集包含由众包工作者针对一组维基百科文章提出的问题每个问题的答案是相应阅读文章中的文本段落或者问题可能无法回答。SQuAD 1.1包含超过100,000个问题-答案对涵盖500多篇文章。该数据集支持问答任务是单语的仅包含英语内容。数据集根据CC BY-SA 4.0许可发布由众包和发现语言创建者共同策划。 数据集SummEval, Newsroom|文本摘要数据集|自动评估数据集 创建时间2023-05-11 链接地址SummEval, Newsroom|文本摘要数据集|自动评估数据集 数据集介绍SummEval数据集包含基于人类和自动指标的评分包括人类对连贯性、一致性、流畅性和相关性的评分以及基于预训练语言模型的困惑度分数和各种自动评估指标如BLEU、ROUGE和BERTScore等。Newsroom数据集没有伴随的参考真相因此使用源文本作为参考用于评估基于参考的或接近无参考的指标。 二、计算机视觉 数据集taesiri/imagenet-hard|图像分类数据集|ImageNet数据集 更新时间2023-06-16 链接地址taesiri/imagenet-hard|图像分类数据集|ImageNet数据集 数据集介绍ImageNet-Hard是一个包含10,980张图像的基准数据集这些图像从多个ImageNet相关数据集中收集而来旨在挑战当前最先进的视觉模型。数据集的特点是简单的图像放大无法有效提高模型的分类准确性即使是如CLIP-ViT-L/14336px这样的先进模型其准确率也仅为2.02%。数据集提供了详细的分类标签映射和数据实例的结构描述包括图像、标签、来源和英文标签等字段。 数据集COCO数据集|图像识别数据集|计算机视觉数据集 创建时间2018-09-13 链接地址COCO数据集|图像识别数据集|计算机视觉数据集 数据集介绍COCO数据集全称Common Objects in COntext是微软团队提供的一个用于图像识别的大型数据集。它包含了80个对象类别和多种场景类型的图像通过在Flickr上搜索并使用Amazon Mechanical Turk进行数据收集。数据集分为训练、验证和测试集并提供了三种标注类型目标实例、目标上的关键点和看图说话所有数据均使用JSON文件存储。 数据集pascal-voc|目标检测数据集|语义分割数据集 链接地址pascal-voc|目标检测数据集|语义分割数据集 数据集介绍视觉对象类挑战包含图像分类、对象检测和分割任务。 三、语音识别 数据集gilkeyio/librispeech-alignments
数据集地址gilkeyio/librispeech-alignments用于研究的大规模读英语语音数据集
数据集介绍Librispeech Alignments是一个包含1000小时16kHz读英语语音的数据集来源于LibriVox项目的英语有声书。数据集包括多个子集用于训练和评估自动语音识别ASR系统。数据集特征包括说话人性别、子集类型、唯一ID、音频文件、转录文本、单词和音素的开始和结束时间。数据集的标注是通过Montreal Forced Aligner自动生成的用于生成单词和音素级别的对齐。 数据集SMS-WSJ (Spatialized Multi-Speaker Wall Street Journal)|语音识别数据集 数据集地址SMS-WSJ (Spatialized Multi-Speaker Wall Street Journal)|语音识别数据集 数据集介绍Spatialized Multi-Speaker Wall Street Journal (SMS-WSJ) 由从 WSJ 数据库中提取的人工混合语音组成但与早期的数据库不同该数据库考虑了所有 WSJ01 话语并严格区分训练、验证中存在的说话者集和测试集。 四、机器学习和模式识别 数据集UCI Machine Learning Repository|机器学习数据集|数据集数据集
链接地址UCI Machine Learning Repository|机器学习数据集|数据集数据集数据集介绍加利福尼亚大学欧文分校提供的大量用于机器学习任务的数据集。UCI机器学习库是一个包含数据库、领域理论和数据生成器的集合这些被机器学习社区用于机器学习算法的实证分析。 数据集Kaggle Competitions Data|数据科学竞赛数据集|Kaggle数据集
链接地址Kaggle Competitions Data|数据科学竞赛数据集|Kaggle数据集 数据集介绍Kaggle平台上的各种竞赛提供了多种数据集和相应的基准测试。