公司网站建设多少费用,做全景图的网站,服装设计有哪些网站,做网站 就上微赞网本人项目地址大全#xff1a;Victor94-king/NLP__ManVictor: CSDN of ManVictor
git地址#xff1a;https://github.com/opendatalab/MinerU 写在前面: 笔者更新不易#xff0c;希望走过路过点个关注和赞#xff0c;笔芯!!!
写在前面: 笔者更新不易#xff0c;希望走过路…本人项目地址大全Victor94-king/NLP__ManVictor: CSDN of ManVictor
git地址https://github.com/opendatalab/MinerU 写在前面: 笔者更新不易希望走过路过点个关注和赞笔芯!!!
写在前面: 笔者更新不易希望走过路过点个关注和赞笔芯!!!
写在前面: 笔者更新不易希望走过路过点个关注和赞笔芯!!! 近期RAG 应用不断涌现它们的性能表现各具特色。尽管我们可以通过多个方面例如查询改写、图像数据处理、分块策略、元数据管理、密集检索、稀疏检索、结果重排、排序融合、提示词优化以及上下文压缩等逐步优化这些应用但在选择 SOTAState-of-the-Art模型时参考开源排行榜依然是必不可少的步骤。mteb/leaderboard 是一个极为有用的资源它能帮助您了解并选择符合您需求的多语言文本生成模型。例如在RAG系统中无论是中文还是英文的向量化模型、重排模型或摘要模型的选择都可以通过该榜单获得直观且量化的参考依据。 MTEB Leaderboard
MTEBMultilingual Text-to-Text Evaluation Benchmark是一个多语言文本嵌入的评估基准旨在评估和比较不同多语言文本生成模型的性能。排行榜页面展示了各种模型在多个任务上的表现这些任务可能包括但不限于翻译、摘要、问答等。 https://huggingface.co/spaces/mteb/leaderboard C-MTEBChinese Massive Text Embedding Benchmark中文语义向量评测基准 评测任务包括涵盖112种语言的58个数据集
在 MTEB 的排行榜页面上可以看到
不同模型的名称 列出参与评估的各种模型。各项任务的得分 每个模型在不同任务上的性能评分。综合排名 根据各项任务的得分对模型进行综合排名。
这个排行榜页面对于研究人员和开发者非常有用因为它提供了
模型性能的直观对比 帮助选择最适合特定任务的模型。最新进展的跟踪 了解当前多语言文本生成领域的最新进展和技术趋势。基准测试的参考 为新模型的开发和评估提供基准。
如何使用
查看模型性能 浏览排行榜了解不同模型在各个任务上的表现。获取模型信息 点击模型名称或链接可以跳转到模型的详细页面获取更多信息和使用方法。参与评估 如果你有自己的模型可以按照 MTEB 的评估标准提交模型进行测试加入排行榜。
了解任务相关概念
TASK CATEGORY任务类别
枚举值中文翻译含义解释s2s句子到句子任务涉及将单个句子转换或处理成另一个句子。s2p句子到段落任务涉及将单个句子转换或处理成段落。p2p段落到段落任务涉及将段落转换或处理成另一个段落。
TASK TYPE任务类型
枚举值中文翻译含义解释Retrieval检索从大量数据中检索出相关信息。Reranking重排根据某种标准重新排序数据。STS语义文本相似度评估两个文本之间的语义相似度。Summarization摘要生成文本的简短摘要。InstructionRetrieval指令检索检索与特定指令相关的信息。Speed速度评估处理或响应的速度。BitextMining双语文本挖掘从双语文本中挖掘信息。Classification分类将数据分配到预定义的类别中。MultilabelClassification多标签分类为数据分配多个类别标签。Clustering聚类将数据分组使得同一组内的数据点相似度高。PairClassification配对分类对成对的数据进行分类。
TASK SUBTYPE任务子类型
枚举值中文翻译含义解释Article retrieval文章检索从大量文章中检索出与查询相关的文档。Conversational retrieval对话检索检索与对话上下文相关的信息或回复。Dialect pairing方言配对识别和匹配不同方言之间的对应关系。Dialog Systems对话系统构建能够与用户进行自然对话的系统。Discourse coherence话语连贯性评估或生成连贯、逻辑一致的长篇话语。Language identification语言识别识别文本所使用的语言。Linguistic acceptability语言可接受性评估文本是否符合语言学的规范。Political classification政治分类根据政治倾向对信息进行分类。Question answering问答回答用户提出的问题。Sentiment/Hate speech情感/仇恨言论识别文本中的情感倾向或仇恨言论。Thematic clustering主题聚类将文本根据主题进行分组。Scientific Reranking科学重排对科学文献或信息进行重新排序。Claim verification事实核查验证声明或信息的真实性。Topic classification主题分类将文本按照主题进行分类。Code retrieval代码检索检索与编程问题相关的代码片段。Cross-Lingual Semantic Discrimination跨语言语义区分区分不同语言中相似词汇的语义差异。Textual Entailment文本蕴含判断一个句子是否能够从另一个句子逻辑上推导出来。Counterfactual Detection反事实检测识别和处理反事实或假设性陈述。Emotion classification情感分类对文本中表达的情感进行分类。Reasoning as Retrieval推理检索通过检索相关信息来辅助推理过程。Duplicate Detection重复检测识别和处理重复或相似的内容。
C-MTEBChinese Massive Text Embedding Benchmark榜单是专门用来评估中文Embedding模型的多任务混合评测榜单包含了Classification、Clustering、Pair Classification、Reranking、Retrieval、STS六种任务类型共35个公开数据集。
其中 Retrieval作为检索场景下最常用、最重要的测试任务 被广泛应用与大模型应用的落地场景Retrieval任务包括查询语句和语料库对于每个查询从语料库中查询最相似的top-k个文档使用BEIR相同的设置nDCG10是主要指标。
Retrieval是C-MTEB中的一个任务方向共包含8个 中文文本数据集 涉及医疗、政策、电商、娱乐等各个方面。数据集主要有三部分组成query、corpus、dev其中query为中文问题corpus为中文文档包括了query的回答该任务主要就是从海量corpus中检索出与query最为相关的内容。
Retrieval任务的8个子任务
Ecom中文电商领域检索任务Medical中文医疗领域检索任务Covid中文政策文件类检索任务Video中文娱乐视频领域检索任务T2来源于搜索引擎的段落排序中文基准测试Dureader来源于百度搜索引擎的段落检索任务Mmarco中文微软问答文摘检索测试Cmedqa2中文社区医疗问答测试