重庆网站建设公司那好,做盗版网站引流,沈阳网站制作教学,vps新建网站大语言模型的数据集有很多#xff0c;以下是一些常用的#xff1a;
- 中文维基百科#xff1a;这是一个包含大量中文文本的数据集#xff0c;可用于训练中文语言模型。 - 英文维基百科#xff1a;这是一个包含大量英文文本的数据集#xff0c;可用于训练英文语言模型。 …大语言模型的数据集有很多以下是一些常用的
- 中文维基百科这是一个包含大量中文文本的数据集可用于训练中文语言模型。 - 英文维基百科这是一个包含大量英文文本的数据集可用于训练英文语言模型。 - Common Crawl这是一个包含大量英文文本的数据集可用于训练英文语言模型。 - WebQuestionSP数据集、ComplexWebQuestions数据集、GraphQuestions数据集、GrailQA数据集、KQApro数据集、QALD-9数据集、MKQA数据集等这些都是近年来大火的大语言模型数据集。
此外一个1.6TB的数据集跨越了59种语言(46种自然语言13种编程语言)用于训练拥有1760亿个参数的BigScience大型公开科学多语言开放访问(BLOOM)语言模型。
在开发大语言模型时选择适合的数据集是非常重要的。为了节省数据准备时间并带来启发可以参考OpenDataLab已上架的、不同分类对应的的可用于大语言模型的预训练、指令微调等数据资源。同时也可以参考huggingfacemodelscope等平台这些平台上有一些常用的数据集。
1. **Common Crawl** - 网址: [http://commoncrawl.org](http://commoncrawl.org) - 介绍: Common Crawl是一个非盈利组织提供公共访问的Web数据集。它定期爬取整个网站并通过其归档让大量的网页文本数据可用于各种研究和开发目的。
2. **Wikipedia** - 网址: [https://dumps.wikimedia.org](https://dumps.wikimedia.org) - 介绍: 维基百科数据转储包含了所有维基百科条目的文本用于提供信息学术研究或者作为NLP任务的数据源。它支持多种语言并且可以免费下载和使用。
3. **OpenWebText** - 网址: 未官方发布通常在研究论文或项目中分享。 - 介绍: OpenWebText数据集受到OpenAI GPT训练数据集的启发由网上的公共文章组成。用于训练语言模型尤其是用来预训练类似于GPT风格的变换器模型。
4. **COCA (Corpus of Contemporary American English)** - 网址: [https://www.english-corpora.org/coca/](https://www.english-corpora.org/coca/) - 介绍: COCA是一个大型的美国英语语料库主要用于语言学研究和教育目的。可以用于开放语言模型训练的典型数据集。
COCA是美国当代英语语料库Corpus of Contemporary American English的简称。它是世界上使用最广泛的英语语料库之一不仅被语言学家用于研究也广泛用于教育和翻译等领域。 COCA语料库的特点可以概括为三个字大、全、新。它收录了高达5.6亿个词汇每年还会以两千万的数量持续扩充以保证其时效性。因此无论是对于英语母语者还是英语学习者都可以通过COCA获取到非常全面和最新的语言资料。此外该语料库还囊括了各种类型的文本如新闻、小说、电视剧、电影和广播等覆盖了美国英语的各个方面。 5. **TED Talks** - 网址: [https://www.ted.com/participate/translate/get-started](https://www.ted.com/participate/translate/get-started) - 介绍: TED演讲的数据集不仅包括视频内容的字幕文本还包含了许多语言的翻译版本。这是一个有用的多语言数据集可用于构建语音识别系统、机器翻译、以及语料库分析等任务。
6. **BookCorpus** - 网址: BookCorpus数据集原始官方网站已经关闭目前很难找到合法的下载源。BookCorpus是一个由多伦多大学的Yukun Zhu等人在2015年提出的大型文本语料库。该数据集主要收录了由尚未出版且是免费的书籍所组成的文本数量多达196,640本。这些书籍的内容覆盖广泛因此 BookCorpus可以视为一个丰富的语言资源经常被用于语句编码/解码的无监督学习等场景。 - 介绍: 该数据集包含数千本未获版权保护的图书文本以前常用来训练大型语言模型如BERT。
7. **SQuAD (Stanford Question Answering Dataset)** - 网址: [https://rajpurkar.github.io/SQuAD-explorer/](https://rajpurkar.github.io/SQuAD-explorer/) - 介绍: SQuAD是斯坦福大学创建的阅读理解数据集。它提供了一系列问题和相应的段落其中包含问题的答案。常用于训练和评估机器阅读理解系统。
8. **GLUE (General Language Understanding Evaluation)** - 网址: [https://gluebenchmark.com/](https://gluebenchmark.com/) - 介绍: GLUE是一系列评估自然语言理解系统的基准测试。它包含了不同的任务比如句子相似性、自然语言推理等用于衡量语言模型的综合性能。 9. **SuperGLUE** - 网址: [https://super.gluebenchmark.com/](https://super.gluebenchmark.com/) - 介绍: SuperGLUE是GLUE基准的后续项目提供了更具挑战性的任务集合以评估语言模型的推理能力。SuperGLUE是一个在通用语言理解评估GLUE基准平台之上进行的升级该平台是由谷歌DeepMind、华盛顿大学和纽约大学在2018年联合成立的。SuperGLUE的目标是进一步提升自然语言理解模型的性能通过提供更复杂、更有挑战性的任务来衡量模型的能力。 10. **SNLI (Stanford Natural Language Inference)** - 网址: [https://nlp.stanford.edu/projects/snli/](https://nlp.stanford.edu/projects/snli/) - 介绍: SNLI是一个大规模集合包括句子对及它们之间的关系标签蕴含、矛盾和中立。用于训练和测试自然语言推理NLI模型。SNLI全称Stanford Natural Language Inference是一个自然SNLI全称Stanford Natural Language Inference是一个自然语言推理NLI的数据集。它是由斯坦福大学的Bowman, Manning和Raffel等人在2015年提出的。这个数据集包含了约570k的句子对每个句子对都被标注为“中立”“蕴含”或“矛盾”三个标签之一。这些样本被广泛用于训练和测试自然语言推理模型。 1. The Pile这是一个825 GiB多样化的开源语言建模数据集由22个较小的高质量数据集组合在一起组成。The Pile是一个开源语言建模数据集由22个不同的高质量数据集构成总数据量达825GB。这些数据集包含多种类型的文本例如论坛、知识库和电子书等。此外Pile不仅被用于训练大型语言模型也可以用作评估语言模型跨领域知识和泛化能力的广泛覆盖基准。
下载地址https://openxlab.org.cn/datasets?keywordspilelangzh-CNpageNo1pageSize12。 2. C4这是一个750GB的英文语料库使用启发式方法仅提取自然语言数据同时删除所有乱码文本C4还进行了大量重复数据删除以提高其质量MPT-7B 和 T5 等语言模型是使用 C4 进行预训练的。下载地址https://huggingface.co/datasets/c4。 3. WanJuan的发布所有数据均采用统一的JSON格式组织并提供了数据集下载工具及相关文档。这个开源的大规模多语言多模态数据集已被用于InternLM模型的训练相比同规模模型InternLM在多维度评测中展现出明显优势。WanJuan的发布填补了公开源数据的空白有助于自然语言处理、计算机视觉等领域的技术进步特别是需要多模态理解生成的任务。 InternLM模型在各项评测中也十分优秀看样子这份数据集功不可没详情参考https://www.datalearner.com/ai-models/llm-evaluation。 大语言模型的核心是数据集一定要收集大量数据集并非某种模型或者算法。再说一遍先收集数据而不是算法和硬件。 注意以上内容可能随着时间而失效或者受到限制。