做外汇网站,wordpress用户私信功能,广告设计公司vi,网站模版 拓诸神缄默不语-个人CSDN博文目录
最近更新时间#xff1a;2023.4.26 最早更新时间#xff1a;2023.4.25
文本摘要主题的数据集见我之前写的另一篇博文#xff1a;文本摘要数据集的整理、总结及介绍#xff08;持续更新ing…#xff09; 智能司法主题的数据集我准备等项目…诸神缄默不语-个人CSDN博文目录
最近更新时间2023.4.26 最早更新时间2023.4.25
文本摘要主题的数据集见我之前写的另一篇博文文本摘要数据集的整理、总结及介绍持续更新ing… 智能司法主题的数据集我准备等项目结束后发布。 其他NLP数据集见下 文章目录 1. 语料库1.1 中文 2. QA数据集2.1 英文 3. 对话系统3.1 open-domain3.1.1 中文 4. 多模态4.1 图文匹配 5. 复述6. 自然语言推理NLI6.1 集锦6.2 英文 5. 其他集成性项目 / benchmark5.1 中文5.2 中文多模态5.3 英文 1. 语料库
1.1 中文
CLUEbenchmark/CLUECorpus2020: Large-scale Pre-training Corpus for Chinese 100G 中文预训练语料FudanNLPLAB/CBook-150K: 中文图书语料MD5链接Index of /zhwiki/latest/PCL-Platform.Intelligence/Chinese_WPLC: 中文长上下文词语预测Chinese WPLC数据集 - Chinese_WPLC - OpenI - 启智AI开源社区提供普惠算力诗歌和音韵THUNLP-AIPoet/Datasets: Poetry-related datasets developed by THUAIPoet (Jiuge) group.
2. QA数据集
2.1 英文
QQP First Quora Dataset Release: Question Pairs - Data Quora - Quora
3. 对话系统
3.1 open-domain
3.1.1 中文
https://huggingface.co/datasets/fnlp/moss-002-sft-datahttps://github.com/OpenLMLab/MOSS/tree/main/SFT_data/conversations/conversation_with_pluginshttps://github.com/OpenLMLab/MOSS/tree/main/SFT_data/conversations/conversation_without_pluginsthu-coai/CDial-GPT: A Large-scale Chinese Short-Text Conversation Dataset and Chinese pre-training dialog models
4. 多模态
4.1 图文匹配
Flickr 30k From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions
5. 复述
ParaNMT-50M: Pushing the Limits of Paraphrastic Sentence Embeddings with Millions of Machine Translations Para-nmt-50m https://drive.google.com/file/d/1rbF3daJjCsa1-fu2GANeJd2FBXos1ugD/view?uspsharingPara-nmt-5m-processed https://drive.google.com/file/d/19NQ87gEFYu3zOIp_VNYQZgmnwRuSIyJd/view?uspsharing
6. 自然语言推理NLI
6.1 集锦
赛尔笔记 | 自然语言推理数据集简述 - 知乎GLUE部分基准数据集介绍RTE、MRPC、SST-2、QNLI、MNLI、QQP_真·skysys的博客-CSDN博客
6.2 英文
SNLI https://nlp.stanford.edu/projects/snli/
5. 其他集成性项目 / benchmark
5.1 中文
CLUEbenchmark/CLUE: 中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard中文医疗信息处理评测基准CBLUE千言LUGE| 全面的中文开源数据集合funNLPbrightmart/nlp_chinese_corpus: 大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
5.2 中文多模态
MUGE(Multimodal Understanding and Generation Evaluation)
5.3 英文
SemEval