当前位置：首页 > news >正文

销售型网站有哪些做网站游戏需要什么

news 2025/12/19 6:43:49

销售型网站有哪些,做网站游戏需要什么,宁波seo搜索优化费用,微信开发者代码管理Datasets库是HuggingFace生态系统中一个重要的数据集库#xff0c;可用于轻松地访问和共享数据集#xff0c;这些数据集是关于音频、计算机视觉、以及自然语言处理等领域。Datasets 库可以通过一行来加载一个数据集#xff0c;并且可以使用 Hugging Face 强大的数据处理方法… Datasets库是HuggingFace生态系统中一个重要的数据集库可用于轻松地访问和共享数据集这些数据集是关于音频、计算机视觉、以及自然语言处理等领域。Datasets 库可以通过一行来加载一个数据集并且可以使用 Hugging Face 强大的数据处理方法来快速准备好你的数据集。在 Apache Arrow 格式的支持下通过 zero-copy read 来处理大型数据集而没有任何内存限制从而实现最佳速度和效率。当需要微调模型的时候需要对数据集进行以下操作数据集加载下载、加载数据集数据集预处理使用Dataset.map() 预处理数据数据集评估指标加载和计算指标可以在HuggingFace官网来搜共享索数据集https://huggingface.co/datasets 。本文中使用的主要数据集为squad数据集其在HuggingFace网站上的数据前几行如下加载数据加载Dataset数据集 Dataset数据集可以是HuggingFace Datasets网站上的数据集或者是本地路径对应的数据集也可以同时加载多个数据集。以下是加载英语阅读理解数据集squad 该数据集的网址为https://huggingface.co/datasets/squad 也是本文中使用的主要数据集。 import datasets# 加载单个数据集 raw_datasets datasets.load_dataset(squad) # 加载多个数据集 raw_datasets datasets.load_dataset(glue, mrpc)从文件中加载数据支持csv, tsv, txt, json, jsonl等格式的文件 from datasets import load_datasetdata_files {train: ./data/sougou_mini/train.csv, test: ./data/sougou_mini/test.csv} drug_dataset load_dataset(csv, data_filesdata_files, delimiter,)从Dataframe中加载数据 import pandas as pd from datasets import Dataset my_dict {a: [1, 2, 3], b: [A, B, C]} dataset1 Dataset.from_dict(my_dict) df pd.DataFrame(my_dict) dataset2 Dataset.from_pandas(df)查看数据数据结构数据结构包括数据集的划分trainvalidtest数据集数据集的数量数据集的feature squad数据的数据结构如下 DatasetDict({train: Dataset({features: [id, title, context, question, answers],num_rows: 87599})validation: Dataset({features: [id, title, context, question, answers],num_rows: 10570}) })数据切分 import datasetsraw_dataset datasets.load_dataset(squad)# 获取某个划分数据集比如train train_dataset raw_dataset[train] # 获取前10条数据 head_dataset train_dataset.select(range(10)) # 获取随机10条数据 shuffle_dataset train_dataset.shuffle(seed42).select(range(10)) # 数据切片 slice_dataset train_dataset[10:20]更多特性数据打乱shuffle shuffle的功能是打乱datasets中的数据其中seed是设置打乱的参数如果设置打乱的seed是相同的那我们就可以得到一个完全相同的打乱结果这样用相同的打乱结果才能重复的进行模型试验。 import datasetsraw_dataset datasets.load_dataset(squad) # 打乱数据集 shuffle_dataset train_dataset.shuffle(seed42)数据流stream stream的功能是将数据集进行流式化可以不用在下载整个数据集的情况下使用该数据集。这在以下场景中特别有用你不想等待整个庞大的数据集下载完毕数据集大小超过了你计算机的可用硬盘空间你想快速探索数据集的少数样本 from datasets import load_datasetdataset load_dataset(oscar-corpus/OSCAR-2201, en, splittrain, streamingTrue) print(next(iter(dataset)))数据列重命名rename columns 数据集支持对列重命名。下面的代码将squad数据集中的context列重命名为text from datasets import load_datasetsquad load_dataset(squad) squad squad.rename_column(context, text)数据丢弃列drop columns 数据集支持对列进行丢弃在删除一个或多个列时向remove_columns()函数提供要删除的列名。单个列删除传入列名多个列删除传入列名的列表。下面的代码将squad数据集中的id列丢弃 from datasets import load_datasetsquad load_dataset(squad) # 删除一个列 squad squad.remove_columns(id) # 删除多个列 squad squad.remove_columns([title, text])数据新增列add new columns 数据集支持新增列。下面的代码在squad数据集上新增一列test内容全为字符串111 from datasets import load_datasetsquad load_dataset(squad) # 新增列 new_train_squad squad[train].add_column(test, [111] * squad[train].num_rows)数据类型转换cast cast()函数对一个或多个列的特征类型进行转换。这个函数接受你的新特征作为其参数。 from datasets import load_datasetsquad load_dataset(squad) # 新增列 new_train_squad squad[train].add_column(test, [111] * squad[train].num_rows) print(new_train_squad.features) # 转换test列的数据类型 new_features new_train_squad.features.copy() new_features[test] Value(int64) new_train_squad new_train_squad.cast(new_features) # 输出转换后的数据类型 print(new_train_squad.features)数据展平flatten 针对嵌套结构的数据类型可使用flatten()函数将子字段提取到它们自己的独立列中。 from datasets import load_datasetsquad load_dataset(squad) flatten_dataset squad[train].flatten() print(flatten_dataset)输出结果为 Dataset({features: [id, title, context, question, answers.text, answers.answer_start],num_rows: 87599 })数据合并Concatenate Multiple Datasets 如果独立的数据集有相同的列类型那么它们可以被串联起来。用concatenate_datasets()来连接不同的数据集。 from datasets import concatenate_datasets, load_datasetsquad load_dataset(squad) squad_v2 load_dataset(squad_v2) # 合并数据集 squad_all concatenate_datasets([squad[train], squad_v2[train]])数据过滤filter filter()函数支持对数据集进行过滤一般采用lambda函数实现。下面的代码对squad数据集中的训练集的question字段过滤掉split后长度小于等于10的数据 from datasets import load_datasetsquad load_dataset(squad) filter_dataset squad[train].filter(lambda x: len(x[question].split()) 10)输出结果如下 Dataset({features: [id, title, context, question, answers],num_rows: 34261 })数据排序sort 使用sort()对列值根据其数值进行排序。下面的代码是对squad数据集中的训练集按照标题长度进行排序 from datasets import load_datasetsquad load_dataset(squad) # 新增列, title_length, 标题长度 new_train_squad squad[train].add_column(title_length, [len(_) for _ in squad[train][title]]) # 按照title_length排序 new_train_squad new_train_squad.sort(title_length)数据格式set_format set_format()函数改变了一个列的格式使之与一些常见的数据格式兼容。在类型参数中指定你想要的输出和你想要格式化的列。格式化是即时应用的。支持的数据格式有None, numpy, torch, tensorflow, pandas, arrow, 如果选择None就会返回python对象。下面的代码将新增标题长度列并将其转化为numpy格式 from datasets import load_datasetsquad load_dataset(squad) # 新增列, title_length, 标题长度 new_train_squad squad[train].add_column(title_length, [len(_) for _ in squad[train][title]]) # 转换为numpy支持的数据格式 new_train_squad.set_format(typenumpy, columns[title_length])数据指标load metrics HuggingFace Hub上提供了一系列的评估指标metrics前20个指标如下 from datasets import list_metrics metrics_list list_metrics() print(, .join(metric for metric in metrics_list[:20]))输出结果如下 accuracy, bertscore, bleu, bleurt, brier_score, cer, character, charcut_mt, chrf, code_eval, comet, competition_math, coval, cuad, exact_match, f1, frugalscore, glue, google_bleu, indic_glue从Hub中加载一个指标使用 datasets.load_metric() 命令比如加载squad数据集的指标 from datasets import load_metric metric load_metric(squad)输出结果如下 Metric(name: squad, features: {predictions: {id: Value(dtypestring, idNone), prediction_text: Value(dtypestring, idNone)}, references: {id: Value(dtypestring, idNone), answers: Sequence(feature{text: Value(dtypestring, idNone), answer_start: Value(dtypeint32, idNone)}, length-1, idNone)}}, usage: Computes SQuAD scores (F1 and EM). Args:predictions: List of question-answers dictionaries with the following key-values:- id: id of the question-answer pair as given in the references (see below)- prediction_text: the text of the answerreferences: List of question-answers dictionaries with the following key-values:- id: id of the question-answer pair (see above),- answers: a Dict in the SQuAD dataset format{text: list of possible texts for the answer, as a list of stringsanswer_start: list of start positions for the answer, as a list of ints}Note that answer_start values are not taken into account to compute the metric. Returns:exact_match: Exact match (the normalized answer exactly match the gold answer)f1: The F-score of predicted tokens versus the gold answer Examples: predictions [{prediction_text: 1976, id: 56e10a3be3433e1400422b22}] references [{answers: {answer_start: [97], text: [1976]}, id: 56e10a3be3433e1400422b22}] squad_metric datasets.load_metric(squad) results squad_metric.compute(predictionspredictions, referencesreferences) print(results){exact_match: 100.0, f1: 100.0} , stored examples: 0)load_metric还支持分布式计算本文不再详细讲述。 load_metric现在已经是老版本了新版本将用evaluate模块代替访问网址为https://github.com/huggingface/evaluate 。数据映射map map就是映射它接收一个函数Dataset中的每个元素都会被当作这个函数的输入并将函数返回值作为新的Dataset。常见的map函数的应用是对文本进行tokenize from datasets import load_dataset from transformers import AutoTokenizersquad_dataset load_dataset(squad)checkpoint bert-base-cased tokenizer AutoTokenizer.from_pretrained(checkpoint)def tokenize_function(sample):return tokenizer(sample[context], truncationTrue, max_length256)tokenized_dataset squad_dataset.map(tokenize_function, batchedTrue)输出结果如下 DatasetDict({train: Dataset({features: [id, title, context, question, answers, input_ids, token_type_ids, attention_mask],num_rows: 87599})validation: Dataset({features: [id, title, context, question, answers, input_ids, token_type_ids, attention_mask],num_rows: 10570}) })数据保存/加载save to disk/ load from disk 使用save_to_disk()来保存数据集方便在以后重新使用它,使用 load_from_disk()函数重新加载数据集。我们将上面map后的tokenized_dataset数据集进行保存 tokenized_dataset.save_to_disk(squad_tokenized)保存后的文件结构如下 squad_tokenized/ ├── dataset_dict.json ├── train │ ├── data-00000-of-00001.arrow │ ├── dataset_info.json │ └── state.json └── validation├── data-00000-of-00001.arrow├── dataset_info.json└── state.json加载数据的代码如下 from datasets import load_from_disk reloaded_dataset load_from_disk(squad_tokenized) 总结本文可作为dataset库的入门详细介绍了数据集的各种操作这样方便后续进行模型训练。参考文献 Datasets: https://www.huaxiaozhuan.com/工具/huggingface_transformer/chapters/2_datasets.htmlHuggingface详细入门介绍之dataset库https://zhuanlan.zhihu.com/p/554678463Stream: https://huggingface.co/docs/datasets/streamHuggingFace教程 Datasets基本操作: Process: https://zhuanlan.zhihu.com/p/557032513

查看全文

http://www.w-s-a.com/news/294452/