当前位置: 首页 > news >正文

fixed wordpress广州seo关键词优化是什么

fixed wordpress,广州seo关键词优化是什么,上市公司中 哪家网站做的好,济南哪里做网站Introduction sat#xff08;SwissArmyTransformer#xff09;是一个灵活而强大的库#xff0c;用于开发您自己的Transformer变体。 sat是以“瑞士军刀”命名的#xff0c;这意味着所有型号#xff08;例如BERT、GPT、T5、GLM、CogView、ViT…#xff09;共享相同的backo…Introduction satSwissArmyTransformer是一个灵活而强大的库用于开发您自己的Transformer变体。 sat是以“瑞士军刀”命名的这意味着所有型号例如BERT、GPT、T5、GLM、CogView、ViT…共享相同的backone代码并通过一些超轻量级的mixin满足多种用途。 sat由deepspeed ZeRO和模型并行性提供支持旨在为大模型100M\~20B参数的预训练和微调提供最佳实践。 从 SwissArmyTransformer 0.2.x 迁移到 0.3.x 导入时将包名称从 SwissArmyTransformer 更改为 sat例如从 sat 导入 get_args。删除脚本中的所有--sandwich-ln使用layernorm-ordersandwich。更改顺序 from_pretrained(args, name) from_pretrained(name, args)。我们可以直接使用 from sat.model import AutoModel;model, args AutoModel.from_pretrained(roberta-base) 以 仅模型模式 加载模型而不是先初始化 sat。 安装 pip install SwissArmyTransformer 特征 添加与模型无关的组件例如前缀调整只需一行 前缀调整或 P 调整通过在每个注意力层中添加可训练参数来改进微调。使用我们的库可以轻松地将其应用于 GLM 分类或任何其他模型。 class ClassificationModel(GLMModel): # can also be BertModel, RobertaModel, etc. def __init__(self, args, transformerNone, **kwargs):super().__init__(args, transformertransformer, **kwargs)self.add_mixin(classification_head, MLPHeadMixin(args.hidden_size, 2048, 1))# Arm an arbitrary model with Prefix-tuning with this line!self.add_mixin(prefix-tuning, PrefixTuningMixin(args.num_layers, args.hidden_size // args.num_attention_heads, args.num_attention_heads, args.prefix_len)) GPT 和其他自回归模型在训练和推理过程中的行为有所不同。在推理过程中文本是逐个令牌生成的我们需要缓存以前的状态以提高效率。使用我们的库您只需要考虑训练期间的行为教师强制并通过添加 mixin 将其转换为缓存的自回归模型 model, args AutoModel.from_pretrained(glm-10b-chinese, args) model.add_mixin(auto-regressive, CachedAutoregressiveMixin()) # Generate a sequence with beam search from sat.generation.autoregressive_sampling import filling_sequence from sat.generation.sampling_strategies import BeamSearchStrategy output, *mems filling_sequence(model, input_seq,batch_sizeargs.batch_size,strategyBeamSearchStrategy(args.batch_size)) 使用最少的代码构建基于 Transformer 的模型。我们提到了 GLM它与标准转换器称为 BaseModel仅在位置嵌入和训练损失上有所不同。我们在编码的时候只需要关注相关的部分就可以了。 扩展整个定义 class BlockPositionEmbeddingMixin(BaseMixin):# Here define parameters for the mixindef __init__(self, max_sequence_length, hidden_size, init_method_std0.02):super(BlockPositionEmbeddingMixin, self).__init__()self.max_sequence_length max_sequence_lengthself.hidden_size hidden_sizeself.block_position_embeddings torch.nn.Embedding(max_sequence_length, hidden_size)torch.nn.init.normal_(self.block_position_embeddings.weight, mean0.0, stdinit_method_std)# Here define the method for the mixindef position_embedding_forward(self, position_ids, **kwargs):position_ids, block_position_ids position_ids[:, 0], position_ids[:, 1]position_embeddings self.transformer.position_embeddings(position_ids)block_position_embeddings self.block_position_embeddings(block_position_ids)return position_embeddings block_position_embeddingsclass GLMModel(BaseModel):def __init__(self, args, transformerNone, parallel_outputTrue):super().__init__(args, transformertransformer, parallel_outputparallel_output)self.add_mixin(block_position_embedding, BlockPositionEmbeddingMixin(args.max_sequence_length, args.hidden_size)) # Add the mixin for GLM 全方位的培训支持。 sat 旨在提供预训练和微调的最佳实践您只需要完成forward_step 和 create_dataset_function但可以使用超参数来更改有用的训练配置。 通过指定 --num_nodes、--num_gpus 和一个简单的主机文件将训练扩展到多个 GPU 或节点。 DeepSpeed 和模型并行性。 ZeRO-2 和激活检查点的更好集成。 自动扩展和改组训练数据和内存映射。 成功支持CogView2和CogVideo的训练。 目前唯一支持在 GPU 上微调 T5-10B 的开源代码库。 快速浏览 在 sat 中使用 Bert用于推理的最典型的 python 文件如下 # File: inference_bert.py from sat import get_args, get_tokenizer, AutoModel # Parse args, initialize the environment. This is necessary. args get_args() # Automatically download and load model. Will also dump model-related hyperparameters to args. model, args AutoModel.from_pretrained(bert-base-uncased, args) # Get the BertTokenizer according to args.tokenizer_type (automatically set). tokenizer get_tokenizer(args) # Here to use bert as you want! # ... 然后我们可以通过以下方式运行代码 SAT_HOME/path/to/download python inference_bert.py --mode inference 所有官方支持的模型名称都在 urls.py 中。 # File: finetune_bert.py from sat import get_args, get_tokenizer, AutoModel from sat.model.mixins import MLPHeadMixindef create_dataset_function(path, args):# Here to load the dataset# ...assert isinstance(dataset, torch.utils.data.Dataset)return datasetdef forward_step(data_iterator, model, args, timers):inputs next(data_iterator) # from the dataset of create_dataset_function.loss, *others model(inputs)return loss# Parse args, initialize the environment. This is necessary. args get_args() model, args AutoModel.from_pretrained(bert-base-uncased, args) tokenizer get_tokenizer(args) # Here to use bert as you want! model.del_mixin(bert-final) model.add_mixin(classification_head, MLPHeadMixin(args.hidden_size, 2048, 1)) # ONE LINE to train! # args already includes hyperparams such as lr, train-iters, zero-stage ... training_main(args, model_clsmodel, forward_step_functionforward_step, # user definecreate_dataset_functioncreate_dataset_function # user define ) 然后我们可以通过以下方式运行代码 deepspeed --include localhost:0,1 finetune_bert.py \--experiment-name ftbert \--mode finetune --train-iters 1000 --save /path/to/save \--train-data /path/to/train --valid-data /path/to/valid \--lr 0.00002 --batch-size 8 --zero-stage 1 --fp16 这里我们在 GPU 0,1 上使用数据并行。我们还可以通过 --hostfile/path/to/hostfile 在许多互连的机器上启动训练。请参阅教程了解更多详细信息。 要编写自己的模型您只需要考虑与标准 Transformer 的差异。例如如果你有一个改进注意力操作的想法 from sat.model import BaseMixin class MyAttention(BaseMixin):def __init__(self, hidden_size):super(MyAttention, self).__init__()# MyAttention may needs some new params, e.g. a learnable alpha.self.learnable_alpha torch.nn.Parameter(torch.ones(hidden_size))# This is a hook function, the name attention_fn is special.def attention_fn(q, k, v, mask, dropoutNone, **kwargs):# Code for my attention.# ...return attention_results 这里的attention_fn是一个钩子函数用新函数替换默认动作。所有可用的钩子都在transformer_defaults.py中。现在我们可以使用 add_mixin 将更改应用到所有转换器例如 BERT、Vit 和 CogView。请参阅教程了解更多详细信息。 教程 How to use pretrained models collected in sat?Why and how to train models in sat? Citation Currently we dont have a paper, so you dont need to formally cite us!~ If this project helps your research or engineering, use \footnote{https://github.com/THUDM/SwissArmyTransformer} to mention us and recommend SwissArmyTransformer to others. The tutorial for contributing sat is on the way! The project is based on (a user of) DeepSpeed, Megatron-LM and Huggingface transformers. Thanks for their awesome work. 训练指导 The Training API 我们提供了一个简单但功能强大的训练APItraining_main()它不仅限于我们的Transformer模型还适用于任何torch.nn.Module。 from sat import get_args, training_main from sat.model import AutoModel, BaseModel args get_args() # to pretrain from scratch, give a class obj model BaseModel # to finetuned from a given model, give a torch.nn.Module model AutoModel.from_pretrained(bert-base-uncased, args)training_main(args, model_clsmodel,forward_step_functionforward_step,create_dataset_functiondataset_func,handle_metrics_functionNone,init_functionNone ) 以上是使用 sat 的标准训练计划的不完整示例。 Training_main 接受 5 个参数必需model_cls继承 torch.nn.Module 的类型对象或我们训练的 torch.nn.Module 对象。 必需forward_step_function一个自定义函数输入 data_iterator、model、args、timers、returns loss、{#39;metric0#39;: m0, ...}。 必填create_dataset_function返回一个torch.utils.data.Dataset用于加载。我们的库会自动将数据分配给多个worker并将数据迭代器交给forward_step_function。 可选handle_metrics_function在评估过程中处理特殊指标。 可选init_function在训练之前更改模型的钩子对于继续训练很有用。 有关完整示例请参阅 Finetune BERT 示例。
http://www.w-s-a.com/news/529055/

相关文章:

  • 电影天堂网站用什么程序做的wordpress 添加链接地址
  • 购买空间网站哪个好重庆英文网站建设
  • 建设网站需要注意什么问题设计网页通常使用什么语言
  • 彩票网站建设要多少钱西安英文网站建设
  • 静态班级网站印象云笔记 wordpress
  • 网站表单及商品列表详情模板永川网站制作联系电话
  • 网站建设与维护难不难网络服务机构的网站
  • 用三权重的网站做友链有好处没企业年金怎么查询
  • 工行网站跟建设网站区别wordpress加入地图
  • 网站的风格对比信息表广告门
  • 教育网站建设毕业设计说明书门户网站模式
  • 洛阳霞光建设网站html做分模块的网站
  • 域名建议网站wordpress 伪静态html
  • 网站风格化设计方案免费模式营销案例
  • 凤翔网站建设农村建设自己的网站首页
  • 怎样用网站做单笔外贸建筑设计公司合作加盟
  • 建网站买的是什么网站开发三层结构
  • wordpress图纸管理网站2345网址导航智能主版
  • 想调用等三方网站数据该怎么做培训课程
  • 高端营销网站建设wordpress咨询
  • 网站搜索框如何做创业怎么做网站
  • 网站手机版管理链接产品推广找哪家公司
  • vuejs 可做网站吗蜘蛛互联网站建设
  • 沈阳网站备案查询17zwd一起做业网站
  • 石家庄大型公司建站广州设计网站培训学校
  • 如何让百度收录中文域名网站wordpress前台管理评论
  • 铁岭 建筑公司网站 中企动力建设佛山app开发公司
  • 网站开发用的电脑深圳专业网站建设服务
  • 内容营销价值wordpress博客优化插件
  • 最优惠的郑州网站建设淘宝网商城