当前位置: 首页 > news >正文

网站百度一直没有收录人社部能力建设中心网站

网站百度一直没有收录,人社部能力建设中心网站,wordpress图标,有些网页打不开是什么原因背景说明 DeepSeek系列解读请移步我的上一篇blog#xff1a;【完整版】DeepSeek-R1大模型学习笔记#xff08;架构、训练、Infra#xff09;代码仓库【科大的大四老哥太太太太太值得倾佩了】#xff1a;https://github.com/Unakar/Logic-RLDeepSeek-R1-Zero复现文档#…背景说明 DeepSeek系列解读请移步我的上一篇blog【完整版】DeepSeek-R1大模型学习笔记架构、训练、Infra代码仓库【科大的大四老哥太太太太太值得倾佩了】https://github.com/Unakar/Logic-RLDeepSeek-R1-Zero复现文档https://evxpwrsfkdb.feishu.cn/docx/NokEdaMBmo6aqZxVdxkcSm2cnab趁着DeepSeek火起来的这个风口自己抓紧学习一下大模型的基础知识慢慢把之前积累的一些东西串起来非常佩服科大的老哥前途无量正好我来学习一下大模型训练过程看下有哪些训练坑和经验值得总结 基本设置 训练算法DeepSeek-R1-Zero纯RL训练无long CoT、SFT和蒸馏过程Base modelQwen/Qwen2.5-7B-Instruct-1Mhuggingface传送门训练脚本执行bash main_grpo.shRL训练过程 第一阶段正确的格式学习3PPL数据集 训练400个step wandb filerun-20250207_161945-1oftdu9q main_grpo.sh脚本配置如下 set -x MODEL_PATHQwen2.5-7B-Instruct-1M export VLLM_ATTENTION_BACKENDXFORMERS python3 -m verl.trainer.main_ppo \algorithm.adv_estimatorgrpo \data.train_filesdata/kk/instruct/3ppl/train.parquet \data.val_filesdata/kk/instruct/3ppl/test.parquet \data.train_batch_size2 \data.val_batch_size4 \data.max_prompt_length400 \data.max_response_length2048 \actor_rollout_ref.model.path$MODEL_PATH \actor_rollout_ref.actor.optim.lr3e-7 \actor_rollout_ref.model.use_remove_paddingTrue \actor_rollout_ref.actor.ppo_mini_batch_size256 \actor_rollout_ref.actor.ppo_micro_batch_size64 \actor_rollout_ref.actor.use_kl_lossTrue \actor_rollout_ref.actor.kl_loss_coef0.001 \actor_rollout_ref.actor.kl_loss_typelow_var_kl \actor_rollout_ref.model.enable_gradient_checkpointingTrue \actor_rollout_ref.actor.fsdp_config.param_offloadTrue \actor_rollout_ref.actor.fsdp_config.grad_offloadTrue \actor_rollout_ref.actor.fsdp_config.optimizer_offloadTrue \actor_rollout_ref.rollout.log_prob_micro_batch_size160 \actor_rollout_ref.rollout.tensor_model_parallel_size1 \actor_rollout_ref.rollout.namevllm \actor_rollout_ref.rollout.gpu_memory_utilization0.6 \actor_rollout_ref.rollout.n16 \actor_rollout_ref.ref.log_prob_micro_batch_size160 \actor_rollout_ref.ref.fsdp_config.param_offloadTrue \algorithm.kl_ctrl.kl_coef0.001 \trainer.critic_warmup0 \trainer.logger[wandb] \trainer.project_nameGRPO_logic_KK \trainer.experiment_nameQwen-7B \trainer.n_gpus_per_node2 \trainer.nnodes1 \trainer.default_local_dirlocal_dir \trainer.default_hdfs_dirnull \trainer.save_freq10 \trainer.test_freq10 \trainer.total_epochs1 $ 21 | tee grpo.log验证集效果逐渐变好 平均reward、答案错误的比例、全对的比例、格式错误比例前三者趋势正确但是变化不大格式错误大幅降低因为这一步主要是在简单的3PPL数据上学格式大约10个step可以将格式错误降到0.1以下 平均生成长度有少量增长但并不明显应该是还在第一阶段的问题 再看一下生成答案过程中的一些特点 再看一下出现的格式错误具体原因 还出现了不同程度的语言混杂问题
http://www.w-s-a.com/news/724990/

相关文章:

  • 做网站还是博客由()承担
  • wordpress 导购站模板中国最新军事新闻直播83军
  • 公众号h5网站开发wordpress文章主图
  • ps怎么艺术字字体设计网站我想自己做网站
  • 北京做机柜空调的网站模板网站和插件
  • 手机购物网站模板wordpress添加分类文档
  • 网站开发知识网上怎么申请个人营业执照
  • 音乐网站建设费用营销策略都有哪些4p
  • 深圳制作网站怎么样wordpress 学习视频
  • 新公司注册网站传奇手游大型网站
  • 无极网站网站涉案多少人被抓网站的按钮怎么做
  • ds216j做网站做购物网站那个好
  • 做淘宝门头的网站阿里巴巴官网app
  • 安踏网站建设策划方案如何通过域名访问网站
  • 建设网站破解版seo查询 站长之家
  • 太原模板建站平台旅游企业网站建设工作的通知
  • 网站国外建设超级简历模板官网
  • 上海网站建设市场医药网站怎么做
  • 宁夏成城建设集团网站网店美工课本
  • 哪些网站的简历做的比较好政务服务 网站 建设方案
  • 如何建设个人网站凡科怎么样vps安装wordpress后怎样登录
  • 学seo朝阳区seo
  • 网站开发团队成员皮具网站建设
  • 国外外贸需求网站响应式布局网页
  • 手机端便民服务平台网站建设昆明网络哪家好
  • 产品网站建设找哪家舟山信息港
  • 唐山网站建设汉狮怎么样seol英文啥意思
  • 深圳小程序网站开发公司网页制作模板视频教程
  • 电子商务网站开发开题报告wordpress更改后台地址
  • 网站静态前端是什么工作