网站百度一直没有收录,人社部能力建设中心网站,wordpress图标,有些网页打不开是什么原因背景说明
DeepSeek系列解读请移步我的上一篇blog#xff1a;【完整版】DeepSeek-R1大模型学习笔记#xff08;架构、训练、Infra#xff09;代码仓库【科大的大四老哥太太太太太值得倾佩了】#xff1a;https://github.com/Unakar/Logic-RLDeepSeek-R1-Zero复现文档#…背景说明
DeepSeek系列解读请移步我的上一篇blog【完整版】DeepSeek-R1大模型学习笔记架构、训练、Infra代码仓库【科大的大四老哥太太太太太值得倾佩了】https://github.com/Unakar/Logic-RLDeepSeek-R1-Zero复现文档https://evxpwrsfkdb.feishu.cn/docx/NokEdaMBmo6aqZxVdxkcSm2cnab趁着DeepSeek火起来的这个风口自己抓紧学习一下大模型的基础知识慢慢把之前积累的一些东西串起来非常佩服科大的老哥前途无量正好我来学习一下大模型训练过程看下有哪些训练坑和经验值得总结
基本设置
训练算法DeepSeek-R1-Zero纯RL训练无long CoT、SFT和蒸馏过程Base modelQwen/Qwen2.5-7B-Instruct-1Mhuggingface传送门训练脚本执行bash main_grpo.shRL训练过程
第一阶段正确的格式学习3PPL数据集 训练400个step wandb filerun-20250207_161945-1oftdu9q main_grpo.sh脚本配置如下 set -x
MODEL_PATHQwen2.5-7B-Instruct-1M
export VLLM_ATTENTION_BACKENDXFORMERS
python3 -m verl.trainer.main_ppo \algorithm.adv_estimatorgrpo \data.train_filesdata/kk/instruct/3ppl/train.parquet \data.val_filesdata/kk/instruct/3ppl/test.parquet \data.train_batch_size2 \data.val_batch_size4 \data.max_prompt_length400 \data.max_response_length2048 \actor_rollout_ref.model.path$MODEL_PATH \actor_rollout_ref.actor.optim.lr3e-7 \actor_rollout_ref.model.use_remove_paddingTrue \actor_rollout_ref.actor.ppo_mini_batch_size256 \actor_rollout_ref.actor.ppo_micro_batch_size64 \actor_rollout_ref.actor.use_kl_lossTrue \actor_rollout_ref.actor.kl_loss_coef0.001 \actor_rollout_ref.actor.kl_loss_typelow_var_kl \actor_rollout_ref.model.enable_gradient_checkpointingTrue \actor_rollout_ref.actor.fsdp_config.param_offloadTrue \actor_rollout_ref.actor.fsdp_config.grad_offloadTrue \actor_rollout_ref.actor.fsdp_config.optimizer_offloadTrue \actor_rollout_ref.rollout.log_prob_micro_batch_size160 \actor_rollout_ref.rollout.tensor_model_parallel_size1 \actor_rollout_ref.rollout.namevllm \actor_rollout_ref.rollout.gpu_memory_utilization0.6 \actor_rollout_ref.rollout.n16 \actor_rollout_ref.ref.log_prob_micro_batch_size160 \actor_rollout_ref.ref.fsdp_config.param_offloadTrue \algorithm.kl_ctrl.kl_coef0.001 \trainer.critic_warmup0 \trainer.logger[wandb] \trainer.project_nameGRPO_logic_KK \trainer.experiment_nameQwen-7B \trainer.n_gpus_per_node2 \trainer.nnodes1 \trainer.default_local_dirlocal_dir \trainer.default_hdfs_dirnull \trainer.save_freq10 \trainer.test_freq10 \trainer.total_epochs1 $ 21 | tee grpo.log验证集效果逐渐变好 平均reward、答案错误的比例、全对的比例、格式错误比例前三者趋势正确但是变化不大格式错误大幅降低因为这一步主要是在简单的3PPL数据上学格式大约10个step可以将格式错误降到0.1以下 平均生成长度有少量增长但并不明显应该是还在第一阶段的问题 再看一下生成答案过程中的一些特点 再看一下出现的格式错误具体原因 还出现了不同程度的语言混杂问题