全国性质的网站开发公司,电商详情页模板免费下载,柳州网站建设哪里有,陕西工程项目信息网实际问题
在大模型的研发中,通常会有下面一些需求: 计划训练一个10B的模型,想知道至少需要多大的数据?收集到了1T的数据,想知道能训练一个多大的模型?老板准备1个月后开发布会,给的资源是100张A100,应该用多少数据训多大的模型效果最好?老板对现在10B的模型不满意,想…实际问题
在大模型的研发中,通常会有下面一些需求:
计划训练一个10B的模型,想知道至少需要多大的数据?收集到了1T的数据,想知道能训练一个多大的模型?老板准备1个月后开发布会,给的资源是100张A100,应该用多少数据训多大的模型效果最好?老板对现在10B的模型不满意,想知道扩大到100B模型的效果能提升到多少?核心结论
大模型的Scaling Law是OpenAI在2020年提出的概念[1],具体如下:
对于Decoder-only的模型,计算量𝐶(Flops), 模型参数量𝑁, 数据大小𝐷(token数),三者满足:𝐶≈6𝑁𝐷。(推导见本文最后)模型的最终性能主要与计算量𝐶,模型参数量𝑁和数据大小𝐷三者相关,而与模型的具体结构(层数/深度/宽度)基本无关。固定模型的总参数量,调整层数/深度/宽度,不同模型的性能差距很小,大部分在2%以内 3. 对于计算量𝐶,模型参数量𝑁和数据大小𝐷