如何做属于自己的领券网站,谷歌官网下载,做网站软件 wordpage,网站开发指南时间线从2023年2月24日开始#xff0c;Meta推出了LLaMA模型#xff0c;虽然开源了代码#xff0c;却没有开源模型权重。LLaMA模型可以说是相对较小的#xff0c;拥有7B、13B、33B和65B参数的几种版本#xff0c;训练时间相对较长#xff0c;因此相对于其大小而言能力强大…时间线从2023年2月24日开始Meta推出了LLaMA模型虽然开源了代码却没有开源模型权重。LLaMA模型可以说是相对较小的拥有7B、13B、33B和65B参数的几种版本训练时间相对较长因此相对于其大小而言能力强大。
不久后的3月3日LLaMA肆意泄露给公众。尽管现有许可证禁止将其用于商业目的但从此以后任何人都能够进行实验加速了创新的步伐。
3月12日Artem Andreenko把模型在树莓派上运行起来此行动虽然实用性有限却为后续的模型缩小化努力奠定了基础。
次日3月13日斯坦福发布了Alpaca模型对LLaMA进行了指令调整。更重要的是他们采用低秩微调(low rank fine-tuning)使得在单个RTX 4090显卡上数小时内完成训练成为可能。
3月18日Georgi Gerganov使用4比特量化技术使LLaMA在MacBook CPU上快速运行实现了首个足够快速且无需GPU的实用方案。
第二天一个跨大学合作团队发布了Vicuna模型并声称与GPT-4有类似的性能。评估方法尽管存在疑问模型的确比早期版本有实质性提升训练成本仅300美元。
3月25日Nomic创建了GPT4All——一个模型和生态系统我们首次看到不同模型包括Vicuna集中在一个地方。训练成本为100美元。
同月28日Cerebras对GPT-3结构进行了训练利用了Chinchilla提供的最优计算时间表和μ-参数化的最优缩放性能大幅超越现有的GPT-3克隆模型。
该天还出现了采用Parameter Efficient Fine Tuning (PEFT)技术并在一小时内引入指令调整和多模态能力的LLaMA-Adapter设置了ScienceQA多模态任务的新标准。
4月3日伯克利发布了完全使用公开数据训练的对话模型Koala存在用户在该模型与ChatGPT之间难以区分的情况超过一半的情况下用户更喜欢Koala或没有偏好培训成本100美元。
到了4月15日Open Assistant推出了一个模型和数据集用于通过RLHF实现对齐。他们的模型在人类偏好方面非常接近ChatGPT (48.3%对51.7%)。更重要的是因为数据集是公开的所以即使对于小型实验者来说使用RLHF也从难以实现变得既便宜又容易。
该文概况了2023年初LLaMA模型发布后的一系列重要发展包括围绕模型的创新应用、培训成本的显著降低和开源生态系统的建立突显出人工智能语言模型领域的快速演变和广泛影响。