南京学校网站建设策划,企业咨询公司是干嘛的,贵港做网站建设价格费用,家装设计师有前途吗引言
当前LLM模型火出天际#xff0c;但是做事还是需要脚踏实地。此文只是日常学习LLM#xff0c;顺手整理所得。本篇博文更多侧重对话、问答类LLM上#xff0c;其他方向#xff08;代码生成#xff09;这里暂不涉及#xff0c;可以去看综述来了解。
之前LLM模型梳理
…引言
当前LLM模型火出天际但是做事还是需要脚踏实地。此文只是日常学习LLM顺手整理所得。本篇博文更多侧重对话、问答类LLM上其他方向代码生成这里暂不涉及可以去看综述来了解。
之前LLM模型梳理
图来源 A Survey of Large Language Models | Github Repo
BLOOM BigScience
BLOOM是一个自回归的大模型可根据prompt来生成连续的文本。包括46种语言和13个编程语言。参数量为1760亿个参数。和GPT一样使用的是decoder-only架构。训练所用数据集基本是手搓出来的。但是要想推理起来这个模型起码需要8个A800 80G的显卡才能推理起来。小编前不久有幸推理了一下模型将近就有328G真是够大的。这个模型要想落地可就需要很长一段时间了。
后BLOOM模型梳理 #mermaid-svg-qk3tYHq32MPTyMlO {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-qk3tYHq32MPTyMlO .error-icon{fill:#552222;}#mermaid-svg-qk3tYHq32MPTyMlO .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-qk3tYHq32MPTyMlO .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-qk3tYHq32MPTyMlO .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-qk3tYHq32MPTyMlO .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-qk3tYHq32MPTyMlO .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-qk3tYHq32MPTyMlO .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-qk3tYHq32MPTyMlO .marker{fill:#333333;stroke:#333333;}#mermaid-svg-qk3tYHq32MPTyMlO .marker.cross{stroke:#333333;}#mermaid-svg-qk3tYHq32MPTyMlO svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-qk3tYHq32MPTyMlO .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-qk3tYHq32MPTyMlO .cluster-label text{fill:#333;}#mermaid-svg-qk3tYHq32MPTyMlO .cluster-label span{color:#333;}#mermaid-svg-qk3tYHq32MPTyMlO .label text,#mermaid-svg-qk3tYHq32MPTyMlO span{fill:#333;color:#333;}#mermaid-svg-qk3tYHq32MPTyMlO .node rect,#mermaid-svg-qk3tYHq32MPTyMlO .node circle,#mermaid-svg-qk3tYHq32MPTyMlO .node ellipse,#mermaid-svg-qk3tYHq32MPTyMlO .node polygon,#mermaid-svg-qk3tYHq32MPTyMlO .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-qk3tYHq32MPTyMlO .node .label{text-align:center;}#mermaid-svg-qk3tYHq32MPTyMlO .node.clickable{cursor:pointer;}#mermaid-svg-qk3tYHq32MPTyMlO .arrowheadPath{fill:#333333;}#mermaid-svg-qk3tYHq32MPTyMlO .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-qk3tYHq32MPTyMlO .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-qk3tYHq32MPTyMlO .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-qk3tYHq32MPTyMlO .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-qk3tYHq32MPTyMlO .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-qk3tYHq32MPTyMlO .cluster text{fill:#333;}#mermaid-svg-qk3tYHq32MPTyMlO .cluster span{color:#333;}#mermaid-svg-qk3tYHq32MPTyMlO div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-qk3tYHq32MPTyMlO :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} BLOOM Firefly BELLE LLaMA (Meta)
缺乏指令微调
后LLaMA模型梳理 #mermaid-svg-M45um95oGoSGYhBJ {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-M45um95oGoSGYhBJ .error-icon{fill:#552222;}#mermaid-svg-M45um95oGoSGYhBJ .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-M45um95oGoSGYhBJ .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-M45um95oGoSGYhBJ .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-M45um95oGoSGYhBJ .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-M45um95oGoSGYhBJ .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-M45um95oGoSGYhBJ .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-M45um95oGoSGYhBJ .marker{fill:#333333;stroke:#333333;}#mermaid-svg-M45um95oGoSGYhBJ .marker.cross{stroke:#333333;}#mermaid-svg-M45um95oGoSGYhBJ svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-M45um95oGoSGYhBJ .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-M45um95oGoSGYhBJ .cluster-label text{fill:#333;}#mermaid-svg-M45um95oGoSGYhBJ .cluster-label span{color:#333;}#mermaid-svg-M45um95oGoSGYhBJ .label text,#mermaid-svg-M45um95oGoSGYhBJ span{fill:#333;color:#333;}#mermaid-svg-M45um95oGoSGYhBJ .node rect,#mermaid-svg-M45um95oGoSGYhBJ .node circle,#mermaid-svg-M45um95oGoSGYhBJ .node ellipse,#mermaid-svg-M45um95oGoSGYhBJ .node polygon,#mermaid-svg-M45um95oGoSGYhBJ .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-M45um95oGoSGYhBJ .node .label{text-align:center;}#mermaid-svg-M45um95oGoSGYhBJ .node.clickable{cursor:pointer;}#mermaid-svg-M45um95oGoSGYhBJ .arrowheadPath{fill:#333333;}#mermaid-svg-M45um95oGoSGYhBJ .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-M45um95oGoSGYhBJ .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-M45um95oGoSGYhBJ .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-M45um95oGoSGYhBJ .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-M45um95oGoSGYhBJ .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-M45um95oGoSGYhBJ .cluster text{fill:#333;}#mermaid-svg-M45um95oGoSGYhBJ .cluster span{color:#333;}#mermaid-svg-M45um95oGoSGYhBJ div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-M45um95oGoSGYhBJ :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} LLaMA Alpaca FreedomGPT Chinese-alpaca-lora japanese-alpaca-lora Wombat Vicuna Koala ChatLLaMA Chinese-ChatLLaMA ColossalChat Baize gpt4all HuaTuo Alpaca (斯坦福)
由Meta的LLaMA 7B微调而来52k数据性能约等于GPT-3.5由Self-Instruct: Aligning Language Model with Self Generated Instructions论文启发使用现有强语言模型自动生成指令数据衍生项目 Alpaca-LoRA: 开启了LLaMA模型上LoRA微调Chinese-LLaMA-AlpacaChinese-alpaca-lorajapanese-alpaca-loraWombat 提出无需强化学习的对齐方法训练语言模型
Vicuna (UC伯克利、卡内基梅隆大学、斯坦福大学和加州大学圣地亚哥分校)
与GPT-4性能相匹配的LLaMA微调版本 130亿参数通过在ShareGPT收集用户共享对话对LLaMA进行微调而来在超过90%的情况下实现了与Bard和ChatGPT相匹配的能力 训练流程 #mermaid-svg-0uFbt0nZrzs0S4Jn {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-0uFbt0nZrzs0S4Jn .error-icon{fill:#552222;}#mermaid-svg-0uFbt0nZrzs0S4Jn .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-0uFbt0nZrzs0S4Jn .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-0uFbt0nZrzs0S4Jn .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-0uFbt0nZrzs0S4Jn .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-0uFbt0nZrzs0S4Jn .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-0uFbt0nZrzs0S4Jn .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-0uFbt0nZrzs0S4Jn .marker{fill:#333333;stroke:#333333;}#mermaid-svg-0uFbt0nZrzs0S4Jn .marker.cross{stroke:#333333;}#mermaid-svg-0uFbt0nZrzs0S4Jn svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-0uFbt0nZrzs0S4Jn .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-0uFbt0nZrzs0S4Jn .cluster-label text{fill:#333;}#mermaid-svg-0uFbt0nZrzs0S4Jn .cluster-label span{color:#333;}#mermaid-svg-0uFbt0nZrzs0S4Jn .label text,#mermaid-svg-0uFbt0nZrzs0S4Jn span{fill:#333;color:#333;}#mermaid-svg-0uFbt0nZrzs0S4Jn .node rect,#mermaid-svg-0uFbt0nZrzs0S4Jn .node circle,#mermaid-svg-0uFbt0nZrzs0S4Jn .node ellipse,#mermaid-svg-0uFbt0nZrzs0S4Jn .node polygon,#mermaid-svg-0uFbt0nZrzs0S4Jn .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-0uFbt0nZrzs0S4Jn .node .label{text-align:center;}#mermaid-svg-0uFbt0nZrzs0S4Jn .node.clickable{cursor:pointer;}#mermaid-svg-0uFbt0nZrzs0S4Jn .arrowheadPath{fill:#333333;}#mermaid-svg-0uFbt0nZrzs0S4Jn .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-0uFbt0nZrzs0S4Jn .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-0uFbt0nZrzs0S4Jn .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-0uFbt0nZrzs0S4Jn .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-0uFbt0nZrzs0S4Jn .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-0uFbt0nZrzs0S4Jn .cluster text{fill:#333;}#mermaid-svg-0uFbt0nZrzs0S4Jn .cluster span{color:#333;}#mermaid-svg-0uFbt0nZrzs0S4Jn div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-0uFbt0nZrzs0S4Jn :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} ShareGPT收集70k对话数据 优化Aplaca训练脚本处理多轮对话和长序列问题 PyTorch FSDP 8个A100 一天训练 质量评估80个问题用GPT-4对模型输出进行评价 三者之间汇总对比 Koala (UC伯克利 AI Research InstituteBAIR)
使用网络获取的高质量数据进行训练可以有效地回答各种用户的查询比Alpaca更受欢迎至少在一半的情况下与ChatGPT的效果不相上下得出有效结论正确的数据可以显著改善规模更小的开源模型研究人员专注于收集一个小型的高质量数据集包括ChatGPT蒸馏数据、开源数据等
ChatLLaMA (Nebuly)
一个可以使用自己的数据和尽可能少的计算量来创建个性化的类似ChatGPT的对话助手库的目的是通过抽象计算优化和收集大量数据所需的工作让开发人员高枕无忧ChatLLaMA旨在帮助开发人员处理各种用例所有用例都与RLHF训练和优化推理有关。以下是一些用例参考 为垂直特定任务法律、医疗、游戏、学术研究等创建类似ChatGPT的个性化助手想在本地硬件基础设施上使用有限的数据训练一个高效的类似ChatGPT的助手想创建自己的个性化版本类ChatGPT助手同时避免成本失控想了解哪种模型架构LLaMA、OPT、GPTJ等最符合我在硬件、计算预算和性能方面的要求想让助理与我的个人/公司价值观、文化、品牌和宣言保持一致。
Chinese-ChatLLaMAydli-ai
中文对话模型ChatLLaMA、中文基础模型LLaMA-zh。 -ChatLLaMA 支持简繁体中文、英文、日文等多语言。LLaMA 在预训练阶段主要使用英文为了将其语言能力迁移到中文上首先进行中文增量预训练使用的语料包括中英平行语料、中文维基、社区互动、新闻数据、科学文献等。再通过 Alpaca 指令微调得到 Chinese-ChatLLaMA。项目特点 通过 Full-tuning 全参数训练获得中文模型权重提供 TencentPretrain 与 HuggingFace 版本模型细节公开可复现提供数据准备、模型训练和模型评估完整流程代码提供目前最大的中文 LLaMA 模型多种量化方案支持 CUDA 和边缘设备部署推理
FreedomGPT (Age of AI)
建立在Alpaca之上回答问题没有偏见或偏袒并且会毫不犹豫第回答有争议或争论性的话题克服了审查限制在没有任何保障的情况下迎合有争议性的话题。标志是自由女神像象征自由。
ColossalChat (UC伯克利)
基于LLaMA模型只需不到100亿个参数就能达到中英文双语能力效果与ChatGPT和GPT3.5相当。复刻了完整的RLHF过程是目前最接近ChatGPT原始技术路线的开源项目使用了InstrutionWild中英双语训练数据集其中包含大约100,000个中英文问答对。 该数据集是从社交媒体平台上的真实问题场景中收集和清理的作为种子数据集使用self-instruct进行扩展标注成本约为900美元。与其他self-instruct方法生成的数据集相比该数据集包含更真实和多样化的种子数据涵盖更广泛的主题。该数据集适用于微调和RLHF训练。在提供优质数据的情况下ColossalChat可以实现更好的对话交互同时也支持中文。 完整的RLHF管线共有三个阶段 RLHF-Stage1: 使用上述双语数据集进行监督指令微调模型RLHF-Stage2: 通过对同一提示的不同输出手动排序来训练奖励模型分配相应的分数然后监督奖励模型的训练RLHF-Stage3: 使用强化学习算法这是训练过程中最复杂的部分。
Baize 加州大学圣迭戈分校、中山大学和微软亚研 包括四种英文模型白泽-7B、13B、30B和一个垂直领域的白泽医疗模型计划未来发布中文的白泽模型。 值得注意的是该方法的数据处理、训练模型、Demo等全部代码均已开源真是良心由衷点赞。 作者提出一种自动收集ChatGPT对话的流水线通过从特定数据集中采样[种子]的方式让ChatGPT自我对话批量生成高质量多轮对话数据集。如果使用特定领域数据集比如医学问答数据集就可以生成高质量垂直领域语料。
gpt4allNomic AI
基于GPT-3.5-Turbo的800k条数据进行训练包括文字问题、故事描述、多轮对话和代码。该方案提供了完整的技术报告包括收集数据、整理数据、训练代码和模型权重。
Huatuo-Llama-Med-Chinese哈工大 ChatYuan-large-v2 元语智能
这个模型的商业气息较浓一些。不过这也是无奈之举。ChatYuan-large-v2是一个支持中英双语的功能型对话语言大模型。ChatYuan-large-v2使用了和 v1版本相同的技术方案在微调数据、人类反馈强化学习、思维链等方面进行了优化。ChatYuan-large-v2是ChatYuan系列中以轻量化实现高质量效果的模型之一用户可以在消费级显卡、 PC甚至手机上进行推理INT4 最低只需 400M 。
Fireflyyangjianxin1
Firefly流萤 是一个开源的中文对话式大语言模型基于BLOOM模型使用指令微调Instruction Tuning在中文数据集上进行调优。同时使用了词表裁剪、ZeRO、张量并行等技术有效降低显存消耗和提高训练效率。 在训练中使用了更小的模型参数量以及更少的计算资源。构造了许多与中华文化相关的数据以提升模型这方面的表现如对联、作诗、文言文翻译、散文、金庸小说等。因为该项目首先采用LLMPrunner对原始BLOOM模型进行此表裁剪所以效果有限优势在于小缺点也在这里。
BELLE 链家 本项目重点关注在开源预训练大语言模型的基础上如何得到一个尽可能效果好的具有指令表现能力的语言模型降低大家研究此方面工作的门槛重点在于中文大语言模型。 针对中文做了优化模型调优仅使用了由ChatGPT生产的数据不包含任何其他数据 调优BLOOMZ-7B1-mt模型开放了四个不同大小规模的指令学习数据集训练模型 Datasize200,000600,0001,000,0002,000,000Finetuned ModelBELLE-7B-0.2MBELLE-7B-0.6MBELLE-7B-1MBELLE-7B-2M
基于Meta LLaMA实现调优的模型BELLE-LLaMA-7B-0.6M-enc , BELLE-LLaMA-7B-2M-enc , BELLE-LLaMA-7B-2M-gptq-enc , BELLE-LLaMA-13B-2M-enc。请参考Meta LLaMA的License
值得说明的是该项目开源了一批由ChatGPT生成的中文数据集具体如下 1.5M中文数据集包含不同指令类型、不同领域的子集。10M中文数据集包括25w条中文数学题数据、80w条用户与助手对话数据、40w条给定角色的多轮对话数据、200w条多样化指令任务数据。 ⚠️ 数据集开源协议均为GPL3.0使用请注意。
ChatGLM-6B 清华
GLM-130B清华
后ChatGLM梳理 #mermaid-svg-t9dfW5PQu2144Qdu {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-t9dfW5PQu2144Qdu .error-icon{fill:#552222;}#mermaid-svg-t9dfW5PQu2144Qdu .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-t9dfW5PQu2144Qdu .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-t9dfW5PQu2144Qdu .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-t9dfW5PQu2144Qdu .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-t9dfW5PQu2144Qdu .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-t9dfW5PQu2144Qdu .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-t9dfW5PQu2144Qdu .marker{fill:#333333;stroke:#333333;}#mermaid-svg-t9dfW5PQu2144Qdu .marker.cross{stroke:#333333;}#mermaid-svg-t9dfW5PQu2144Qdu svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-t9dfW5PQu2144Qdu .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-t9dfW5PQu2144Qdu .cluster-label text{fill:#333;}#mermaid-svg-t9dfW5PQu2144Qdu .cluster-label span{color:#333;}#mermaid-svg-t9dfW5PQu2144Qdu .label text,#mermaid-svg-t9dfW5PQu2144Qdu span{fill:#333;color:#333;}#mermaid-svg-t9dfW5PQu2144Qdu .node rect,#mermaid-svg-t9dfW5PQu2144Qdu .node circle,#mermaid-svg-t9dfW5PQu2144Qdu .node ellipse,#mermaid-svg-t9dfW5PQu2144Qdu .node polygon,#mermaid-svg-t9dfW5PQu2144Qdu .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-t9dfW5PQu2144Qdu .node .label{text-align:center;}#mermaid-svg-t9dfW5PQu2144Qdu .node.clickable{cursor:pointer;}#mermaid-svg-t9dfW5PQu2144Qdu .arrowheadPath{fill:#333333;}#mermaid-svg-t9dfW5PQu2144Qdu .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-t9dfW5PQu2144Qdu .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-t9dfW5PQu2144Qdu .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-t9dfW5PQu2144Qdu .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-t9dfW5PQu2144Qdu .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-t9dfW5PQu2144Qdu .cluster text{fill:#333;}#mermaid-svg-t9dfW5PQu2144Qdu .cluster span{color:#333;}#mermaid-svg-t9dfW5PQu2144Qdu div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-t9dfW5PQu2144Qdu :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} ChatGLM langchain-ChatGLM ChatGLM-Med langchain-ChatGLM imClumsyPanda 该项目是基于本地知识的ChatGLM应用实现。基于本地文档类知识来增强ChatGLM的回答。这应该是最能落地的项目了。 整体流程如下图
Med-ChatGLM哈工大
Dolly 2.0 databricks
IDPChat 白海
中文多模态模型基于预训练大模型LLaMA和开源文生图预训练模型Stable Diffusion为基础快速构建而来。开发者可以根据场景需求便捷地对其进行微调优化。
参考资料
开发者笑疯了 LLaMa惊天泄露引爆ChatGPT平替狂潮开源LLM领域变天训练ChatGPT的必备资源语料、模型和代码库完全指南用ChatGPT训练羊驼「白泽」开源轻松构建专属模型可在线试玩 笔记本就能运行的ChatGPT平替来了附完整版技术报告世界首款真开源类ChatGPT大模型Dolly 2.0可随意修改商用中文多模态模型问世IDPChat生成图像文字只需5步单GPU