简单的网站设计多少钱,设立公司流程以及需要的资料,泰安人才招聘信息网,绥化市建设局官方网站可以说#xff0c;AI 初创公司 LinkSoul.Al 的这些开源项目让海外开源大模型在国内的普及和推广速度与国际几乎保持了一致。
7 月 19 日#xff0c;Meta 终于发布了免费可商用版本 Llama 2#xff0c;让开源大模型领域的格局发生了巨大变化。
Llama 2 模型系列包含 70 亿、…可以说AI 初创公司 LinkSoul.Al 的这些开源项目让海外开源大模型在国内的普及和推广速度与国际几乎保持了一致。
7 月 19 日Meta 终于发布了免费可商用版本 Llama 2让开源大模型领域的格局发生了巨大变化。
Llama 2 模型系列包含 70 亿、130 亿和 700 亿三种参数变体相比上一代的训练数据增加了 40%在包括推理、编码、精通性和知识测试等许多外部基准测试中展示出了优越的表现且支持多个语种。
美中不足的是Llama 2 语料库仍以英文89.7%为主而中文仅占据了其中的 0.13%。这导致 Llama 2 很难完成流畅、有深度的中文对话。 中文版 Llama2 开源大模型创下社区「首个」
好消息是在 Meta Al 开源 Llama 2 模型的次日开源社区首个能下载、能运行的开源中文 LLaMA2 模型就出现了。该模型名为「Chinese Llama 2 7B」由国内 AI 初创公司 LinkSoul.Al 推出。 仅仅两周时间该项目在 Hugging Face 上收获过万次下载并在 GitHub 上获得了 1200 Stars。
据项目介绍Chinese-Llama-2-7b 开源的内容包括完全可商用的中文版 Llama2 模型及中英文 SFT 数据集输入格式严格遵循 llama-2-chat 格式兼容适配所有针对原版 llama-2-chat 模型的优化。
项目地址
https://github.com/LinkSoul-AI/Chinese-Llama-2-7b 目前普通用户可以在线体验「Chinese Llama-2 7B Chat」。
试用地址
https://huggingface.co/spaces/LinkSoul/Chinese-Llama-2-7b
比如你能够以英文提问并让它用中文回答 或者直接中文对话它也能以中文实现准确、流畅的回答 主打的就是一个中英文灵活切换 有人已上手表示运行良好 图源https://twitter.com/roya10x7/status/1682781475458957315?s20
语言模型之外继续开源两个中文多模态大模型
在推出首个开源 Llama2 中文语言大模型之后LinkSoul.AI 团队将目光投向了目前全球尚外于发展初期的语音文本多模态大模型和图文大模型并再次率先开源了相关的模型提供国内开发者免费下载、自由商用。
本次开源的两个中文多模态大模型包括如下 由 LinkSoul.Al 团队牵头北京智源人工智能研究院、北京大学、零一万物等国内头部顶尖人工智能团队通力合作的第一个支持中英双语、语音到文本的多模态开源对话模型 (LLaSM) 第一个基于 Llama 2 的支持中英文双语视觉到文本的多模态模型 (Chinese-LLaVA)
两个模型都基于 Apache-2.0 协议开源完全可商用。
LinkSoul.Al 开发团队负责人史业民表示「放眼全球目前如何让『模型听世界、看世界』仍然没有可靠的开源模型可用。我们希望能够尽微薄之力让中国大模型生态距离国际领先标准再近一些。」
语音到文本多模态开源对话模型 (LLaSM)
LinkSoul.AI 开源了可商用的中英文双语语音 - 语言助手 LLaSM 以及中英文语音 SFT 数据集 LLaSM-Audio-Instructions。LLaSM 是首个支持中英文语音 - 文本多模态对话的开源可商用对话模型。
相较以往的传统方案LLaSM 能够通过便捷的语音输入的交互方式大幅改善过往以文本为输入的大模型的使用体验同时有效避免基于 ASR 解决方案的繁琐流程以及可能引入的错误。 项目地址https://github.com/LinkSoul-AI/LLaSM 数据集: https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions
下面是 LLaSM 的一个语音 - 文本对话示例。 LLaSM 也有相应的文献介绍。 模型、代码和数据地址
https://huggingface.co/spaces/LinkSoul/LLaSM
图像到文本多模态开源对话模型 (Chinese LLaVA)
LinkSoul.AI 开源了可商用的中英文双语视觉 - 语言助手 Chinese-LLaVA 以及中英文视觉 SFT 数据集 Chinese-LLaVA-Vision-Instructions支持中英文视觉 - 文本多模态对话的开源可商用对话模型。 项目地址https://github.com/LinkSoul-AI/Chinese-LLaVA 数据集: https://huggingface.co/datasets/LinkSoul/Chinese-LLaVA-Vision-Instructions
下面是 Chinese LLaVA 的一个视觉 - 文本对话示例。 模型、代码和数据地址
https://huggingface.co/spaces/LinkSoul/Chinese-LLaVa
多模态模型统一架构解读
大语言模型在很多方面展现了强大的能力也在一定程度上让人们看到了实现通用人工智能AGI的希望。多模态模型提供了不同模态之间信息交互的渠道使得视觉信息、语音信息等能和文本语义信息互为补充让大语言模型能听到世界、看到世界从而向 GI 又前进一步。
因此训练多模态模型的重点是如何融合互补不同模态间的信息并充分利用现有大语言模型能力。LinkSoul.AI 开源的语音 - 语言多模态模型和视觉 - 语言多模态模型统一采用下图所示框架。 首先通过模态编码器编码不同模态数据特征紧接着在多模态特征对齐的预训练阶段学习模态适配器Adaptor将不同模态的输入特征与大语言模型对齐。
然后在端到端的有监督微调SFT阶段使用不同模态的指令数据集对模态适配器和大语言模型进行微调。在有监督微调阶段同时使用跨模态cross-modal指令数据和仅文本text-only指令数据进行多任务训练。LinkSoul.AI 团队认为多任务训练有助于避免模型产生模态依赖和偏见并且可以自然地用一个模型实现多种模态。
LinkSoul.AI 团队接下来的工作会把语音 - 视觉 - 文本进一步融合让大语言模型同时支持语音和视觉模态。
预训练阶段
预训练阶段将模态编码器和大语言模型参数都冻结使用跨模态的语音 / 视觉 - 文本对进行 Adaptor 的训练优化目标为对输入的指令instructions生成相应的回复responses。
具体来讲对于语音模态采用 Whisper 作为特征编码器冻结 Whisper [5] 并提取音频输入的特征。使用公开的中英文自动语音识别ASR数据集 Aishell [1]、 LibriSpeech [2]、Magicdata [3] 和 Primewords [4]。
对每个数据样本audio、text_label依据对应语言随机从预训练语音指令表见第三节数据部分中选取一个指令组成audioinstructtext_label格式的数据并在训练过程中预测 text_label。
对于视觉模态采用 CLIP [6] 作为图片特征提取器并使用 mBART [8] 对 LLaVA [7] 开源的视觉预训练数据进行翻译汉化生成中文图片文本对。在预训练阶段同时使用中英文数据进行训练从而让模型更好的支持中文。
有监督微调
预训练阶段将不同模态的特征和大语言模型对齐有监督微调阶段则仅冻结模态编码器权重将模态适配器和大语言模型参数打开使用跨模态指令数据进行微调。
针对目前几乎没有公开语音多模态指令数据这一问题基于公开数据集 WizardLM [9]、ShareGPT [10]、GPT-4-LLM [11] 构造语音 - 文本多模态指令数据集 LLaSM-Audio-Instructions。以语音输入作为指令并预测对应的文本输出。
对于视觉模态同样先通过 mBART [8] 对 LLaVA [7] 开源的视觉指令数据集进行翻译汉化生成中文的视觉指令数据集然后类似地进行训练。
数据集
模态转换预训练数据集
先来看 Audio。语音多模态预训练数据集采用公开中英文自动语音识别ASR数据集 Aishell [1]、LibriSpeech [2]、Magicdata [3] 和 Primewords [4]。
同时构造如下指令集对每个audio、text_label样本依据对应语言随机选择一条指令构造数据样本instruction、audio、text_label。 表 1英文简单指令集 表 2中文简单指令集
然后是 Vision。对于视觉模态采用 LLaVA [7] 开源的视觉预训练数据通过 mBART [8] 翻译进行汉化生成中文图片文本对以提升模型的中文能力。
指令微调数据集
同样先来看 Audio。在构建音频数据集的过程中首先仔细过滤所有对话数据通过删除那些不适合发声的对话包括代码、符号、URL 和其他不可读的文本。然后为确保数据质量每轮对话中聊天机器人的答案再次被过滤那些不包含有价值信息的内容将被丢弃。最后使用 Microsoft Azure [12] 语音合成 API 来生成语音数据。
然后是 Vision。对于视觉模态采用 LLaVA [7] 开源的视觉指令数据集通过 mBART [8] 进行汉化生成中文多模态指令数据使得模型能够具有中文视觉指令执行能力。
为了便于开源社区快速感受多模态大模型的能力以及共同推进多模态大模型的研究进展训练用到的数据在项目中开源并提供 Hugging Face 仓库下载。
对于 LinkSoul.AI 团队而言这两个开源可商用的多模态大模型不仅为大模型生态带来了语音和视觉多模态能力也在大模型多语言方面做出了贡献。
此外在商用场景上该团队推出的模型都允许完全免费商用这对于国内个人开发者和初创公司也具有非凡的价值。
参考文献
[1] Aishell: https://www.openslr.org/33/
[2] LibriSpeech: https://huggingface.co/datasets/librispeech_asr
[3] Magicdata: https://openslr.org/68/
[4] Primewords: https://openslr.org/47/
[5] Whisper: https://huggingface.co/openai/whisper-large-v2
[6] CLIP: https://huggingface.co/openai/clip-vit-large-patch14
[7] LLaVA: https://llava-vl.github.io/
[8] mBART: https://arxiv.org/pdf/2001.08210.pdf, https://huggingface.co/facebook/mbart-large-50-one-to-many-mmt
[9] WizardLM: https://github.com/nlpxucan/WizardLM
[10] ShareGPT: https://sharegpt.com/
[11] GPT-4-LLM: https://arxiv.org/abs/2304.03277
[12] Microsoft Azure 语音合成 APIhttps://azure.microsoft.com/en-us/products/ai-services/ai-speech