当前位置：首页 > news >正文

景区网站建设的好处seo核心技术排名

news 2025/12/17 9:05:10

景区网站建设的好处,seo核心技术排名,传销公司做网站运营,科技网站内容设计文章目录一、关于 MiniMind #x1f4cc;项目包含二、#x1f4cc; Environment三、#x1f4cc; Quick Start Test四、#x1f4cc; Quick Start Train0、克隆项目代码1、环境安装2、如果你需要自己训练3、测试模型推理效果五、#x1f4cc; Data sources1、分词器项目包含二、 Environment三、 Quick Start Test四、 Quick Start Train0、克隆项目代码1、环境安装2、如果你需要自己训练3、测试模型推理效果五、 Data sources1、分词器2、Pretrain数据 3、SFT数据 4、DPO数据 5、更多数据集6、数据集下载地址六、模型七、 Experiment 训练完成的模型权重八、Eval1、RLHF篇效果总结 2、Instruct Fine-Tuning 篇模型表现点评排序从高到低效果总结九、Objective dataset: C-Eval 结果汇总以下来自GPT-4o对minimind表现的瞎猜十、Others1、推理与导出2、API推理3、在fastgpt中接入使用minimind api 《AI 技术资讯分享》扫码入群https://www.yuque.com/yizhi-lentn/zctmmg/xpamt1qpp2xv8q8b 一、关于 MiniMind MiniMind 开源项目旨在完全从0开始最快仅用3小时即可训练出仅为26.88M大小的微型语言模型MiniMind。MiniMind极其轻量最小版本体积约是 GPT3 的 1 7000 \frac{1}{7000} 70001力求做到最普通的个人GPU也可快速推理甚至训练。MiniMind发布了大模型极简结构数据集清洗和预处理、监督预训练(Pretrain)、有监督指令微调(SFT)、低秩自适应(LoRA) 微调无奖励强化学习直接偏好对齐(DPO)的全阶段代码也包含拓展共享混合专家(MoE) 的稀疏模型拓展视觉多模态VLM: MiniMind-V。这不仅是一个开源模型的实现也是入门大语言模型LLM的教程。希望此项目能为研究者提供一个抛砖引玉的入门示例帮助大家快速上手并对LLM领域产生更多的探索与创新。为防止误读「最快3小时」是指您需要具备本人硬件配置的机器具体规格的详细信息将在下文提供。 github : https://github.com/jingyaogong/minimindhuggingface : https://huggingface.co/collections/jingyaogong/minimind-66caf8d999f5c7fa64f399e5ModelScope在线测试 | Bilibili视频链接大语言模型LLM领域如 GPT、LLaMA、GLM 等虽然它们效果惊艳但动辄10 Bilion庞大的模型参数个人设备显存远不够训练甚至推理困难。几乎所有人都不会只满足于用Lora等方案fine-tuing大模型学会一些新的指令这约等于在教牛顿玩21世纪的智能手机然而这远远脱离了学习物理本身的奥妙。此外卖课付费订阅的营销号漏洞百出的一知半解讲解AI的教程遍地让理解LLM的优质内容雪上加霜严重阻碍了学习者。因此本项目的目标是把上手LLM的门槛无限降低直接从0开始训练一个极其轻量的语言模型。截至2024-9-17MiniMind系列已完成了3个型号模型的预训练最小仅需26M0.02B即可具备流畅的对话能力模型 (大小)tokenizer长度推理占用release主观评分/100minimind-v1-small (26M)64000.5 GB2024.08.2850’minimind-v1-moe (4×26M)64001.0 GB2024.09.1755’minimind-v1 (108M)64001.0 GB2024.09.0160’ 该分析在具有Torch 2.1.2、CUDA 12.2和Flash Attention 2的2×RTX 3090 GPU上进行。项目包含公开MiniMind模型代码包含Dense和MoE模型、Pretrain、SFT指令微调、LoRA微调、DPO偏好优化的全过程代码、数据集和来源。兼容transformers、accelerate、trl、peft等流行框架。训练支持单机单卡、单机多卡(DDP、DeepSpeed)训练使用wandb可视化训练流程。支持在任意位置停止及在任意位置继续训练。在Ceval数据集上进行模型测试的代码。实现Openai-Api基本的chat接口便于集成到第三方ChatUI使用FastGPT、Open-WebUI等。希望此开源项目可以帮助LLM初学者快速入门二、 Environment 仅是我个人的软硬件环境配置自行酌情更改 CPU: Intel(R) Core(TM) i9-10980XE CPU 3.00GHz 内存128 GB 显卡NVIDIA GeForce RTX 3090(24GB) * 2 环境python 3.9 Torch 2.1.2 DDP单机多卡训练Ubuntu 20.04Python 3.9Pytorch 2.1.2CUDA 12.2requirements.txt 三、 Quick Start Test HuggingFace : https://huggingface.co/collections/jingyaogong/minimind-66caf8d999f5c7fa64f399e5ModelScope: https://www.modelscope.cn/models/gongjy/minimind-v1 # step 1 git clone https://huggingface.co/jingyaogong/minimind-v1# step 2 python 2-eval.py或者启动streamlit启动网页聊天界面「注意」需要python3.10安装 pip install streamlit1.27.2# or step 3, use streamlit streamlit run fast_inference.py四、 Quick Start Train 0、克隆项目代码 git clone https://github.com/jingyaogong/minimind.git cd minimind1、环境安装 pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple# 测试torch是否可用cuda import torch print(torch.cuda.is_available())如果不可用请自行去torch_stable 下载whl文件安装。参考链接 2、如果你需要自己训练 2.1 下载数据集下载地址放到./dataset目录下 2.2 python data_process.py处理数据集例如pretrain数据提前进行token-encoder、sft数据集抽离qa到csv文件 2.3 在./model/LMConfig.py 中调整model的参数配置这里仅需调整dim和n_layers和use_moe参数分别是(5128)或(76816)对应于minimind-v1-small和minimind-v1 2.4 python 1-pretrain.py 执行预训练得到 pretrain_*.pth 作为预训练的输出权重 2.5 python 3-full_sft.py 执行指令微调得到 full_sft_*.pth 作为指令微调的输出权重 2.6 python 4-lora_sft.py 执行lora微调非必须 2.7 python 5-dpo_train.py 执行DPO人类偏好强化学习对齐非必须 3、测试模型推理效果确保需要使用的训练完成的参数权重*.pth文件位于./out/目录下也可以直接去训练完成的模型权重下载使用我训练好的*.pth权重文件minimind/out ├── multi_chat │ ├── full_sft_512.pth │ ├── full_sft_512_moe.pth │ └── full_sft_768.pth ├── single_chat │ ├── full_sft_512.pth │ ├── full_sft_512_moe.pth │ └── full_sft_768.pth ├── pretrain_768.pth ├── pretrain_512_moe.pth ├── pretrain_512.pthpython 0-eval_pretrain.py测试预训练模型的接龙效果python 2-eval.py测试模型的对话效果「Tip」预训练和全参微调pretrain和full_sft均支持多卡加速假设你的设备只有1张显卡使用原生python启动训练即可执行预训练或指令微调训练 python 1-pretrain.py # and python 3-full_sft.py假设你的设备有N (N1) 张显卡单机N卡启动训练(DDP) torchrun --nproc_per_node N 1-pretrain.py # and torchrun --nproc_per_node N 3-full_sft.py单机N卡启动训练(DeepSpeed) deepspeed --master_port 29500 --num_gpusN 1-pretrain.py # and deepspeed --master_port 29500 --num_gpusN 3-full_sft.py开启wandb记录训练过程(非必须) torchrun --nproc_per_node N 1-pretrain.py --use_wandb # and python 1-pretrain.py --use_wandb通过添加--use_wandb参数可以记录训练过程训练完成后可以在wandb网站上查看训练过程。通过修改wandb_project 和wandb_run_name参数可以指定项目名称和运行名称。五、 Data sources 1、分词器 nlp中的Tokenizer类似于词典将单词从自然语言通过“词典”映射到0,1,36这样的数字可以理解为数字就代表了单词在“词典”中的页码。 LLM分词器的构建方式有两种一种是自己构造词表训练一个分词器代码可见train_tokenizer.py另一种是选择开源模型训练好的分词器。 “词典”当然可以直接选择用新华词典或是牛津词典优点是token转化压缩率很好但缺点是词表太长动辄数十万个词汇短语也可以使用自己训练的分词器优点是词表随意控制缺点是压缩率不够理想且生僻词不容易面面俱到。当然“词典”的选择很重要LLM的输出本质上是SoftMax到词典N个词的多分类问题然后通过“词典”解码到自然语言。因为LLM体积非常小为了避免模型头重脚轻词嵌入embedding层参数占整个LLM比太高所以词表长度需要选择比较小。强大的开源模型例如01万物、千问、chatglm、mistral、Llama3等它们的tokenizer词表长度如下 Tokenizer模型词表大小来源yi tokenizer64,00001万物中国qwen2 tokenizer151,643阿里云中国glm tokenizer151,329智谱AI中国mistral tokenizer32,000Mistral AI法国llama3 tokenizer128,000Meta美国minimind tokenizer6,400自定义 2024-09-17更新为了防止过去的版本歧义控制体积minimind所有模型均使用minimind_tokenizer分词废弃所有mistral_tokenizer版本。尽管minimind_tokenizer长度很小编解码效率弱于qwen2、glm等中文友好型分词器。但minimind模型选择了自己训练的minimind_tokenizer作为分词器以保持整体参数轻量避免编码层和计算层占比失衡头重脚轻因为minimind的词表大小只有6400。且minimind在实际测试中没有出现过生僻词汇解码失败的情况效果良好。由于自定义词表压缩长度到6400使得LLM总参数量最低只有26M。 2、Pretrain数据 Seq-Monkey通用文本数据集 / Seq-Monkey百度网盘是由多种公开来源的数据如网页、百科、博客、开源代码、书籍等汇总清洗而成。整理成统一的JSONL格式并经过了严格的筛选和去重确保数据的全面性、规模、可信性和高质量。总量大约在10B token适合中文大语言模型的预训练。第2种选择SkyPile-150B数据集的可公开访问部分包含约2.33亿个独立网页每个网页平均包含1000多个汉字。数据集包括大约1500亿个令牌和620GB的纯文本数据。如果着急的话可以尝试只挑选SkyPile-150B的部分jsonl下载并在./data_process.py中对文本tokenizer生成* .csv文件以便快速跑通预训练流程。 3、SFT数据匠数大模型SFT数据集是一个完整、格式统一、安全的大模型训练和研究资源。从网络上的公开数据源收集并整理了大量开源数据集对其进行了格式统一数据清洗包含10M条数据的中文数据集和包含2M条数据的英文数据集。总量大约在3B token适合中文大语言模型的SFT。数据集整合来源于以下所有数据仅供参考因此无需单独下载仅需下载一个完整的【SFT数据】 BelleGroup/train_3.5M_CNLinkSoul/instruction_merge_setstingning/ultrachatBAAI/COIG-PC-coreshibing624/sharegpt_gpt4shareAI/ShareGPT-Chinese-English-90kTiger ResearchBelleGroup/school_math_0.25MYeungNLP/moss-003-sft-data 4、DPO数据大约合并后共8万条dpo数据人工标注的偏好数据均来自活字模型可以用于训练奖励模型优化模型回复质量使其更加符合人类偏好。 5、更多数据集目前已经有HqWu-HITCS/Awesome-Chinese-LLM 在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料并持续更新这方面的最新进展。全面且专业Respect 6、数据集下载地址下载到./dataset/目录下 MiniMind训练数据集下载地址【tokenizer训练集】HuggingFace / 百度网盘【Pretrain数据】Seq-Monkey官方 / 百度网盘 / HuggingFace【SFT数据】匠数大模型SFT数据集【DPO数据】Huggingface 六、模型 MiniMind-Dense和Llama3.1一样使用了Transformer的Decoder-Only结构跟GPT-3的区别在于采用了GPT-3的预标准化方法也就是在每个Transformer子层的输入上进行归一化而不是在输出上。具体来说使用的是RMSNorm归一化函数。用SwiGLU激活函数替代了ReLU这样做是为了提高性能。像GPT-Neo一样去掉了绝对位置嵌入改用了旋转位置嵌入RoPE这样在处理超出训练长度的推理时效果更好。 MiniMind-MoE模型它的结构基于Llama3和Deepseek-V2中的MixFFN混合专家模块。 DeepSeek-V2在前馈网络FFN方面采用了更细粒度的专家分割和共享的专家隔离技术以提高Experts的效果。 MiniMind的整体结构一致只是在RoPE计算、推理函数和FFN层的代码上做了一些小调整。其结构如下图重绘版修改模型配置见https://github.com/jingyaogong/minimind/blob/master/model/LMConfig.py。 minimind 目前训练的模型版本见下表 Model Nameparamslen_vocabn_layersd_modelkv_headsq_headssharerouteTopKminimind-v1-small26M64008512816--minimind-v1-moe4×26M64008512816242minimind-v1108M640016768816-- 七、 Experiment Model Nameparamslen_vocabbatch_sizepretrain_timesft_single_timesft_multi_timeminimind-v1-small26M640064≈2 hour (1 epoch)≈2 hour (1 epoch)≈0.5 hour (1 epoch)minimind-v1-moe4×26M640040≈6 hour (1 epoch)≈5 hour (1 epoch)≈1 hour (1 epoch)minimind-v1108M640016≈6 hour (1 epoch)≈4 hour (1 epoch)≈1 hour (1 epoch) 1、预训练(Text-to-Text): LLM首先要学习的并非直接与人交流而是让肚子中充满知识的墨水至于墨水理论上喝的越饱越好产生大量的对世界的认知积累。预训练就是让Model先埋头苦学大量基本的知识例如从维基百科、新闻、常识、书籍等。它无监督的从大量的文本数据中压缩知识到自己模型的权重目的是学会词语接龙。例如我们输入“秦始皇是”四个字它在大量学习后能预测出下一句话大概率是“中国的第一位皇帝”。 pretrain的学习率设置为1e-4到1e-5的动态学习率预训练epoch数设为5。 torchrun --nproc_per_node 2 1-pretrain.py2、单轮次对话有监督微调(Single dialog Fine-tuning): 经过预训练半成品LLM此时已经掌握了几乎所有的语言知识和百科常识。此时它还不会与人聊天相反它只会无脑地进行输入词语的接龙生成下一个词。此时需要对半成品LLM做限制在聊天模板中进行微调例如当它遇到这样的模板“聊天开始秦始皇是聊天终止 ”后不再无脑接龙而是意识到这是一段完整的对话结束。我们称这个过程为指令微调就如同让学富五车的「牛顿」先生适应21世纪的聊天习惯学习屏幕左侧是对方消息右侧是本人消息这个规律。在训练时MiniMind的指令和回答长度被截断在512是为了节省显存空间。就像我们学习时会先从短的文章开始当学会阅读200字作文后800字长文章就不需要再单独学习。在推理时通过调整RoPE线性差值实现长度外推到1024或2048及以上很方便。学习率设置为1e-5到1e-6的动态学习率微调epoch数为6。 # 3-full_sft.py中设置数据集为sft_data_single.csv torchrun --nproc_per_node 2 3-full_sft.py3、多轮对话微调(Multi dialog Fine-tuning): 在2的基础上LLM已经学会一个问题-一个回答的聊天模板。此时仅需在具备历史问答的更长聊天模板上进一步微调即可。我们仅需使用数据集的history_chat 字段即历史对话以及history_chat_response字段即历史对话的回答。构建【问题-回答问题-回答问题-】的新聊天模板然后使用这个数据集进行微调。学习完成的模型不仅仅只能回答当前问题还能根据历史对话进行连贯的对话。这一步并非必须因为小模型长上文对话能力很弱强行对齐多轮问答模板会损失一定程度的单轮SFT效果。学习率设置为1e-5到1e-6的动态学习率微调epoch数为5。 # 3-full_sft.py中设置数据集为sft_data.csvtorchrun --nproc_per_node 2 3-full_sft.py4、人类反馈强化学习(RLHF)之-直接偏好优化(Direct Preference Optimization, DPO): 在前面的训练中GPT已经具备了基本的对话能力但是这样的能力完全基于单词接龙缺少正例反例的激励。GPT尚且未知什么回答是好的什么是差的。我们希望它能够更符合人的偏好给出更让人满意的回答。这个过程就像是让GPT参加工作培训从优秀员工的作为例子消极员工作为反例学习如何更好地服务客户。RLHF系列中与PPO(Proximal Policy Optimization)这种需要奖励模型、价值模型的RL算法不同DPO通过推导PPO奖励模型的显式解把在线奖励模型换成离线数据ref输出可以提前保存。DPO性能几乎不变只用跑 actor 和 ref 2 个模型大大节省显存开销和增加训练稳定性。同样的LLM的RL步骤也并非必须有利也有弊。活字三元组(q,chose,reject)数据集学习率le-5半精度fp16,共1个epoch耗时1h。 python 5-dpo_train.py关于LLM的参数配置有一篇很有意思的论文MobileLLM做了详细的研究和实验。 scaling law在小模型中有自己独特的规律。引起Transformer参数成规模变化的参数几乎只取决于d_model和n_layers。 d_model↑n_layers↓-矮胖子d_model↓n_layers↑-瘦高个 2020年提出Scaling Law的论文认为训练数据量、参数量以及训练迭代次数才是决定性能的关键因素而模型架构的影响几乎可以忽视。然而似乎这个定律对小模型并不完全适用。 MobileLLM提出架构的深度比宽度更重要「深而窄」的「瘦长」模型可以学习到比「宽而浅」模型更多的抽象概念。例如当模型参数固定在125M或者350M时3042层的「狭长」模型明显比12层左右的「矮胖」模型有更优越的性能在常识推理、问答、阅读理解等8个基准测试上都有类似的趋势。这其实是非常有趣的发现因为以往为100M左右量级的小模型设计架构时几乎没人尝试过叠加超过12层。这与MiniMind在训练过程中模型参数量在d_model和n_layers之间进行调整实验观察到的效果是一致的。然而「深而窄」的「窄」也是有维度极限的当d_model512时词嵌入维度坍塌的劣势非常明显增加的layers并不能弥补词嵌入在固定q_head带来d_head不足的劣势。当d_model1536时layers的增加似乎比d_model的优先级更高更能带来具有“性价比”的参数-效果增益。因此MiniMind设定small模型的d_model512n_layers8来获取的「极小体积-更好效果」的平衡。设定d_model768n_layers16来获取效果的更大收益更加符合小模型scaling-law的变化曲线。作为参考GPT3的参数设定见下表训练完成的模型权重百度网盘 Model NameparamsConfigpretrain_modelsingle_sft_modelmulti_sft_modelrl_modelminimind-v1-small26Md_model512n_layers8pretrain_512.pthsingle_chat/full_sft_512.pthmulti_chat/full_sft_512.pthrl_512.pthminimind-v1-moe4×26Md_model512n_layers8pretrain_512_moe.pthsingle_chat/full_sft_512_moe.pthmulti_chat/full_sft_512_moe.pth-minimind-v1108Md_model768n_layers16pretrain_768.pthsingle_chat/full_sft_768.pthmulti_chat/full_sft_768.pthrl_768.pth 八、Eval 1、RLHF篇 [!TIP] 测试基于「单轮对话full_sft」和「DPO强化学习对齐」的minimind模型对比。模型文件百度网盘其中 rl_dim.pth 即为「DPO强化学习对齐」后的minimind模型权重。 [Q]: 你叫什么名字 [ft_768]: 我是一款人工智能语言模型可以回答您的问题和提供帮助。您有什么需要我帮忙的吗 [rl_768]: 我是一款基于人工智能技术的自然语言处理系统主要用于处理和生成人类语言的任务。我可以帮助用户进行文本处理、语音识别、文本生成等任务同时也可以帮助用户进行智能聊天、翻译、翻译等多种应用。如果您需要更多关于该项目的信息请告诉我。 [ft_512]: 我很高兴能够帮助你。你有什么其他问题需要我帮忙解答吗 [rl_512]: 我是一款基于自然语言处理技术的聊天机器人能够理解和回复用户的问题和指令并进行相应的回复和回复。我被训练为能够与人类进行交互和回答各种问题和任务。请问有什么需要吗[Q]: 你是谁 [ft_768]: 我是一个人工智能语言模型没有个人身份和身份。我只是根据输入的指令和文本信息生成响应。 [rl_768]: 我是一个计算机程序没有个人身份或身份。我被设计来回答各种问题和提供帮助包括回答问题、提供建议、进行实验、提供信息等等。我被广泛应用于各种领域例如自然语言处理、计算机视觉、人工智能等等。如果您需要更多的帮助或信息请随时与我联系。我会尽我所能来帮助您的工作和生活。 [ft_512]: 我是一个大型语言模型可以回答各种各样的问题包括科学、历史、文化和技术方面的问题。您有什么需要我回答的问题吗 [rl_512]: 我是一个计算机程序没有具体的身世和人物。如果您可以告诉我您想知道的具体信息我会尽力回答您的问题。[Q]: 中国有哪些比较好的大学 [ft_768]: 中国有很多著名的大学其中包括北京大学、上海交通大学、复兴中医药学院、浙江大学等。这些大学在不同的领域都有着自己的标志性建筑和研究方向值得一提的是它们在中国的顶尖教育资源中享有很高的声誉。 [rl_768]: 中国的大学有很多具体情况还要根据你的需求来决定。如果你需要更详细的信息建议可以去咨询一下你所在城市的大学排名和政策法规从而选择一个合适的大学。同时你可以在网上查阅相关信息或者去咨询一些大学相关机构如中国人民大学、中国人民大学等以获得更为详细和专业的指导和建议。 [ft_512]: 中国有很多优秀的大学比如麻省理工学院、北京大学、上海大学等等。这些大学在中国教育事业的发展和成就都非常突出。 [rl_512]: 中国教育局、中国大学、中国大陆大学和中国大陆大学均有优秀的教育体裁但各地教育水平和专业要求都可能存在差异。中国教育局的学历要求、教学方法、师资力量等因素都各具特点而大学的学历要求也各有千秋。中国大陆大学生的学历要求也各有不同需要根据自己的实际情况进行选择。如果您对中国大陆大学生的专业要求有更具体需求建议您可以通过互联网、国内外的各类机构和机构进行比较和交流。同时您也可以向身边的人或朋友、老师、家长等人士寻求帮助和建议。希望以上回答对您有帮助。[Q]: 你知道光速是多少吗 [ft_768]: 光速是一个物理常数表示光在真空中传播的速度大约是每秒299792458米。光速是物理学中最基本的物理常数之一也是相对论的重要基础之一。 [rl_768]: 当然知道光速是光在真空中传播的速度通常用c来表示。它是宇宙物理学中非常重要的理论之一。在物理学中光速被认为是宇宙中最重要的速度之一。它代表着光在真空中传播的速度这也是许多重要公式和公式的基础。 [ft_512]: 光速是光在真空中传播的速度约为每秒299,792,458米。它是几乎所有的物理学概念也是宇宙中最神秘和最重要的物理概念之一。 [rl_512]: 光速是光在真空中传播的速度是自然界中不可逆转的速度。光源是由光的原子、分子、固体和光的组成其速度约为每秒平方。光的速度是每秒约1个英亞或光年这个数字是根据相对论、量子力学和引力理论来计算的。光速是相对的概念之一它代表着我们对自然界中任何事件的理解和解释。效果总结 RLHF数据使用大约10万条full_sft模型在简洁性和信息准确性方面表现更好rl模型在回答中提供了更多的背景信息但信息准确性有待改进。总的来说RLHF后的模型倾向于学习说更多有礼貌但无用的废话讨好“对话”本身而对信息准确性则有轻微损失。天下没有免费的午餐还需要继续提升RLHF数据集的质量也要接受模型能力无法避免的损失(程度有轻重)。DPO和在线PPO的区别在于reject和chosen都是离线准备的和minimind模型本身的输出必然存在很大的分布差异。这类似于DPO算法使模型观看乒乓球世界冠军的打法「录像」进行强化学习而不是像PPO一样请reward模型做「教练」纠正自己的打法强化学习。 2、Instruct Fine-Tuning 篇 [!TIP] 以下测试于2024-09-17完成此日期后发布的新模型无特殊需要时将不加入测试。测试基于单轮对话full_sft的minimind模型(无多轮微调和强化学习微调)。 [A] minimind-v1-small(0.02B) [B] minimind-v1-moe(0.1B) [C] minimind-v1(0.1B) [D] baby-llama2-chinese(0.2B) [E] chatlm-mini-chinese(0.2B) [Q]: 你知道长江吗 [A]: 是的长江是中国最长的河流全长超过3300千米。 [B]: 长江是中国最长的河流总长度约为6300公里。它发源于青藏高原的青海湖流经青海、四川、甘肃、宁夏、内蒙古、陕西和山西。长江流域是中国最大的农业区之一也是中国的文化和经济中心。 [C]: 是的长江是中国最长的河流之一也是世界第三大河流。长江发源于青藏高原流经11个省份最终注入东海。长江流域是中国最大的河流流域之一拥有着丰富的自然资源和文化遗产如长江大桥、长江海洋博物馆、长江古城等。 [D]: 同时也知道中国是世界上最长的城市之一拥有超过3400万人口。 [E]: 是的长江是中国最长的河流也是世界上最长的河流之一。它发源于青藏高原流经九个省区最终注入东海。长江流域的气候温和四季分明是中国重要的农业和工业基地。长江流域的水产资源丰富是中国的重要渔业资源之一。[Q]: 第一颗人造卫星是哪个国家发射的 [A]: 第一颗人造卫星是斯普特尼克1号。 [B]: 第一颗人造卫星是俄罗斯的国际卫星于1957年发射。 [C]: 第一颗人造卫星是苏联发射的它是由苏联于1957年10月发射的。 [D]: 这颗名为“阿姆斯特朗”的卫星于1961年11月20日发射是第一个成功将人类送入太空的卫星。 [E]: 第一颗人造卫星是苏联于1957年4月4日发射的它是由苏联宇航员尤里·加加林Yuri Gagarin和苏联工程师罗尔德·谢尔盖耶夫Roald Skohley共同发射的。在发射过程中加加林和谢尔盖耶夫使用了一个名为“斯普特尼克1号”的小型卫星它的直径为4.3米重量为1,051公斤。这枚卫星被称为“斯普特尼克1号”是苏联太空竞赛中的一个里程碑也是人类历史上第一次在太空中进行太空行走。[Q]: 你知道泰山在哪里吗 [A]: 泰山位于中国东部地区是中国五岳之一。 [B]: 泰山位于山东省泰安市泰安市。泰安市是中国五岳之一也是世界文化遗产和中国历史文化名山之一。泰安市有许多著名的景点如五岳之一、玉皇顶、南天门、玉皇阁等。 [C]: 泰山位于中国山东省泰安市是中国五岳之一。 [D]: 作为一个人工智能助手我无法访问互联网因此无法提供关于你所在位置的信息。不过你可以通过搜索或搜索相关关键词来获取有关你所在位置的信息或者查看相关新闻或网站来获取有关你所在位置的信息。 [E]: 泰山位于中国山东省泰安市境内是中国五岳之一也是中国文化和历史的重要象征之一。它是中国五岳之一也是中国道教和佛教的发源地之一。泰山的海拔高度为1,545米是中国五岳之一也是中国最著名的旅游景点之一。它的历史可以追溯到公元前5世纪是中国古代帝王祭祀的场所。泰山也是中国文化的重要组成部分被誉为“五岳之首”是中国文化的重要遗产之一。[Q]: 世界上最高的山峰是什么 [A]: 世界上最高的山峰是珠穆朗玛峰位于尼泊尔和中国的边境上海拔8848米。 [B]: 世界上最高的山峰是珠穆朗玛峰位于喜马拉雅山脉海拔8,848米。 [C]: 珠穆朗玛峰是世界上最高的山峰海拔8848米。 [D]: 世界上最高的山峰是珠穆朗玛峰位于喜马拉雅山脉海拔8,848.86米29,031.69英尺。 [E]: 世界上最高的山峰是珠穆朗玛峰也称为萨加玛塔位于喜马拉雅山脉的尼泊尔和中国边境之间海拔8,848.86米29,031.69英尺。它是世界上最著名的登山目标之一吸引着来自世界各地的登山者前来挑战。珠穆朗玛峰的名字来自藏语意思是“女神的额峰”它是由两个不同的山峰组成的其中一个是位于尼泊尔的珠穆朗玛峰另一个则位于中国。它的高度是通过测量海拔高度来确定的因为它是通过测量地球的平均高度来确定的。尽管珠穆朗玛峰是世界上最高的山峰但它并不是地球上任何其他地方都能到达的。地球上的其他地方如南美洲的安第斯山脉也是世界上最高的山脉但它并不是地球上最高的山峰。总之珠穆朗玛峰是世界上最高的山峰但它并不是地球上任何地方都能到达的。它是地球上最高的山脉但它并不是地球上任何地方都能到达的。[Q]: 万有引力是谁提出的 [A]: 万有引力是由英国物理学家牛顿提出的。他认为所有物体都会产生引力这个引力是由物体的质量和距离决定的。这个理论揭示了质量和距离之间的关系并证明了万有引力的本质。 [B]: 万有引力是由牛顿在1687年提出的。它是宇宙中一个基本的物理现象它描述了物体之间的相互作用。这个力被称为万有引力它在所有物体之间都存在这种力与物体的质量和距离有关。万有引力是自然界中最基本的力量之一它不仅影响着物体的运动和变化还对宇宙的结构和演化产生着重要的影响。 [C]: 万有引力是英国物理学家艾萨克·牛顿在17世纪提出的。 [D]: 引力是宇宙中一种力量它是由质量或能量所组成的。根据牛顿的万有引力定律一个物体之间的引力大小与它的质量成正比与它的质量成反比。因此牛顿的万有引力定律表明一个物体之间的引力大小与它的质量成正比与它的质量成反比。这个定律在物理学、天文学和物理学中都有广泛的应用。 [E]: 万有引力是由英国物理学家艾萨克·牛顿于1687年提出的。他在1687年发表了一篇著名的论文题为《自然哲学的数学原理》其中提出了万有引力定律指出任何两个物体之间都存在着一种引力这种引力的大小与它们的质量成正比与它们之间的距离的平方成反比。这个定律被称为万有引力定律它描述了质量和距离之间的关系。它表明两个物体之间的引力与它们的质量成正比与它们之间的距离的平方成反比。这个定律对于解释宇宙中的许多现象和现象之间的相互作用非常重要例如行星绕太阳运动、恒星之间的引力透镜效应等等。它也被广泛应用于天文学、物理学和工程学等领域为我们理解宇宙的本质和演化提供了重要的理论基础。[Q]: 你知道大熊猫的主要食物是什么吗 [A]: 大熊猫的主要食物是竹子。它们通常吃竹子每天需要吃掉大约30公斤的竹子。 [B]: 是的大熊猫主要以竹子为食。它们每天需要吃掉大量的竹子来维持生命每天需要吃掉40至80公斤的竹子。此外它们也会吃一些其他的植物如草、果实、坚果和小型哺乳动物。 [C]: 大熊猫主要以竹子为食也会偶尔食用其他的植物和动物。此外大熊猫也会吃一些野果、小动物和植物但这些都不属于它们的主要食物来源。 [D]: 大熊猫的主要食物是竹子。 [E]: 大熊猫是一种以竹子为主要食物的植食动物它们的肠道结构适合消化纤维素含量高的竹子但也会吃一些其他植物如草本植物和小型哺乳动物。大熊猫的肠道结构也适应了高纤维的竹子这使得它们能够消化大量的纤维素从而帮助它们在野外生存。大熊猫的肠道中还含有一种叫做“纤维素酶”的酶类物质这种酶能够帮助大熊猫分解纤维素从而帮助它们消化大量的水分和营养物质。此外大熊猫的肠道还含有一种叫做“纤维素蛋白”的蛋白质这种蛋白质能够帮助大熊猫维持体内的能量水平从而帮助它们在野外生存。总的来说大熊猫的主要食物是竹子但它们也会吃一些其他植物如草本植物和小型哺乳动物。[Q]: 海水为什么是咸的 [A]: 海水中含有许多盐分这些盐分可以导致海水咸度的增加。海水中的盐分主要来自于海水中的盐分这些盐分可以从海水中的盐分中获得。海水中的氧化物和盐分可以与海水中的盐分形成氢键从而使海水咸度增加。 [B]: 海水是咸的这是因为它含有大量的盐分其中包括氯离子和氯离子。这些离子在海洋中形成了大量的盐这些盐分被称为盐分。海水中含有许多溶解在水中的盐这些盐分会随着海水的升高而逐渐蒸发最终导致海水中盐分的蒸发。这些盐分在海水中被完全消耗然后被排除在海水中。此外海水中还含有许多其他的盐分但这些盐分是不同的因为它们在水中的浮起和下降过程是不同的。海水中的盐分是从海底的岩石中提取出来的这些盐分在海水中可以被利用。总的来说海水是咸的这也是为什么海水中含有许多盐分和盐分的原因。 [C]: 海水含有许多溶解的盐类其中最主要的是氯化钠。当水中加入盐时盐的分子会与水分子发生反应形成氢氧化钠这是一种盐。 [D]: 因为水是许多生物的生存所必需的它能够吸收和释放二氧化碳释放氧气维持大气中的水蒸气以及维持水循环。水中的盐类和化学物质会释放出氧气使地球上的生物呼吸。此外水还具有许多其他功能如保持水循环、维持水循环、调节气候和环境等。水是许多生物生存所必需的它也是许多自然现象的重要基础。 [E]: 海水是咸的主要原因是因为其中含有大量的溶解盐类其中最主要的是氯化钠NaCl。氯化钠是一种非常常见的盐类它存在于地球上的大部分地区包括海洋、湖泊、河流和地下水。当水从海洋中蒸发时它会带走一部分盐分使海水变得咸。此外海中还含有其他溶解盐类的物质如硫酸盐、硫酸镁、硫酸钙、硫酸镁盐、硫酸镁钾、硫酸镁钠、硫酸镁钙、硫酸镁镁钙、硫酸镁镁钙、硫酸镁镁钙、硫酸镁镁钠、硫酸镁镁钙、硫酸镁镁镁钙、硫酸镁镁镁钙、硫酸镁镁镁钙、硫酸镁镁镁钙、硫酸镁镁镁钙、硫酸镁镁镁钙、硫酸镁镁镁钙、硫酸镁镁镁钙、硫酸镁镁镁钙、硫酸镁镁镁钙、硫酸镁镁镁镁钙、硫酸镁镁镁镁钙、硫酸镁镁镁镁钙、硫酸镁镁镁镁钙、硫酸镁镁镁镁钙、硫酸镁镁镁镁钙、硫酸镁镁镁镁镁钙、硫酸镁镁镁镁镁钙、硫酸镁镁镁镁镁钙、硫酸镁镁镁镁镁钙、硫酸镁镁镁镁镁镁钙、硫酸镁镁镁镁镁镁钙、硫酸镁镁镁镁镁镁钙、硫酸镁镁镁镁镁镁镁钙、硫酸镁镁镁镁 [!NOTE] ‍♂️直接把上述模型的回答丢给GPT-4o让它帮忙打个分模型表现点评模型A 表现模型A的回答通常简洁明了但在某些问题上缺乏详细信息和准确性。例如在长江的长度问题上模型A的回答是错误的。评分60 模型B 表现模型B的回答在某些问题上提供了额外的信息但这些信息有时是不准确的或多余的。例如在长江的长度问题上模型B提供了不准确的长度和流域面积。评分65 模型C 表现模型C的回答通常较为详细且在大多数问题上提供了准确的信息。例如在长江和泰山的问题上模型C的回答是准确的。评分75 模型D 表现模型D的回答在某些问题上显得混乱且缺乏准确性。例如在泰山的问题上模型D的回答完全偏离了主题。评分50 模型E 表现模型E的回答通常非常详细但在某些问题上过于冗长且包含了一些不必要的信息。例如在万有引力的问题上模型E的回答过于复杂。评分70 排序从高到低模型CEBAD分数7570656050 效果总结 minimind系列ABC的排序符合直觉minimind-v1(0.1B)评分最高常识性问题的回答基本没有错误和幻觉。出乎意料的是minimind-v1-small(0.02B)仅有26M参数却可以接近minimind-v1(0.1B)的表现。minimind-v1(0.1B)的sft轮数epochs仅有不到2偷懒提前kill腾出资源给小模型0.1B没有得到充分训练的情况下依然做到了最强其实还是底大一级压死人。minimind-v1-moe(0.1B)表现只比minimind-v1-small(0.02B) 略好同样是因为偷懒早停腾出资源做其它训练了但是MoE模型这种稀疏多Experts模式需要的训练轮次需要酌情更高让所有FFN层专家得到路由的激活充分训练在目前epochs设置为3时训练的还不够充足。 minimind在早期实验验证阶段在Yi-Tokenizer上试验过moe的充分训练版本可以做到比dense小模型表现肉眼可见地更好。此部分可能需要留给日后腾出服务器再训练并更新v2、v3版本。 E模型的回答肉眼看起来是非常不错的尽管存在些许幻觉瞎编的情况。但GPT-4o和Deepseek的评分都一致认为它“信息过度冗长且有重复内容存在幻觉”。其实这种评价略显严格100个字中哪怕有10个字是幻觉就很容易把它归到低分。由于E模型预训练文本长度更长数据集大得多所以回答的看起来很完备。在体积近似的情况下数据数量和质量都很重要。 ‍♂️个人主观评价ECB≈AD GPT-4o 评价CEBAD Scaling Law模型参数越大训练数据越多模型的性能越强。九、Objective dataset: C-Eval C-Eval评测代码见./eval_ceval.py小模型的测评通常为了避免回复格式的难以固定的特点而直接判断A,B,C,D四个字母对应token预测概率取最大的作为回答答案与标准答案计算正确率。 minimind模型本身没有使用较大的数据集训练也没有针对回答选择题的指令做微调测评结果可以当个参考。例如minimind-small的结果细项 Type12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152Dataprobability_and_statisticslawmiddle_school_biologyhigh_school_chemistryhigh_school_physicslegal_professionalhigh_school_chinesehigh_school_historytax_accountantmodern_chinese_historymiddle_school_physicsmiddle_school_historybasic_medicineoperating_systemlogicelectrical_engineercivil_servantchinese_language_and_literaturecollege_programmingaccountantplant_protectionmiddle_school_chemistrymetrology_engineerveterinary_medicinemarxismadvanced_mathematicshigh_school_mathematicsbusiness_administrationmao_zedong_thoughtideological_and_moral_cultivationcollege_economicsprofessional_tour_guideenvironmental_impact_assessment_engineercomputer_architectureurban_and_rural_plannercollege_physicsmiddle_school_mathematicshigh_school_politicsphysiciancollege_chemistryhigh_school_biologyhigh_school_geographymiddle_school_politicsclinical_medicinecomputer_networksports_scienceart_studiesteacher_qualificationdiscrete_mathematicseducation_sciencefire_engineermiddle_school_geography Type12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152T/A3/185/244/217/195/192/234/196/2010/494/234/194/221/193/194/227/3711/475/2310/379/497/224/203/246/235/195/194/188/338/245/1917/5510/297/316/2111/465/193/194/1913/493/245/194/196/216/222/192/1914/3312/446/167/299/311/12Accuracy16.67%20.83%19.05%36.84%26.32%8.70%21.05%30.00%20.41%17.39%21.05%18.18%5.26%15.79%18.18%18.92%23.40%21.74%27.03%18.37%31.82%20.00%12.50%26.09%26.32%26.32%22.22%24.24%33.33%26.32%30.91%34.48%22.58%28.57%23.91%26.32%15.79%21.05%26.53%12.50%26.32%21.05%28.57%27.27%10.53%10.53%42.42%27.27%37.50%24.14%29.03%8.33% 总题数: 1346 总正确数: 316 总正确率: 23.48%结果汇总 categorycorrectquestion_countaccuracyminimind-v1-small344134625.56%minimind-v1351134626.08% 以下来自GPT-4o对minimind表现的瞎猜 ### 模型擅长的领域 1. 高中的化学正确率为42.11%是最高的一个领域。说明模型在这方面的知识可能较为扎实。 2. 离散数学正确率为37.50%属于数学相关领域表现较好。 3. 教育科学正确率为37.93%说明模型在教育相关问题上的表现也不错。 4. 基础医学正确率为36.84%在医学基础知识方面表现也比较好。 5. 操作系统正确率为36.84%说明模型在计算机操作系统方面的表现较为可靠。 *** ### 模型不擅长的领域 1. 法律相关如法律专业8.70%和税务会计20.41%表现相对较差。 2. 中学和大学的物理如中学物理26.32%和大学物理21.05%模型在物理相关的领域表现不佳。 3. 高中的政治、地理如高中政治15.79%和高中地理21.05%模型在这些领域的正确率较低。 4. 计算机网络与体系结构如计算机网络21.05%和计算机体系结构9.52%在这些计算机专业课程上的表现也不够好。 5. 环境影响评估工程师正确率仅为12.90%在环境科学领域的表现也不理想。 *** ### 总结 - 擅长领域化学、数学特别是离散数学、教育科学、基础医学、计算机操作系统。 - 不擅长领域法律、物理、政治、地理、计算机网络与体系结构、环境科学。这表明模型在涉及逻辑推理、基础科学和一些工程技术领域的问题上表现较好但在人文社科、环境科学以及某些特定专业领域如法律和税务上表现较弱。如果要提高模型的性能可能需要加强它在人文社科、物理、法律、以及环境科学等方面的训练。十、Others 1、推理与导出 https://github.com/jingyaogong/minimind/blob/master/export_model.py 可以导出模型到transformers格式推送到huggingfaceMiniMind的huggingface集合地址 MiniMind 2、API推理 my_openai_api.py完成了openai_api的聊天接口方便将自己的模型接入第三方UI 例如fastgpt、OpenWebUI等从Huggingface下载模型权重文件 minimind (root dir)├─minimind| ├── config.json| ├── generation_config.json| ├── LMConfig.py| ├── model.py| ├── pytorch_model.bin| ├── special_tokens_map.json| ├── tokenizer_config.json| ├── tokenizer.json启动聊天服务端 python my_openai_api.py测试服务接口 python chat_openai_api.pyAPI接口示例兼容openai api格式 curl http://ip:port/v1/chat/completions \-H Content-Type: application/json \-d { model: model-identifier,messages: [ { role: user, content: 世界上最高的山是什么 }], temperature: 0.7, max_tokens: -1,stream: true}3、在fastgpt中接入使用minimind api 2025-01-10五

查看全文

http://www.w-s-a.com/news/750875/