当前位置：首页 > news >正文

加盟类网站怎么做怎样建立自己网站

news 2026/4/8 19:31:37

加盟类网站怎么做,怎样建立自己网站,沈阳做人流哪个医院好安全,wordpress如何关注博客一、理解多模态大模型的常见设计模式#xff0c;可以大概讲出多模态大模型的工作原理。视频地址开源的多模态大模型#xff1a;InternVL#xff0c;Qwen-VL#xff0c;LLaVA 闭源的#xff1a;GPT-4o 研究重点#xff1a;不同模态特征空间的对齐 BLIP2 将图像特征对…一、理解多模态大模型的常见设计模式可以大概讲出多模态大模型的工作原理。视频地址开源的多模态大模型InternVLQwen-VLLLaVA 闭源的GPT-4o 研究重点不同模态特征空间的对齐 BLIP2 将图像特征对齐到文本空间中 Q-Former双塔结构分别处理图像输入和文字输入用三个loss来优化模型用MASK来区分三种任务缺点 MiniGPT-4 开源版GPT4 采用Q-Former和VIT LLaVA 用图像编码器和一层线性层把图像映射到文本空间然后和文本指令embedding拼接在一起 LLaVA-1.5-HD 图像切片、缩略图作为输入然后一层MLP换成两层 LLaVA-NeXT 采用动态分辨率找到最接近的长宽比放缩过去再切块二、了解InternVL2的设计模式可以大概描述InternVL2的模型架构和训练流程 Dynamic High Resolution 原图切片 InternViT vision encoder的参数量增大较之clip的对比学习没有丢弃text encoder。实验发现倒数第四层好用就去掉了后面三层扩展分辨率在高分辨率和OCR数据集上训练 V1.5版本中加了动态分辨率和高质量数据。 Pixel Shuffle 将图像进行下采样有利于减少计算资源扩大多模态的上下文长度多任务输出用任务路由token决定执行什么任务训练先训MLP再把所有模块都微调三、了解LMDeploy部署多模态大模型的核心代码并运行提供的gradio代码在UI界面体验与InternVL2的对话 0.工作原理了解 1.环境配置创建训练环境用之前的xtuner-env就行只要多装timm包就好 pip install -U ‘xtuner[deepspeed]’ timm1.0.9 推理环境配置需要用上书生生态链的lmdeploy conda create -n lmdeploy python3.10 -y conda activate lmdeploy pip install lmdeploy gradio4.44.1 timm1.0.92.LMDeploy部署松鼠鳜鱼识别失败四、了解XTuner并利用给定数据集微调InternVL2-2B后再次启动UI界面体验模型美食鉴赏能力的变化。 1.微调实践开发机没有/root/xtuner路径可以用/root/finetune/xtuner代替。克隆的命令也改为 cp /root/InternVL2-Tutorial/xtuner_config/internvl_v2_internlm2_2b_lora_finetune_food.py /root/finetune/xtuner/xtuner/configs/internvl/v2/internvl_v2_internlm2_2b_lora_finetune_food.py 2.下载数据集 FoodieQA需要在hugging face上先提交申请比较麻烦因此可以用share目录下已经处理好的数据集用软连接即可 ln -s /root/share/datasets/FoodieQA /root/huggingface/FoodieQA3.开始微调我是在/root/finetuner/xtuner/目录下运行微调指令的 xtuner train internvl_v2_internlm2_2b_lora_finetune_food --deepspeed deepspeed_zero2格式转换 4.部署修改demo.py里的路径为 MODEL_PATH /root/finetune/xtuner/work_dirs/internvl_v2_internlm2_2b_lora_finetune_food/lr35_ep10 可以看到训完之后它对于苏菜的松鼠鳜鱼识别还是错误识别成了浙菜油爆虾。但是较之未训练的模型来说至少没有笼统的列出属于中国菜有所进步

查看全文

http://www.w-s-a.com/news/602567/