当前位置：首页 > news >正文

网站建设申请端午节网站建设目的

news 2026/4/9 1:27:20

网站建设申请,端午节网站建设目的,dede世界杯网站模板,优易官方网站写在前面博文内容涉及基于 Deepseek LLM 的本地知识库搭建使用 ollama 部署 Deepseek-R1 LLM知识库能力通过 Ragflow、Dify 、AnythingLLM、Cherry 提供理解不足小伙伴帮忙指正 #x1f603;,生活加油我站在人潮中央#xff0c;思考这日日重复的生活。我突然想#xff0c…写在前面博文内容涉及基于 Deepseek LLM 的本地知识库搭建使用 ollama 部署 Deepseek-R1 LLM知识库能力通过 Ragflow、Dify 、AnythingLLM、Cherry 提供理解不足小伙伴帮忙指正 ,生活加油我站在人潮中央思考这日日重复的生活。我突然想如果有一天垂老和年轻都难以惊起心中涟漪一潭死水的沉闷鲜花和蛋糕也撼动不了。如果人开始不能为微小事物而感动那么地震山洪的噩耗想必也惊闻不了。如果活着和死亡的本质无异那便没有了存在的意义。我没有快乐也没有痛苦只是麻木的置身于平静的绝望之中和世界一起下沉。我甚至病态的渴望心中掀起一场风暴或是海啸将我席卷撕裂。可那片黑洞里什么也没有它吞噬万物它带走了我的生命情绪活力我眼睁睁的看着我对此无能为力。这一刻我明白了我看远山远山悲悯。远山知道我的苦闷却改变不了什么只能悲悯悲悯我的麻木悲悯我的无奈持续分享技术干货感兴趣小伙伴可以关注下 _ 本地 LLM 部署 LLM 本身只是一些神经网络参数, 就拿 DeepSeek-R1 来讲模型本身存储了权重矩阵以及混合专家MoE架构实际运行起来需要行业级别的服务器配置消费级别的个人电脑不能直接运行实际还涉及到硬件适配需手动配置 CUDA/PyTorch 环境编写分布式推理代码处理量化与内存溢出问题现在通过 ollama 可以在消费级别电脑部署上面涉及到的问题 ollama 帮我们完成同时还涉及模型的管理推理服务构建 ollama 开源项目地址 https://github.com/ollama/ollama 它在项目中这样介绍自己Get up and running with large language models. ollama安装下载 ollama之后直接安装就可以下载地址 https://ollama.com/download ollama 专注于在本地设备如个人电脑或服务器快速部署和运行开源大语言模型如 DeepSeek-R1支持模型下载、环境配置及基础推理服务。适用需本地化运行 LLM 的场景强调数据隐私与低成本无需高性能服务器但是不提供知识库管理、RAG 或应用开发功能需配合其他工具使用安装成功会自动配置环境变量 PS C:\Users\Administrator ollama -h Large language model runnerUsage:ollama [flags]ollama [command]Available Commands:serve Start ollamacreate Create a model from a Modelfileshow Show information for a modelrun Run a modelstop Stop a running modelpull Pull a model from a registrypush Push a model to a registrylist List modelsps List running modelscp Copy a modelrm Remove a modelhelp Help about any command 。。。。。。Ollama 采用 Client-ServerC/S架构,C 端通过命令行CLI或桌面应用与用户交互发起模型请求。S 端负责处理客户端请求管理模型下载与元数据推理引擎负责加载模型并执行计算 Ollama 资源优化技术: 权重量化支持 INT8/INT4 量化显存占用降低至原始模型的 1/2 至 1/4使 65B 参数模型可在 16GB 内存设备运行分块加载长文本分块处理避免显存溢出GPU/CPU 调度优先调用 NVIDIA/AMD GPU 加速无 GPU 时通过 Metal 或分布式计算优化 CPU 模式模型管理机制本地存储模型文件如 blobs 数据和元数据如 manifests默认存储在 $HOME/.ollama支持离线使用,数据无需上传云端适合医疗、金融等隐私敏感场景。模型拉取客户端通过 ollama run 模型名触发服务端从远程仓库下载并缓存模型通过下面的地址选择对应的参数的模型即可 https://ollama.com/library/deepseek-r1 deepseek R1 蒸馏模型部署关于什么是蒸馏模型小伙伴可以看我之前的文章模型下载成功就可以用了默认会自动下载 DeepSeek-R1-Distill-Qwen-7B 模型 PS C:\Users\Administrator ollama run deepseek-r1 pulling manifest pulling 96c415656d37... 100% ▕████████████████████████████████████████████████████████▏ 4.7 GB pulling 369ca498f347... 100% ▕████████████████████████████████████████████████████████▏ 387 B pulling 6e4c38e1172f... 100% ▕████████████████████████████████████████████████████████▏ 1.1 KB pulling f4d24e9138dd... 100% ▕████████████████████████████████████████████████████████▏ 148 B pulling 40fb844194b2... 100% ▕████████████████████████████████████████████████████████▏ 487 B verifying sha256 digest writing manifest success直接命令行就可以交互了算一道数学题 PS C:\Users\Administrator ollama run deepseek-r1123454654213 think To solve the equation $1 2 3 4 54654 213$, I will follow these steps:First, add the numbers from 1 to 4.Next, add the result to 54654.Finally, add this sum to 213 to get the final answer. /thinkTo solve the equation $1 2 3 4 54654 213$, follow these steps:1. **Add the numbers from 1 to 4:**\[1 2 3 4 10\]2. **Add this sum to 54654:**\[10 54654 54664\]3. **Finally, add the result to 213:**\[54664 213 54877\]**Final Answer:**\boxed{54877} Send a message这里通过命令行的方式启动服务端配置$env:OLLAMA_HOST0.0.0.0 的作用是将 Ollama 服务绑定到所有网络接口,因为后面涉及到和其他工具交互。 PS C:\Users\Administrator $env:OLLAMA_HOST0.0.0.0 # 设置环境变量服务启动涉及到的环境变量在项目中位置 https://github.com/ollama/ollama/blob/main/envconfig/config.go PS C:\Users\Administrator ollama serve # 启动服务 2025/02/20 08:47:44 routes.go:1187: INFO server config envmap[CUDA_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_DEBUG:false OLLAMA_FLASH_ATTENTION:false OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://0.0.0.0:11434 OLLAMA_INTEL_GPU:false OLLAMA_KEEP_ALIVE:5m0s OLLAMA_KV_CACHE_TYPE: OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:0 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:C:\\Users\\Administrator\\.ollama\\models OLLAMA_MULTIUSER_CACHE:false OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NUM_PARALLEL:0 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://* vscode-webview://*] OLLAMA_SCHED_SPREAD:false ROCR_VISIBLE_DEVICES:] time2025-02-20T08:47:44.74708:00 levelINFO sourceimages.go:432 msgtotal blobs: 14 time2025-02-20T08:47:44.74808:00 levelINFO sourceimages.go:439 msgtotal unused blobs removed: 0 time2025-02-20T08:47:44.74808:00 levelINFO sourceroutes.go:1238 msgListening on [::]:11434 (version 0.5.7) time2025-02-20T08:47:44.74908:00 levelINFO sourceroutes.go:1267 msgDynamic LLM libraries runners[cpu_avx cpu_avx2 cuda_v11_avx cuda_v12_avx rocm_avx cpu] time2025-02-20T08:47:44.74908:00 levelINFO sourcegpu.go:226 msglooking for compatible GPUs time2025-02-20T08:47:44.74908:00 levelINFO sourcegpu_windows.go:167 msgpackages count1 time2025-02-20T08:47:44.74908:00 levelINFO sourcegpu_windows.go:183 msgefficiency cores detected maxEfficiencyClass1 time2025-02-20T08:47:44.74908:00 levelINFO sourcegpu_windows.go:214 msg package0 cores12 efficiency4 threads20 time2025-02-20T08:47:44.87208:00 levelINFO sourcetypes.go:131 msginference compute idGPU-e65029a6-c2f9-44b1-bd76-c12e4083fa4c librarycuda variantv12 compute8.6 driver12.8 nameNVIDIA GeForce RTX 3060 total12.0 GiB available11.0 GiB [GIN] 2025/02/20 - 08:47:57 | 200 | 0s | 172.19.16.1 | GET / [GIN] 2025/02/20 - 08:47:57 | 404 | 0s | 172.19.16.1 | GET /favicon.ico同时项目启动之后会输出当前推理服务的环境变量 2025/02/20 08:47:44 routes.go:1187: INFO server config envmap[CUDA_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_DEBUG:false OLLAMA_FLASH_ATTENTION:false OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://0.0.0.0:11434 OLLAMA_INTEL_GPU:false OLLAMA_KEEP_ALIVE:5m0s OLLAMA_KV_CACHE_TYPE: OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:0 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:C:\\Users\\Administrator\\.ollama\\models OLLAMA_MULTIUSER_CACHE:false OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NUM_PARALLEL:0 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://* vscode-webview://*] OLLAMA_SCHED_SPREAD:false ROCR_VISIBLE_DEVICES:]如果有需要部署生产级别的小伙伴需要详细了解这里简单看几个常用的 OLLAMA_HOST 作用指定服务器监听的 IP 地址和端口。它定义了客户端可以访问服务器的地址。当前值http://0.0.0.0:11434表示服务器将监听所有可用的网络接口端口为 11434使用 HTTP 协议。 OLLAMA_KEEP_ALIVE 作用设置模型在内存中保持加载的时间。如果在这个时间内没有新的请求模型可能会被卸载以释放内存。当前值5m0s即 5 分钟意味着模型在 5 分钟内没有被使用就可能会被卸载。 OLLAMA_LOAD_TIMEOUT 作用设置模型加载的超时时间。如果模型在这个时间内没有加载完成服务器可能会放弃加载操作。当前值5m0s表示模型加载的最长时间为 5 分钟。 OLLAMA_MAX_LOADED_MODELS 作用限制每个 GPU 上最多可以加载的模型数量。这有助于控制 GPU 的资源使用。当前值0表示没有对每个 GPU 加载的模型数量进行限制。 OLLAMA_MAX_QUEUE 作用设置请求队列的最大长度。当请求数量超过这个值时新的请求可能会被拒绝。当前值512表示请求队列最多可以容纳 512 个请求。 OLLAMA_MODELS 作用指定模型文件存储的目录。服务器会从这个目录中加载模型。当前值C:\Users\Administrator.ollama\models表示模型文件存储在该 Windows 用户目录下的 . ollama\models 文件夹中。 OLLAMA_NUM_PARALLEL 作用设置服务器可以同时处理的并行模型请求数量。当前值0表示没有对并行请求数量进行限制。知识库搭建在知识库搭建的时候我们还需要一个基本的嵌入模型用于理解分析已有的知识库内容嵌入模型这里我们使用的是 BGE-M3 嵌入模型是什么通俗的话讲它把文本信息翻译成计算机能够理解和处理的数字形式也就是向量。它就像是给每一段文本生成了一个独一无二的 “数字指纹”凭借这个 “指纹”计算机就能对文本进行各种分析和操作。有了嵌入模型分析知识库的文本内容那么是如何和问答结合的这就需要 RAG RAG 检索增强生成RAG是一种将外部知识检索与大语言模型LLM相结合的技术。传统的大语言模型虽然拥有丰富的知识但知识更新可能不及时或者在特定领域的知识储备不足。RAG 通过在生成回答之前先从外部知识源如文档数据库、网页等中检索相关信息然后将这些信息与用户的问题一起输入到大语言模型中从而生成更准确、更具时效性的回答。需要注意的事项知识库的搭建部分使用的是容器的方式所以调用 ollama 提供的推理能力的时候通过 127.0.0.0:11434 访问是访问不通的所以需要一个能代表宿主机但是IP地址或者域名不是 127.0.0.0或localhost 的地址。在windos 上面会有这个一个虚拟交换设备在其他服务调用 ollama 的时候需要本地ID11434 的方式访问这里我们选用这个 IP 172.29.176.1:11434,至于这个设备如何创建的一般开启虚拟化 Hyper - V 的时候会自动创建以太网适配器 vEthernet (Default Switch):连接特定的 DNS 后缀 . . . . . . . :本地链接 IPv6 地址. . . . . . . . : fe80::c872:92b3:b00a:6ce0%25IPv4 地址 . . . . . . . . . . . . : 172.29.176.1子网掩码 . . . . . . . . . . . . : 255.255.240.0默认网关. . . . . . . . . . . . . :对于通过客户端的方式直接部署的我们可以之间使用 127.0.0.0:11434 或者 localhost 来访问推理服务 Ragflow DeepSeek RAGFlow 是一款基于深度文档理解构建的开源 RAGRetrieval-Augmented Generation检索增强生成引擎。RAGFlow 可以为各种规模的企业及个人提供一套精简的 RAG 工作流程结合大语言模型LLM针对用户各类不同的复杂格式数据提供可靠的问答以及有理有据的引用。官网地址https://ragflow.io 项目地址 https://github.com/infiniflow/ragflow 这里需要使用 docker 来部署安装dockr 克隆项目执行 docker-compose 就可以了 git clone https://github.com/infiniflow/ragflow.git然后参考 readme 部署即可 $ cd ragflow/docker $ docker compose -f docker-compose.yml up -d这里需要说明一下有些 docker-compose 维护不及时可能部署有问题所以我们用 readme 推荐的方式上面截图中 GPU 版本的我尝试了好久server 启动链接 es 报错未果用了默认的 compose。部署成功之后可以在docker 桌面版中看到容器核心服务是一个 server 默认 80 端口需要注册账号登陆需要先配置基础模型需要注意这里的地址不能写 127.0.0.1 选择本地模型 LLM 模型选择嵌入模型在系统模型设置添加对应的模型选择知识库创建知识库在配置中配置需要的数据上传本地的知识库内容全选解析启用之后在聊天配置中选择对应的知识库模型参数调整简单测试每次提问会显示对应的文本内容 Dify DeepSeek Dify 是一个开源的 LLM 应用开发平台。其直观的界面结合了 AI 工作流、RAG 管道、Agent、模型管理、可观测性功能等可以快速从原型到生产。官网地址 https://dify.ai/zh 项目地址 https://github.com/langgenius/dify/blob/main/README_CN.md 和上面的部署一眼克隆项目然后通过 docker 部署 git clone https://github.com/langgenius/dify.git运行项目中的 docker-compose.yml 这里直接通过 vs code 运行 docker 中观察容器运行情况同样是 80 端口需要注册一个账号用注册的账号登陆即可选择知识库在用户中心设置中配置模型相关配置配置本地模型需要注意这里的地址配置嵌入模型然后中模型配置中添加选择创建知识库导入本地知识库分段相关配置保存设置等待文档解析完成知识库创建完成创建聊天助手上下文选择之前创建的知识库做简单的问答测试可以看到最下面引用的文档点击发布知识库机器人创建完成 Cherry Studio DeepSeek Cherry Studio 是一款开源、跨平台支持 Windows/macOS/Linux的 AI 桌面客户端专注于聚合多模型服务并提供本地化 AI 应用开发支持。官网地址 https://cherry-ai.com/ 下载地址 https://cherry-ai.com/download 项目地址 https://github.com/CherryHQ/cherry-studio 它的这样介绍自己 Cherry Studio 是一款支持多个大语言模型LLM服务商的桌面客户端兼容 Windows、Mac 和 Linux 系统。以下是其核心功能与使用要点多模型集成支持 300 主流大语言模型包括 DeepSeek、OpenAI、Gemini、Claude 等通过 API 密钥接入云端服务也支持本地部署模型如 Ollama知识库管理:可上传 PDF、Word、Excel、网页链接等文件构建本地结构化数据库通过 RAG 技术实现智能检索支持向量化处理和来源标注预置智能体: 内置 300 行业助手如翻译、编程、营销支持自定义提示词Prompt创建专属 AI 应用多模态处理: 支持文本生成、图像生成集成硅基流动等平台、代码高亮、Markdown 渲染及文件格式转换下面我们看看如何搭建下载安装设置图标选择模型服务选择本地的 ollama 服务, 模型配置选择我们之前 pull 的模型然后在默认助手中作简单测试选择知识库图标创建知识库添加嵌入模型然后上传要创建知识库的文件可以通过搜索知识库简单测试然后就可以提问了选择一开始添加的本地模型提问的时候选择知识库文档中的内容做简单问答测试引用知识库中的内容 AnythingLLM DeepSeek AnythingLLM 同样是一个全栈应用程序可以使用现成的商业大语言模型或流行的开源大语言模型再结合向量数据库解决方案构建一个私有ChatGPT不再受制于人您可以本地运行也可以远程托管并能够与您提供的任何文档智能聊天。官网下载地址 https://anythingllm.com/ 文档地址 https://docs.anythingllm.com/ 项目地址 https://github.com/Mintplex-Labs/anything-llm/blob/master/locales/README.zh-CN.md 下载安装包直接安装即可安装完后会有如下的界面选择本地的模型之后一直下一步创建工作区然后在新工作区选择下面的箭头导入知识库文档添加到工作区选择启用问一个知识库相关的问题测试最下面会列出引用的文档 LLM 相关配置可以在设置中设置 AnythingLLM 和 Cherry Studio 都是客户端所以 ollama 的推理模型直接设置本地回环地址就可以整体来看Ragflow 相对专业一点其次是 Dify Cherry Studio AnythingLLM 但是前两个相对部署较重后两个客户端可以直接客户端部署。博文部分内容参考 © 文中涉及参考链接内容版权归原作者所有如有侵权请告知 https://ragflow.io https://dify.ai/zh https://cherry-ai.com/ https://anythingllm.com/ © 2018-至今 liruilongergmail.com, 保持署名-非商用-相同方式共享(CC BY-NC-SA 4.0)

查看全文

http://www.w-s-a.com/news/741973/