当前位置：首页 > news >正文

免费手机端网站模板深圳网站建设培训学校

news 2025/12/19 17:53:20

免费手机端网站模板,深圳网站建设培训学校,关键词优化除了做网站还有什么方法,医院网站建设论证报告你有没有尝试过使用人工智能生成图像#xff1f; 如果你尝试过#xff0c;你就会知道#xff0c;一张好的图像的关键在于一个详细具体的提示。我不擅长这种详细的视觉提示#xff0c;所以我依赖大型语言模型来生成详细的提示#xff0c;然后使用这些提示来生成出色的图像… 你有没有尝试过使用人工智能生成图像如果你尝试过你就会知道一张好的图像的关键在于一个详细具体的提示。我不擅长这种详细的视觉提示所以我依赖大型语言模型来生成详细的提示然后使用这些提示来生成出色的图像。以下是我能够生成的一些提示和图像的例子 Prompt: Create a stunning aerial view of Bengaluru, India with the city name written in bold, golden font across the top of the image, with the city skyline and Nandi Hills visible in the background. Prompt: Design an image of the iconic Vidhana Soudha building in Bengaluru, India, with the city name written in a modern, sans-serif font at the bottom of the image, in a sleek and minimalist style. 为了实现这些结果我们使用了Flux.1-schnell模型进行图像生成以及Llamma 3.1 - 8B - Instruct模型来生成提示。这两个模型都托管在一台配备了MIG多实例 GPU的单卡 H100 机器上。这篇博客不是图像生成教程我们以前已经分享过 Flux 的教程了。这次我们的目标是创建一个可扩展、安全、全球可访问且价格合理的 GenAI 架构。同时你还将在本文中了解如何在同一块 H100 GPU 上同时运行 Flux 和 Llamma3 两个模型。现在中国很多企业都在做大语言模型就我们接触过的一些公司来讲哪怕是一些小公司都在利用开源的模型定制自己内部使用的文生图和视频 AI 工具。想象一下一个全球化的平台需要为用户快速定制生成图像或者一个内容平台需要跨地区提供用 AI 生成的文本。对于开发者来说想实现这样的架构存在许多挑战。例如 GPU 昂贵的价格GenAI 工具是尖端技术每个工具都有特定的配置要求安全地将后端服务器与GenAI服务器连接将全球分布的用户路由到最近的服务器等这次分享应该能给你提供一个参考和启发逐一解决这些问题。架构设计实现方案为了实现这一目标我们设计了一个基于 DigitalOcean 云基础设施的分布式架构。后面我们会解释为什么会选择 DigitalOcean 服务器。以下是这个架构的具体工作原理我们首先使用全球负载均衡器GLB来管理来自不同地区的请求确保所有用户都能体验到最小的延迟。我们在关键地区伦敦、纽约和悉尼部署了轻量级的图像生成应用每个应用都有自己的缓存并且可以根据需要连接到 GPU 资源。这些应用通过 VPC 对等连接有免费的1200 GiB的数据传输流量安全地通信将复杂的任务回传到多伦多的 H100 GPU Droplet 服务器上这些服务器负责处理提Prompt和图像生成的核心任务。组件详解在这个架构中有两个重要的组件一个是轻量级图像生成应用另一个是 MIG GPU 组件我们需要解释一下这两个组件。轻量级图像生成应用图像生成应用是一个简单的 Python Flask 应用主要包含三个部分 1、位置检测模块这个模块通过浏览器向服务器发送一个虚拟请求以确定用户的地理位置城市和国家并识别哪个服务器区域正在处理该请求。这些信息会显示给用户并帮助优化提示和图像生成的过程。 2、提示下拉模块确定用户位置后应用首先检查缓存中是否有与该位置相关的预存提示。如果找到合适的提示它们会立即显示在下拉菜单中供用户选择用于图像生成。如果没有缓存的提示应用会向大型语言模型LLM发送请求生成新的提示这些提示会被缓存起来以供将来使用并填充到下拉菜单中供用户选择。 3、生成图像模块当用户选择一个提示后应用首先检查是否有从该特定提示生成的图像已缓存。如果有缓存的图像会直接从磁盘加载确保更快的响应时间。如果没有缓存的图像应用会调用 API 生成新的图像并将其缓存以供未来的请求使用最后展示给用户。 MIG GPU 组件 MIG多实例 GPU是 NVIDIA GPU如 H100官方提供的一项功能它允许将单个物理 GPU 划分为多个独立的实例。每个实例称为一个 MIG 片段具有独立的计算、内存和带宽资源。例如我们可以为每个 H100 GPU 获得两个 H100 MIG 模型每个模型的计算能力约为完整 GPU 的一半。在一项基准测试中每个实例通常能在仅需 A100 GPU 80%成本的情况下提供相同甚至超过 A100 GPU 的性能。这种设计不仅优化了 GPU 的利用率还使我们能够在同一个 GPU 上并行部署图像生成和提示生成模型。多实例 GPU (MIG) 如何工作 MIG 是 NVIDIA 在 Ampere 架构中引入的一项技术同时也支持 Hopper 和 Blackwell 架构。MIG 可以将单个 GPU 划分为多个小的 GPU 实例每个实例都可以独立运行一个模型服务器。 MIG 的组成 MIG 实例是由 GPU 的物理计算和内存切片组装而成的 7 个计算切片这些切片均匀划分了芯片上的流式多处理器SMs。H100 GPU 拥有 140 个 SMs这些 SMs 被均匀分配到 7 个切片中每个切片包含 20 个 SMs。此外H100 GPU 还有 7 个 NVDEC 和 JPEG 图像解码器每个切片分配一个。8 个内存切片这些切片均匀划分了芯片上的显存VRAM。每个内存切片有 10 GB 的 VRAM 和 GPU 总内存带宽的八分之一。 7 个计算切片看起来可能有些奇怪但这并不是因为预留了一部分计算资源用于开销而是因为 H100 GPU 恰好有 140 个 SMs这些 SMs 被均匀分成 7 个切片每个切片包含 20 个 SMs。实现该架构在这里我们要开始做一个演示基于 DigitalOcean 的 GPU Droplet 服务器。DigitalOcean的 H100 GPU 在2024 年底之前仅需 2.5 美元/月/GPU从成本上来讲非常合算。而且 DigitalOcean 也已经推出了裸金属 GPU 服务器以供对性能要求更苛刻的 AI 工作任务比如大型模型的训练和 GenAI 应用。在进行 Demo 之前你需要做以下准备 DigitalOcean 账户你需要有一个DigitalOcean 账户新用户可以获得 200 美元的免费额度如果你正在做服务器选型可以用这些额度来做充分的测试。具体服务器价格可参考官方文档基本知识你需要了解 GPU、云网络、VPC虚拟私有云和负载均衡的基本概念。基本技能熟悉 Bash、Docker 和 Python。HuggingFace 访问权限已获得对 Image Generation with Flux.1 模型的访问权限。已获得对 Llama 3.1-8b-Instruct 模型的访问权限。vLLM 库vLLM 是一个快速且易于使用的大型语言模型LLM推理和服务库。 Step-by-Step Setup 1. 创建 GPU Droplet 首先在 DigitalOcean 上创建一个带有单个 H100 GPU 的 GPU Droplet并选择预装了机器学习开发所需的操作系统镜像。 2. 启用 MIG 模式 GPU Droplet 启动并运行后启用 MIG多实例 GPU模式。MIG 可以将 GPU 划分为多个独立的 GPU 实例每个实例都是相互隔离的这对于并行运行不同模型非常重要。 sudo nvidia-smi -i 0 -mig 1 3. 选择 MIG 配置文件并创建实例启用 MIG 后选择一个符合你模型需求的配置文件。 nvidia-smi mig -lgip # 列出所有配置文件例如创建两个 MIG 实例每个实例提供 40GB 内存这应该足够运行两个模型。 sudo nvidia-smi mig -cgi 9,9 -C 查看所有 MIG 实例 ID nvidia-smi -L 4. 在每个 MIG 实例上设置 Docker 容器对于每个 MIG 实例运行一个单独的 Docker 容器分别用于图像生成和提示生成模型。部署 Flux.1-schnell 用于图像生成我们使用 metatonic 的图像和代码来部署 Flux.1 的 Docker 镜像。 # 克隆仓库 git clone https://github.com/matatonic/openedai-images-flux cd openedai-images-flux# 复制配置文件 cp config.default.json config/config.json# 运行 Docker 镜像 sudo docker run -d \-e HUGGING_FACE_HUB_TOKENHF_READ_TOKEN \--runtimenvidia -e NVIDIA_VISIBLE_DEVICESMIG_INSTANCE_ID \-v ./config:/app/config \-v ./models:/app/models \-v ./lora:/app/lora \-v ./models/hf_home:/root/.cache/huggingface \-p 5005:5005 \ ghcr.io/matatonic/openedai-images-flux 使用 vLLM 部署 Llama 3.1 用于提示生成下载并运行用于提示生成模型的 Docker 容器。 sudo docker run -d --runtimenvidia \ -e NVIDIA_VISIBLE_DEVICESMIG_INSTANCE_ID \ -v ~/.cache/huggingface:/root/.cache/huggingface \ -e HUGGING_FACE_HUB_TOKENHF_READ_TOKEN \ -p 8000:8000 \ --ipchost \ vllm/vllm-openai:latest \ --model meta-llama/Meta-Llama-3.1-8B-Instruct 5. 模型访问和通信每个容器通过指定的端口访问允许图像生成应用实例连接并发送请求到图像生成模型Flux.1-schnell或提示生成模型Llama 3.1。MIG 分区确保两个模型高效并发运行互不干扰。 6. 设置区域应用实例在伦敦、纽约和悉尼等区域位置设置轻量级应用实例以本地处理用户请求缓存频繁访问的提示和图像加快响应速度。通过 DigitalOcean 控制台的 Droplets 部分在某个区域创建 Droplet。SSH 登录并设置代码。为了加快速度我已经创建了一个容器只需要确保有 DigitalOcean 容器注册表的访问权限并拉取镜像。 # 登录到 Docker 注册表 sudo docker login registry.digitalocean.com# 拉取容器 sudo docker pull registry.digitalocean.com/cr_name/city-image-generator:v2 创建快照并将 Droplet 部署到其他区域。 # 运行容器 sudo docker run -d -p 80:80 registry.digitalocean.com/cr_name/city-image-generator:v2 在其他区域创建其他 Droplet 并运行容器。 7. 设置 VPC Peering VPC Peering 确保区域应用实例与多伦多的 GPU 服务器之间通过私有网络进行安全、低延迟的通信。进入 DigitalOcean 控制台的 Networking 部分。查看每个区域的默认 VPC例如伦敦、纽约、悉尼和多伦多。使用 VPC Peering 功能建立多伦多 VPC 与其他区域 VPC 的连接。使用简单的网络工具如 ping 或 curl验证连接。 8. 设置全局负载均衡器 (GLB) 全局负载均衡器 (GLB) 将用户请求分发到最近的区域应用实例优化延迟并提升用户体验。进入 DigitalOcean 控制台的 Networking 部分的 Load Balancers 部分。创建一个新的全局负载均衡器。将区域应用实例添加为后端目标。配置健康检查、超时和其他高级设置。创建负载均衡器。写在最后这个示例适用于探索分布式 GenAI 解决方案的企业和开发者例如生成个性化内容的广告平台、社交平台、电商平台或服务于全球受众的 AI 内容平台。通过利用 DigitalOcean 的产品我们展示了如何在部署前沿 AI 服务时平衡可扩展性、安全性和成本效益。如果你需要了解 DigitalOcean 的 GPU Droplet或裸金属 GPU 服务器可与 DigitalOcean 中国区独家战略合作伙伴卓普云联系。如果需要了解更多关于 AI、云架构的开发可关注我们的博客。

查看全文

http://www.w-s-a.com/news/628912/