php怎么做直播网站,汉南城乡建设局网站,网络游戏投诉平台,wordpress爱客0.9目录
一、引言
二、物体检测#xff08;object-detection#xff09;
2.1 概述
2.2 技术原理
2.3 应用场景
2.4 pipeline参数
2.4.1 pipeline对象实例化参数
2.4.2 pipeline对象使用参数
2.4 pipeline实战
2.5 模型排名
三、总结 一、引言 pipel…
目录
一、引言
二、物体检测object-detection
2.1 概述
2.2 技术原理
2.3 应用场景
2.4 pipeline参数
2.4.1 pipeline对象实例化参数
2.4.2 pipeline对象使用参数
2.4 pipeline实战
2.5 模型排名
三、总结 一、引言 pipeline管道是huggingface transformers库中一种极简方式使用大模型推理的抽象将所有大模型分为音频Audio、计算机视觉Computer vision、自然语言处理NLP、多模态Multimodal等4大类28小类任务tasks。共计覆盖32万个模型 今天介绍CV计算机视觉的第五篇物体检测object-detection在huggingface库内有2400个物体检测模型。
二、物体检测object-detection
2.1 概述
物体检测是计算机视觉中的经典问题之一其任务是用框去标出图像中物体的位置并给出物体的类别。从传统的人工设计特征加浅层分类器的框架到基于深度学习的端到端的检测框架物体检测一步步变得愈加成熟。 2.2 技术原理
物体检测object-detection的默认模型为facebook/detr-resnet-50全称为DEtection TRansformer(DETR)-resnet-50。其中有2个要素 DEtection TRansformer (DETR)于2020年5月由Facebook AI发布于《End-to-End Object Detection with Transformers》提出了一种基于transformer的端到端目标检测方法相比于YOLO具有更高的准确性但速度不及YOLO可以应用于医疗影像等不追求实时性的目标检测场景对于追求实时性的目标检测场景还是得YOLO关于YOLOv10可以看我之前的文章。ResNet-50ResNet-50是一种深度残差网络Residual Network是ResNet系列中的一种经典模型。它由微软研究院的Kaiming He等人于2015年提出被广泛应用于计算机视觉任务如图像分类、目标检测和图像分割等。ResNet-50是一种迁移学习模型迁移学习的核心思想是将源领域的知识迁移到目标领域中可以采用样本迁移、特征迁移、模型迁移、关系迁移等手段。 DEtection TRansformer(DETR)主体结构 由三个主要部分组成 用于特征提取的CNN后端ResNettransformer编码器-解码器用于最终检测预测的前馈网络FFN。 后端处理输入图像并生成激活图。transformer编码器降低通道维度并应用多头自注意力和前馈网络。transformer解码器使用N个物体嵌入的并行解码并独立预测箱子坐标和类别标签使用物体查询。DETR利用成对关系从整个图像上下文中受益共同推理所有物体。 2.3 应用场景 安防监控通过分析视频流实时识别异常行为、入侵检测、人群密度控制等。自动驾驶识别道路中的车辆、行人、交通标志确保行车安全。零售业库存管理顾客行为分析自动结账系统中的商品识别。医疗影像分析辅助医生识别病灶如肿瘤、细胞结构等。农业作物健康监测病虫害检测。无人机应用地形分析、目标追踪。社交媒体和相机应用人脸识别、物体标签生成增强用户体验。 2.4 pipeline参数
2.4.1 pipeline对象实例化参数 modelPreTrainedModel或TFPreTrainedModel— 管道将使用其进行预测的模型。 对于 PyTorch这需要从PreTrainedModel继承对于 TensorFlow这需要从TFPreTrainedModel继承。image_processor ( BaseImageProcessor ) — 管道将使用的图像处理器来为模型编码数据。此对象继承自 BaseImageProcessor。modelcardstr或ModelCard可选 — 属于此管道模型的模型卡。frameworkstr可选— 要使用的框架pt适用于 PyTorch 或tfTensorFlow。必须安装指定的框架。taskstr默认为— 管道的任务标识符。num_workersint可选默认为 8— 当管道将使用DataLoader传递数据集时在 Pytorch 模型的 GPU 上时要使用的工作者数量。batch_sizeint可选默认为 1— 当管道将使用DataLoader传递数据集时在 Pytorch 模型的 GPU 上时要使用的批次的大小对于推理来说这并不总是有益的请阅读使用管道进行批处理。args_parserArgumentHandler可选 - 引用负责解析提供的管道参数的对象。deviceint可选默认为 -1— CPU/GPU 支持的设备序号。将其设置为 -1 将利用 CPU设置为正数将在关联的 CUDA 设备 ID 上运行模型。您可以传递本机torch.device或str太torch_dtypestr或torch.dtype可选 - 直接发送model_kwargs只是一种更简单的快捷方式以使用此模型的可用精度torch.float16torch.bfloat16...或autobinary_outputbool可选默认为False——标志指示管道的输出是否应以序列化格式即 pickle或原始输出数据例如文本进行。 2.4.2 pipeline对象使用参数 imagesstr、List[str]或PIL.ImageList[PIL.Image]——管道处理三种类型的图像 包含指向图像的 HTTP(S) 链接的字符串包含图像本地路径的字符串直接在 PIL 中加载的图像管道可以接受单张图片或一批图片。一批图片中的图片必须全部采用相同的格式全部为 HTTP(S) 链接、全部为本地路径或全部为 PIL 图片。 thresholdfloat可选默认为 0.9— 用于过滤预测掩码的概率阈值。timeout可选float默认为 None— 等待从网络获取图像的最长时间以秒为单位。如果为 None则不设置超时并且调用可能会永远阻塞。 2.4 pipeline实战
识别http链接中的物品
采用pipeline代码如下
import os
os.environ[HF_ENDPOINT] https://hf-mirror.com
os.environ[CUDA_VISIBLE_DEVICES] 2from transformers import pipeline
detector pipeline(taskobject-detection,modelfacebook/detr-resnet-50)
output detector(http://images.cocodataset.org/val2017/000000039769.jpg)
print(output)[{score: 0.9982202649116516, label: remote, box: {xmin: 40, ymin: 70, xmax: 175, ymax: 117}}, {score: 0.9960021376609802, label: remote, box: {xmin: 333, ymin: 72, xmax: 368, ymax: 187}}, {score: 0.9954745173454285, label: couch, box: {xmin: 0, ymin: 1, xmax: 639, ymax: 473}}, {score: 0.99880051612854, label: cat, box: {xmin: 13, ymin: 52, xmax: 314, ymax: 470}}, {score: 0.9986782670021057, label: cat, box: {xmin: 345, ymin: 23, xmax: 640, ymax: 368}}]执行后自动下载模型文件并生成score及物体检测的box坐标
2.5 模型排名
在huggingface上我们将物体检测object-detection模型按下载量从高到低排序可以发现除了table表格相关的模型排在第一的就是本文中介绍的detr-resnet-50和yolov10x关于yolov10x可以阅读我之前专门介绍yolov10的文章。 三、总结
本文对transformers之pipeline的物体检测object-detection从概述、技术原理、pipeline参数、pipeline实战、模型排名等方面进行介绍读者可以基于pipeline使用文中的2行代码极简的使用计算机视觉中的物体检测object-detection模型。 期待您的3连关注如何还有时间欢迎阅读我的其他文章
《Transformers-Pipeline概述》
【人工智能】Transformers之Pipeline概述30w大模型极简应用
《Transformers-Pipeline 第一章音频Audio篇》
【人工智能】Transformers之Pipeline一音频分类audio-classification
【人工智能】Transformers之Pipeline二自动语音识别automatic-speech-recognition
【人工智能】Transformers之Pipeline三文本转音频text-to-audio/text-to-speech
【人工智能】Transformers之Pipeline四零样本音频分类zero-shot-audio-classification
《Transformers-Pipeline 第二章计算机视觉CV篇》
【人工智能】Transformers之Pipeline五深度估计depth-estimation
【人工智能】Transformers之Pipeline六图像分类image-classification
【人工智能】Transformers之Pipeline七图像分割image-segmentation
【人工智能】Transformers之Pipeline八图生图image-to-image
【人工智能】Transformers之Pipeline九物体检测object-detection
【人工智能】Transformers之Pipeline十视频分类video-classification
【人工智能】Transformers之Pipeline十一零样本图片分类zero-shot-image-classification
【人工智能】Transformers之Pipeline十二零样本物体检测zero-shot-object-detection
《Transformers-Pipeline 第三章自然语言处理NLP篇》
【人工智能】Transformers之Pipeline十三填充蒙版fill-mask
【人工智能】Transformers之Pipeline十四问答question-answering
【人工智能】Transformers之Pipeline十五总结summarization
【人工智能】Transformers之Pipeline十六表格问答table-question-answering
【人工智能】Transformers之Pipeline十七文本分类text-classification
【人工智能】Transformers之Pipeline十八文本生成text-generation
【人工智能】Transformers之Pipeline十九文生文text2text-generation
【人工智能】Transformers之Pipeline二十令牌分类token-classification
【人工智能】Transformers之Pipeline二十一翻译translation
【人工智能】Transformers之Pipeline二十二零样本文本分类zero-shot-classification
《Transformers-Pipeline 第四章多模态Multimodal篇》
【人工智能】Transformers之Pipeline二十三文档问答document-question-answering
【人工智能】Transformers之Pipeline二十四特征抽取feature-extraction
【人工智能】Transformers之Pipeline二十五图片特征抽取image-feature-extraction
【人工智能】Transformers之Pipeline二十六图片转文本image-to-text
【人工智能】Transformers之Pipeline二十七掩码生成mask-generation
【人工智能】Transformers之Pipeline二十八视觉问答visual-question-answering