贵州中小型营销型网站建设公司,页面跳转不了怎么回事,平面设计工作,济南手机网站定制费用本文参加新星计划人工智能(Pytorch)赛道#xff1a;https://bbs.csdn.net/topics/613989052 这是目录使用torchvision库的datasets类加载常用的数据集或自定义数据集使用torchvision库进行数据增强和变换#xff0c;自定义自己的图像分类数据集并使用torchvision库加载它们使… 本文参加新星计划人工智能(Pytorch)赛道https://bbs.csdn.net/topics/613989052 这是目录使用torchvision库的datasets类加载常用的数据集或自定义数据集使用torchvision库进行数据增强和变换自定义自己的图像分类数据集并使用torchvision库加载它们使用torchvision库的models类加载预训练模型或自定义模型forward方法进行模型训练和测试使用matplotlib.pyplot库可视化结果使用torchvision库的datasets类加载常用的数据集或自定义数据集
图像识别是计算机视觉中的一个基础任务它的目标是让计算机能够识别图像中的物体、场景或者概念并将它们分配到预定义的类别中。例如给定一张猫的图片图像识别系统应该能够输出“猫”这个类别。
为了训练和评估图像识别系统我们需要有大量的带有标注的图像数据集。常用的图像分类数据集有
ImageNet一个包含超过1400万张图片和2万多个类别的大型数据库是目前最流行和最具挑战性的图像分类基准之一。CIFAR-10/CIFAR-100一个包含6万张32×32大小的彩色图片和10或100个类别的小型数据库适合入门级和快速实验。MNIST一个包含7万张28×28大小的灰度手写数字图片和10个类别的经典数据库是深度学习中最常用的测试集之一。Fashion-MNIST一个包含7万张28×28大小的灰度服装图片和10个类别的数据库是MNIST数据库在时尚领域上更加复杂和现代化版本。
使用torchvision库可以方便地加载这些常用数据集或者自定义数据集。torchvision.datasets提供了一些加载数据集或者下载数据集到本地缓存文件夹默认为./data并返回Dataset对象torch.utils.data.Dataset 的函数。Dataset对象可以存储样本及其对应标签并提供索引方式dataset[i]来获取第i个样本。例如要加载CIFAR-10训练集并进行随机打乱可以使用以下代码
import torchvision
import torchvision.transforms as transformstransform transforms.Compose([transforms.ToTensor()]) # 定义转换函数将PIL.Image转换为torch.Tensor
trainset torchvision.datasets.CIFAR10(root./data, trainTrue, downloadTrue, transformtransform) # 加载CIFAR-10训练集
trainloader torch.utils.data.DataLoader(trainset, batch_size4, shuffleTrue) # 定义DataLoader对象用于批量加载数据使用torchvision库进行数据增强和变换自定义自己的图像分类数据集并使用torchvision库加载它们
数据增强和变换为了提高模型的泛化能力和数据利用率我们通常会对图像数据进行一些随机的变换例如裁剪、旋转、翻转、缩放、亮度调整等。这些变换可以在一定程度上模拟真实场景中的图像变化增加模型对不同视角和光照条件下的物体识别能力。torchvision.transforms提供了一些常用的图像变换函数可以组合成一个transform对象并传入datasets类中作为参数。例如要对CIFAR-10训练集进行随机水平翻转和随机裁剪并将图像归一化到[-1, 1]范围内可以使用以下代码
import torchvision
import torchvision.transforms as transformstransform transforms.Compose([transforms.RandomHorizontalFlip(), # 随机水平翻转transforms.RandomCrop(32, padding4), # 随机裁剪到32×32大小并在边缘填充4个像素transforms.ToTensor(), # 将PIL.Image转换为torch.Tensortransforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) # 将RGB三个通道的值归一化到[-1, 1]范围内
])
trainset torchvision.datasets.CIFAR10(root./data, trainTrue, downloadTrue, transformtransform) # 加载CIFAR-10训练集并应用上述变换
trainloader torch.utils.data.DataLoader(trainset, batch_size4, shuffleTrue) # 定义DataLoader对象用于批量加载数据自定义图像分类数据集如果我们有自己的图像分类数据集我们可以通过继承torch.utils.data.Dataset类来自定义一个Dataset对象并实现__len__和__getitem__两个方法。__len__方法返回数据集中样本的数量__getitem__方法根据给定的索引返回一个样本及其标签。例如假设我们有一个文件夹结构如下
my_dataset/
├── class_0/
│ ├── image_000.jpg
│ ├── image_001.jpg
│ └── ...
├── class_1/
│ ├── image_000.jpg
│ ├── image_001.jpg
│ └── ...
└── ...其中每个子文件夹代表一个类别每个子文件夹中包含该类别对应的图像文件。我们可以使用以下代码来自定义一个Dataset对象并加载这个数据集
import torch.utils.data as data
from PIL import Image
import osclass MyDataset(data.Dataset):def __init__(self, root_dir, transformNone):self.root_dir root_dir # 根目录路径self.transform transform # 变换函数self.classes sorted(os.listdir(root_dir)) # 类别列表按字母顺序排序self.class_to_idx {c: i for i,c in enumerate(self.classes)} # 类别名到索引的映射self.images [] # 图片路径列表相对于根目录self.labels [] # 标签列表整数for c in self.classes:c_dir os.path.join(root_dir, c) # 类别子目录路径for img_name in sorted(os.listdir(c_dir)): # 遍历每个图片文件名按字母顺序排序img_path os.path.join(c,img_name) # 图片相对路径相对于根目录label self.class_to_idx[c] # 图使用torchvision库的models类加载预训练模型或自定义模型
加载预训练模型或自定义模型torchvision.models提供了一些常用的图像分类模型例如AlexNet、VGG、ResNet等并且可以选择是否加载在ImageNet数据集上预训练好的权重。这些模型可以直接用于图像分类任务也可以作为特征提取器或者微调fine-tune的基础。例如要加载一个预训练好的ResNet-18模型并冻结除最后一层外的所有参数可以使用以下代码
import torchvision.models as modelsmodel models.resnet18(pretrainedTrue) # 加载预训练好的ResNet-18模型
for param in model.parameters(): # 遍历所有参数param.requires_grad False # 将参数的梯度设置为False表示不需要更新
num_features model.fc.in_features # 获取全连接层fc的输入特征数
model.fc torch.nn.Linear(num_features, 10) # 替换全连接层为一个新的线性层输出特征数为10假设有10个类别如果我们想要自定义自己的图像分类模型我们可以通过继承torch.nn.Module类来实现一个Module对象并实现__init__和forward两个方法。__init__方法用于定义模型中需要的各种层和参数forward方法用于定义前向传播过程。例如要自定义一个简单的卷积神经网络CNN模型可以使用以下代码
import torch.nn as nnclass MyCNN(nn.Module):def __init__(self):super(MyCNN, self).__init__() # 调用父类构造函数self.conv1 nn.Conv2d(3, 6, 5) # 定义第一个卷积层输入通道数为3RGB输出通道数为6卷积核大小为5×5self.pool nn.MaxPool2d(2, 2) # 定义最大池化层池化核大小为2×2步长为2self.conv2 nn.Conv2d(6, 16, 5) # 定义第二个卷积层输入通道数为6输出通道数为16卷积核大小为5×5self.fc1 nn.Linear(16 * 5 * 5, 120) # 定义第一个全连接层输入特征数为16×5×5根据卷积和池化后的图像大小计算得到输出特征数为120self.fc2 nn.Linear(120, 84) # 定义第二个全连接层输入特征数为120输出特征数为84self.fc3 nn.Linear(84, 10) # 定义第三个全连接层输入特征数为84forward方法
forward方法用于定义前向传播过程即如何根据输入的图像张量Tensor计算出输出的类别概率分布。我们可以使用定义好的各种层和参数并结合一些激活函数如ReLU和归一化函数如softmax来实现forward方法。例如要实现上面自定义的CNN模型的forward方法可以使用以下代码
import torch.nn.functional as Fclass MyCNN(nn.Module):def __init__(self):# 省略__init__方法的内容...def forward(self, x): # 定义前向传播过程x是输入的图像张量x self.pool(F.relu(self.conv1(x))) # 将x通过第一个卷积层和ReLU激活函数然后通过最大池化层x self.pool(F.relu(self.conv2(x))) # 将x通过第二个卷积层和ReLU激活函数然后通过最大池化层x x.view(-1, 16 * 5 * 5) # 将x展平为一维向量-1表示自动推断批量大小x F.relu(self.fc1(x)) # 将x通过第一个全连接层和ReLU激活函数x F.relu(self.fc2(x)) # 将x通过第二个全连接层和ReLU激活函数x self.fc3(x) # 将x通过第三个全连接层x F.softmax(x, dim1) # 将x通过softmax函数沿着第一个维度类别维度进行归一化得到类别概率分布return x # 返回输出的类别概率分布进行模型训练和测试使用matplotlib.pyplot库可视化结果
模型训练和测试是机器学习中的重要步骤它们可以帮助我们评估模型的性能和泛化能力。matplotlib.pyplot是一个Python库它可以用来绘制各种类型的图形包括曲线图、散点图、直方图等。使用matplotlib.pyplot库可视化结果的一般步骤如下
导入matplotlib.pyplot模块并设置一些参数如字体、分辨率等。创建一个或多个图形对象figure并指定大小、标题等属性。在每个图形对象中创建一个或多个子图subplot并指定位置、坐标轴等属性。在每个子图中绘制数据使用不同的函数和参数如plot、scatter、bar等。添加一些修饰元素如图例legend、标签label、标题title等。保存或显示图形。
例如使用matplotlib.pyplot库绘制了一个线性回归模型的训练误差和测试误差曲线
# 导入模块
import matplotlib.pyplot as plt
import numpy as np# 设置字体和分辨率
plt.rcParams[font.sans-serif] [SimHei]
plt.rcParams[axes.unicode_minus] False
%config InlineBackend.figure_format retina# 生成数据
x np.linspace(0, 10, 100)
y 3 * x 5 np.random.randn(100) * 2 # 真实值
w np.random.randn() # 随机初始化权重
b np.random.randn() # 随机初始化偏置# 定义损失函数
def loss(y_true, y_pred):return ((y_true - y_pred) ** 2).mean()# 定义梯度下降函数
def gradient_descent(x, y_true, w, b, lr):y_pred w * x b # 预测值dw -2 * (x * (y_true - y_pred)).mean() # 权重梯度db -2 * (y_true - y_pred).mean() # 偏置梯度w w - lr * dw # 更新权重b b - lr * db # 更新偏置return w, b# 训练模型并记录每轮的训练误差和测试误差
epochs 20 # 训练轮数
lr 0.01 # 学习率
train_loss_list [] # 训练误差列表
test_loss_list [] # 测试误差列表for epoch in range(epochs):# 划分训练集和测试集8:2train_index np.random.choice(100, size80, replaceFalse)test_index np.setdiff1d(np.arange(100), train_index)x_train, y_train x[train_index], y[train_index]x_test, y_test x[test_index], y[test_index]# 梯度下降更新参数并计算训练误差和测试误差w, b gradient_descent(x_train, y_train, w, b, lr)train_loss loss(y_train, w * x_train b)test_loss loss(y_test, w * x_test b)# 打印结果并将误差添加到列表中print(fEpoch {epoch1}, Train Loss: {train_loss:.4f}, Test Loss: {test_loss:.4f})train_loss_list.append(train_loss)test_loss_list.append(test_loss)# 创建一个图形对象并设置大小为8*6英寸
plt.figure(figsize(8,6))# 在图形对象中创建一个子图并设置位置为1行1列的第1个
plt.subplot(1, 1, 1)# 在子图中绘制训练误差和测试误差曲线使用不同的颜色和标签
plt.plot(np.arange(epochs), train_loss_list, r, labelTrain Loss)
plt.plot(np.arange(epochs), test_loss_list, b, labelTest Loss)# 添加图例、坐标轴标签和标题
plt.legend()
plt.xlabel(Epoch)
plt.ylabel(Loss)
plt.title(Linear Regression Loss Curve)# 保存或显示图形
#plt.savefig(loss_curve.png)
plt.show()运行后可以看到如下的图形
参考 PyTorch官方网站