php网站平台,泉山微网站开发,一个主机 多个网站,汽车之家官网网页版入口以下内容为结合李沐老师的课程和教材补充的学习笔记#xff0c;以及对课后练习的一些思考#xff0c;自留回顾#xff0c;也供同学之人交流参考。
本节课程地址#xff1a;25 使用块的网络 VGG【动手学深度学习v2】_哔哩哔哩_bilibili
本节教材地址#xff1a;7.2. 使用…以下内容为结合李沐老师的课程和教材补充的学习笔记以及对课后练习的一些思考自留回顾也供同学之人交流参考。
本节课程地址25 使用块的网络 VGG【动手学深度学习v2】_哔哩哔哩_bilibili
本节教材地址7.2. 使用块的网络VGG — 动手学深度学习 2.0.0 documentation (d2l.ai)
本节开源代码...d2l-zhpytorchchapter_multilayer-perceptronsvgg.ipynb 使用块的网络VGG
虽然AlexNet证明深层神经网络卓有成效但它没有提供一个通用的模板来指导后续的研究人员设计新的网络。 在下面的几个章节中我们将介绍一些常用于设计深层神经网络的启发式概念。
与芯片设计中工程师从放置晶体管到逻辑元件再到逻辑块的过程类似神经网络架构的设计也逐渐变得更加抽象。研究人员开始从单个神经元的角度思考问题发展到整个层现在又转向块重复层的模式。
使用块的想法首先出现在牛津大学的视觉几何组visual geometry group的VGG网络中。通过使用循环和子程序可以很容易地在任何现代深度学习框架的代码中实现这些重复的架构。
(VGG块)
经典卷积神经网络的基本组成部分是下面的这个序列
带填充以保持分辨率的卷积层非线性激活函数如ReLU汇聚层如最大汇聚层。
而一个VGG块与之类似由一系列卷积层组成后面再加上用于空间下采样的最大汇聚层。在最初的VGG论文论文链接1409.1556 (arxiv.org)中作者使用了带有 3×3 卷积核、填充为1保持高度和宽度的卷积层和带有 2×2 汇聚窗口、步幅为2每个块后的分辨率减半的最大汇聚层。在下面的代码中我们定义了一个名为vgg_block的函数来实现一个VGG块。
该函数有三个参数分别对应于卷积层的数量num_convs、输入通道的数量in_channels 和输出通道的数量out_channels.
import torch
from torch import nn
from d2l import torch as d2ldef vgg_block(num_convs, in_channels, out_channels):layers []for _ in range(num_convs):layers.append(nn.Conv2d(in_channels, out_channels,kernel_size3, padding1))layers.append(nn.ReLU())in_channels out_channelslayers.append(nn.MaxPool2d(kernel_size2,stride2))return nn.Sequential(*layers)
[VGG网络]
与AlexNet、LeNet一样VGG网络可以分为两部分第一部分主要由卷积层和汇聚层组成第二部分由全连接层组成。如 图7.2.1 中所示。 VGG神经网络连接 图7.2.1 的几个VGG块在vgg_block函数中定义。其中有超参数变量conv_arch。该变量指定了每个VGG块里卷积层个数和输出通道数。全连接模块则与AlexNet中的相同。
原始VGG网络有5个卷积块其中前两个块各有一个卷积层后三个块各包含两个卷积层。 第一个模块有64个输出通道每个后续模块将输出通道数量翻倍直到该数字达到512。由于该网络使用8个卷积层和3个全连接层因此它通常被称为VGG-11。
conv_arch ((1, 64), (1, 128), (2, 256), (2, 512), (2, 512))
下面的代码实现了VGG-11。可以通过在conv_arch上执行for循环来简单实现。
def vgg(conv_arch):conv_blks []in_channels 1# 卷积层部分for (num_convs, out_channels) in conv_arch:conv_blks.append(vgg_block(num_convs, in_channels, out_channels))in_channels out_channelsreturn nn.Sequential(*conv_blks, nn.Flatten(),# 全连接层部分nn.Linear(out_channels * 7 * 7, 4096), nn.ReLU(), nn.Dropout(0.5),nn.Linear(4096, 4096), nn.ReLU(), nn.Dropout(0.5),nn.Linear(4096, 10))net vgg(conv_arch)
接下来我们将构建一个高度和宽度为224的单通道数据样本以[观察每个层输出的形状]。
X torch.randn(size(1, 1, 224, 224))
for blk in net:X blk(X)print(blk.__class__.__name__,output shape:\t,X.shape)
输出结果 Sequential output shape: torch.Size([1, 64, 112, 112]) Sequential output shape: torch.Size([1, 128, 56, 56]) Sequential output shape: torch.Size([1, 256, 28, 28]) Sequential output shape: torch.Size([1, 512, 14, 14]) Sequential output shape: torch.Size([1, 512, 7, 7]) Flatten output shape: torch.Size([1, 25088]) Linear output shape: torch.Size([1, 4096]) ReLU output shape: torch.Size([1, 4096]) Dropout output shape: torch.Size([1, 4096]) Linear output shape: torch.Size([1, 4096]) ReLU output shape: torch.Size([1, 4096]) Dropout output shape: torch.Size([1, 4096]) Linear output shape: torch.Size([1, 10])
正如从代码中所看到的我们在每个块的高度和宽度减半最终高度和宽度都为7。最后再展平表示送入全连接层处理。
训练模型
[由于VGG-11比AlexNet计算量更大因此我们构建了一个通道数较少的网络]足够用于训练Fashion-MNIST数据集。
ratio 4
small_conv_arch [(pair[0], pair[1] // ratio) for pair in conv_arch]
net vgg(small_conv_arch)
X torch.randn(size(1, 1, 224, 224))
for blk in net:X blk(X)print(blk.__class__.__name__,output shape:\t,X.shape)
输出结果 Sequential output shape: torch.Size([1, 16, 112, 112]) Sequential output shape: torch.Size([1, 32, 56, 56]) Sequential output shape: torch.Size([1, 64, 28, 28]) Sequential output shape: torch.Size([1, 128, 14, 14]) Sequential output shape: torch.Size([1, 128, 7, 7]) Flatten output shape: torch.Size([1, 6272]) Linear output shape: torch.Size([1, 4096]) ReLU output shape: torch.Size([1, 4096]) Dropout output shape: torch.Size([1, 4096]) Linear output shape: torch.Size([1, 4096]) ReLU output shape: torch.Size([1, 4096]) Dropout output shape: torch.Size([1, 4096]) Linear output shape: torch.Size([1, 10])
除了使用略高的学习率外[模型训练]过程与 :numref:sec_alexnet中的AlexNet类似。
lr, num_epochs, batch_size 0.05, 10, 128
train_iter, test_iter d2l.load_data_fashion_mnist(batch_size, resize224)
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())
输出结果 loss 0.174, train acc 0.935, test acc 0.918 783.2 examples/sec on cuda:0 小结
VGG-11使用可复用的卷积块构造网络。不同的VGG模型可通过每个块中卷积层数量和输出通道数量的差异来定义。块的使用导致网络定义的非常简洁。使用块可以有效地设计复杂的网络。在VGG论文中Simonyan和Ziserman尝试了各种架构。特别是他们发现深层且窄的卷积即 3×3 比较浅层且宽的卷积更有效。
练习
打印层的尺寸时我们只看到8个结果而不是11个结果。剩余的3层信息去哪了解 因为后三个VGG块包含两个卷积层但是打印层只显示每个VGG块最终的尺寸所以少了3层信息。与AlexNet相比VGG的计算要慢得多而且它还需要更多的显存。分析出现这种情况的原因。解 VGG比AlexNet的卷积层更多且网络深度更深导致计算复杂度、计算量和显存占用更大因此在同样的计算设备上VGG相比AlexNet计算更慢。尝试将Fashion-MNIST数据集图像的高度和宽度从224改为96。这对实验有什么影响解 将Fashion-MNIST数据集图像的高度和宽度从224改为96会改变卷积到全连接层的尺寸需要修改一下vgg全连接层部分的参数实验结果比224尺寸的训练速度更快但训练精度略下降。 代码如下
def vgg(conv_arch):conv_blks []in_channels 1# 卷积层部分for (num_convs, out_channels) in conv_arch:conv_blks.append(vgg_block(num_convs, in_channels, out_channels))in_channels out_channelsreturn nn.Sequential(*conv_blks, nn.Flatten(),# 全连接层部分根据输入图像尺寸改为3*3nn.Linear(out_channels * 3 * 3, 4096), nn.ReLU(), nn.Dropout(0.5),nn.Linear(4096, 4096), nn.ReLU(), nn.Dropout(0.5),nn.Linear(4096, 10))net vgg(conv_arch)
lr, num_epochs, batch_size 0.05, 10, 128
train_iter, test_iter d2l.load_data_fashion_mnist(batch_size, resize96)
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())
输出结果 loss 0.212, train acc 0.920, test acc 0.911 799.1 examples/sec on cuda:0 请参考VGG论文 论文链接1409.1556 (arxiv.org)中的表1构建其他常见模型如VGG-16或VGG-19。 解 论文链接https://arxiv.org/pdf/1409.1556 表1如下图 VGG-16和VGG-19构建代码如下
# VGG-16(D)
conv_arch ((2, 64), (2, 128), (3, 256), (3, 512), (3, 512))
small_conv_arch [(pair[0], pair[1] // ratio) for pair in conv_arch]
net vgg(small_conv_arch)
train_iter, test_iter d2l.load_data_fashion_mnist(batch_size, resize224)
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())
输出结果 loss 0.182, train acc 0.933, test acc 0.917 400.5 examples/sec on cuda:0 # VGG-19(E)
conv_arch ((2, 64), (2, 128), (4, 256), (4, 512), (4, 512))
small_conv_arch [(pair[0], pair[1] // ratio) for pair in conv_arch]
net vgg(small_conv_arch)d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())
输出结果 loss 0.229, train acc 0.914, test acc 0.908 358.6 examples/sec on cuda:0