本文为 PyTorch 官方教程中:如何构建神经网络。基于 PyTorch 专门构建神经网络的子模块 torch.nn 构建一个简单的神经网络。
神经网络由对数据执行操作的层/模块组成。torch.nn 提供了构建神经网络所需的所有模块。
PyTorch 中的每个模块都是 nn.module 的子类。
在下面的部分中,我们将构建一个神经网络来进行10种类别的分类。
神经网络由对数据执行操作的层/模块组成。torch.nn 提供了构建神经网络所需的所有模块。PyTorch 中的每个模块都是 nn.module 的子类。
在下面的部分中,我们将构建一个神经网络来进行10种类别的分类。
import os
import torch
from torch import nn
from torch.utils.data import DataLoader
from torchvision import datasets, transforms
我们希望能够在硬件加速器,比如 GPU 上训练我们的模型。可以通过 torch.cuda 来检测 GPU 是否可用。
device = 'cuda' if torch.cuda.is_available() else 'cpu' #检测gpu是否可用,不可用使用cpu
print('Using {} device'.format(device)) #输出使用设备类型
我们通过 nn.Module 来定义神经网络,并在__init__ 中初始化神经网络。每个 nn.Module 子类在 forward 方法中实现对输入数据的操作。
class NeuralNetwork(nn.Module):
def __init__(self): #定义网络结构
super(NeuralNetwork, self).__init__()
self.flatten = nn.Flatten()
self.linear_relu_stack = nn.Sequential(
nn.Linear(28*28, 512),
nn.ReLU(),
nn.Linear(512, 512),
nn.ReLU(),
nn.Linear(512, 10),
nn.ReLU()
)
def forward(self, x): #前向传播
x = self.flatten(x)
logits = self.linear_relu_stack(x)
return logits
在使用模型前需要先实例化模型,并将其移动到 GPU 上
model = NeuralNetwork().to(device) #实例化模型
print(model)
为了在模型的输入和输出之间创建复杂的非线性映射,需要使用非线性的激活函数。
它们在线性变换后引入非线性,帮助神经网络学习各种各样的复杂映射。在这个模型中,我们在线性层之间使用 nn.ReLU,也可以使用其他激活函数来引入非线性。
X = torch.rand(1, 28, 28, device=device) #生成(1,28,28)的数据
logits = model(X) #向模型输入数据
pred_probab = nn.Softmax(dim=1)(logits) #调用softmax 将预测值映射为(0,1)间的概率
y_pred = pred_probab.argmax(1) #最大概率对应分类
print(f"Predicted class: {y_pred}")
接下来,我们分解网络来具体讲述每一层的功能。
为了说明这一点,我们将取小批量的3个尺寸为28x28的图像样本输入网络
input_image = torch.rand(3,28,28) #生成(3,28,28)的数据
print(input_image.size())
Flatten 层用来把多维的输入一维化,常用在从卷积层到全连接层的过渡。
nn.Flatten 层,可以将每个 28x28 图像转换 784 ($28\times 28=784$)个像素值的连续数组(批量维度保持为3)。
flatten = nn.Flatten()
flat_image = flatten(input_image) #(3,28,28)转换为(3,784)
print(flat_image.size())
nn.Linear 层,即线性层,是一个使用权重和偏差对输入数据作线性变换的模块。
layer1 = nn.Linear(in_features=28*28, out_features=20) #输入(3,28*28) 输出(3,20)
hidden1 = layer1(flat_image)
print(hidden1.size())
为了在模型的输入和输出之间创建复杂的非线性映射,需要使用非线性的激活函数。它们在线性变换后引入非线性,帮助神经网络学习各种各样的复杂映射。
在这个模型中,我们在线性层之间使用 nn.ReLU,也可以使用其他激活函数来引入非线性。
print(f"Before ReLU: {hidden1}\n\n")
hidden1 = nn.ReLU()(hidden1)
print(f"After ReLU: {hidden1}")
神经网络的最后一个线性层返回 logits,即值域区间在$[-\infty,\infty]$中的原始值。这些值传递给nn.Softmax模块后,logit被缩放为$[0,1]$区间中,表示模型对每个类的预测概率。
dim参数表示每一维度进行运算的位置,运算结果相加为1。
softmax = nn.Softmax(dim=1)
pred_probab = softmax(logits)
神经网络中的许多层都是参数化的,即具有相关联的权重和偏差,这些参数在训练中被迭代优化。
子类 nn.Module 自动跟踪模型对象内部定义的所有字段,并使用模型的 parameters() 或 named_parameters() 方法访问所有参数。
我们可以通过模型迭代每个参数,并输出其尺寸和值。
print("Model structure: ", model, "\n\n")
for name, param in model.named_parameters():
print(f"Layer: {name} | Size: {param.size()} | Values : {param[:2]} \n")
最终输出结果可访问完整教程
CSS3实现酷炫的3D旋转透视 3D动画效果现在越来越普及,已经被广泛的应用到了各个...
打开软件,我们按快捷键ctrl+n,建立一个新的文件。 点击常用,选择布局。 点击...
在ie下设置 css 样式 style="cursor:hand;" 可以正常显示 但是在firefox下就不行...
Dreamweaver中如何使用Flash影片 1、首先需要我们准备的是一个Flash文件,其次最...
背景 京东购物小程序作为京东小程序业务流量的主要入口,承载着许多的活动和页面...
一、作用 离线浏览 - 根据文件规则把资源缓存在本地,脱机依然能够访问资源,联...
在讲CSS优先级之前,我们得要了解什么是CSS,CSS是用来做什么的。 首先,我们对C...
最近在做项目时,发现CSS3中关于动画的技术,自己很少运用在项目中,平时一些列...
行高line-height实现单行文本垂直居中 以前一直认为单行文本垂直居中要将高度和...
作者 / Krish Vitaldevara,Google Play 信任与安全产品管理总监 多年来,向数十...