使用Pytorch训练two-head网络的操作_Python

在那篇文章里，基本把two-head网络以及构建讲清楚了（如果不清楚请先移步至那一篇博文）。

但是我后来发现之前的训练方法貌似有些问题。

以前的训练方法：

之前是把两个head分开进行训练的，因此每一轮训练先要对一个batch的数据进行划分，然后再分别训练两个头。代码如下：

				?

									f_out_y0, _ = net(x0)

									         _, f_out_y1 = net(x1)

									         #实例化损失函数

									         criterion0 = Loss()

									         criterion1 = Loss()

									         loss0 = criterion0(f_y0, f_out_y0, w0)

									         loss1 = criterion1(f_y1, f_out_y1, w1)

									         print(loss0.item(), loss1.item())

									         #对网络参数进行初始化

									         optimizer.zero_grad()

									         loss0.backward()

									         loss1.backward()

									         #对网络的参数进行更新

									         optimizer.step()

但是在实际操作中想到那这样的话岂不是每次都先使用t=0的数据训练公共的表示层，再使用t=1的数据去训练。这样会不会使表示层产生bias呢？且这样两步训练也很麻烦。

修改后的方法

使用之前训练方法其实还是对神经网络的训练的机理不清楚。事实上，在计算loss的时候每个数据点的梯度都是单独计算的。

因此完全可以把网络前向传播得到结果按之前的顺序拼接起来后再进行梯度的反向传播，这样就可以只进行一步训练，且不会出现训练先后的偏差。

代码如下：

				?

									f_out_y0, cf_out_y0 = net(x0)

									         cf_out_y1, f_out_y1 = net(x1)

									         #按照t=0和t=1的索引拼接向量

									         y_pred = torch.zeros([len(x), 1])

									         y_pred[index0] = f_out_y0

									         y_pred[index1] = f_out_y1

									criterion = Loss()

									         loss = criterion(f_y, y_pred, w) + 0.01 * (l2_regularization0 + l2_regularization1)

									         #print(loss.item())

									         viz.line([float(loss)], [epoch], win='train_loss', update='append')

									         optimizer.zero_grad()

									         loss.backward()

									         #对网络的参数进行更新

									         optimizer.step()

总结

two-head网络前向传播得到结果的时候是分开得到的，训练的时候通过拼接预测结果可以实现一次训练。

补充：Pytorch训练网络的一般步骤

如下所示：

				?

									import torch 

									print(torch.tensor([1,2,3],dtype=torch.float))#将一个列表强制转换为torch.Tensor类型

									print(torch.randn(5,3))#生成torch.Tensor类型的5X3的随机数

1、构建模型

2、定义一个损失函数

3、定义一个优化器

4、将训练数据带入模型得到预测值

5、将梯度清零

6、获得损失

7、进行优化

				?

									import torch

									from torch.autograd import Variable

									#初步认识构建Tensor数据

									def one():

									    print(torch.tensor([1,2,3],dtype=torch.float))#将一个列表强制转换为torch.Tensor类型

									    print(torch.randn(5,3))#生成torch.Tensor类型的5X3的随机数

									    print(torch.zeros((2,3)))#生成一个2X3的全零矩阵

									    print(torch.ones((2,3)))#生成一个2X3的全一矩阵

									    a = torch.randn((2,3))

									    b = a.numpy()#将一个torch.Tensor转换为numpy

									    c = torch.from_numpy(b)#将numpy转换为Tensor

									    print(a)

									    print(b)

									    print(c)

									#使用Variable自动求导

									def two():

									    # 构建Variable

									    x = Variable(torch.Tensor([1, 2, 3]), requires_grad=True)

									    w = Variable(torch.Tensor([4, 5, 6]), requires_grad=True)

									    b = Variable(torch.Tensor([7, 8, 9]), requires_grad=True)

									    # 函数等式

									    y = w * x ** 2 + b

									    # 使用梯度下降计算各变量的偏导数

									    y.backward(torch.Tensor([1, 1, 1]))

									    print(x.grad)

									    print(w.grad)

									    print(b.grad)

线性回归例子：

				?

									import torch

									from torch.autograd import Variable

									import numpy as np

									import matplotlib.pyplot as plt

									from torch import nn

									x = torch.unsqueeze(torch.linspace(-1,1,100),dim=1)

									y = 3*x+10+torch.rand(x.size())

									class LinearRegression(nn.Module):

									    def __init__(self):

									        super(LinearRegression,self).__init__()

									        self.Linear = nn.Linear(1,1)

									    def forward(self,x):

									        return self.Linear(x)

									model = LinearRegression()

									Loss = nn.MSELoss()

									Opt = torch.optim.SGD(model.parameters(),lr=0.01)

									for i in range(1000):

									    inputs = Variable(x)

									    targets = Variable(y)

									    outputs = model(inputs)

									    loss = Loss(outputs,targets)

									    Opt.zero_grad()

									    loss.backward()

									    Opt.step()

									model.eval()

									predict = model(Variable(x))

									plt.plot(x.numpy(),y.numpy(),'ro')

									plt.plot(x.numpy(),predict.data.numpy())

									plt.show()