PyTorch概述（七）---Optim

torch.optim是一个实现多种优化算法的包;
很多常用的方法已经被支持;
接口丰富;
容易整合更为复杂的算法;

如何使用一个优化器

为了使用torch.optim包功能;
用户必须构建一个优化器对象;
该优化器将保持当前的参数状态且基于计算的梯度更新参数;

构建优化器

要构建一个优化器;
必须给优化器一个可迭代的对象;
该对象包含可优化的参数(应当是变量s);
然后,用户可以指定具体的优化器参数,比如学习率,权重衰减等;

import torch.optim as optim
optimizer=optim.SGD(model.parameters(),lr=0.01,momentum=0.9)
optimizer=optim.Adam([var1,var2],lr=0.0001)

单一参数设置

优化器也支持每一个参数的设置;
为了这样做,不要给优化器传入一个可迭代的变量s;
而是给优化器传入一个可迭代的字典s;
每个字典将定义一个分离的参数组;
参数组内应当包含一个参数键,该参数键包含一个属于他的参数列表;
其他键应当匹配优化器可接受的关键字参数;
且该键将被用作这个组内的优化选项;
依然可以传递选项作为关键字参数,他们将被用于默认参数;
组内对他们并不覆写;
当用户想变化单一的选项时会很有用;
同时保持其他的参数组一致;
比如,当想指定每一层的学习率时:

optim.SGD([{'params':model.base.parameters()},{'params':model.classifier.parameters(),'lr':1e-3}],lr=1e-2,momentum=0.9)

上述代码意味着model.base的参数将使用默认的学习率: $1e^{-2}$ ;
model.classifier的参数将使用 $1e^{-3}$ 的学习率;
momentum=0.9将会被所有的参数使用;

优化步骤

所有的优化器都实现一个step()方法;
该方法对参数进行更新;
有两种使用方式:
optimizier.step()
optimizer.step(closure)

optimizer.step()

大多数优化器都支持的一个简单版本用法;
当使用backward()计算梯度后调用该方法;

for input,target in dataset:optimizer.zero_grad()output=model(input)loss=loss_fn(output,target)loss.backward()optimizer.step()

optimizer.step(closure)

一些优化算法,比如共轭梯度和LBFGS;
需要多次评估该函数;
用户必须传递closure参数以允许算法重新计算模型;
closure参数应当清理梯度,计算损失,并返回;

for input,target in dataset:def closure():optimizer.zero_grad()output=model(input)loss=loss_fn(output,target)loss.backward()optimizer.step(closure)

基础类

类 torch.optim.Optimizer(params,defaults)
是所有优化器的基础类;
必须以集合的方式指定参数;
集合内的参数具有确定的顺序且同实际运行中的一致;
不满足要求的是set和字典键值迭代器;
params(iterable)---一个可迭代的torch.Tensor或者字典,指定需要优化的张量类型;
defaults(Dict[str,Any])---具有默认优化选项值得字典(当参数组没有指定时使用);

Optimizer.add_param_group	给优化器参数组增加成员
Optimizer.load_state_dict	加载优化器状态
Optimizer.state_dict	以字典的方式返回优化器状态
Optimizer.step	执行一个优化器步(参数更新)
Optimizer.zero_grad	对所有优化器张量重置梯度

算法

Adadelta	实现 Adadelta 算法;
Adagrad	实现 Adagrad 算法.
Adam	实现Adam 算法.
AdamW	实现AdamW 算法.
SparseAdam	适合稀疏矩阵的Adam算法的掩码版本
Adamax	实现Adamax 算法(基于无线范数的Adam变体).
ASGD	实现平均随机梯度下降.
LBFGS	实现L-BFGS 算法.
NAdam	实现NAdam 算法.
RAdam	实现RAdam 算法.
RMSprop	实现RMSprop 算法.
Rprop	实现弹性反向传播算法.
SGD	实现随机梯度下降算法(动量选项可选).

很多算法对于优化性能\可读性和通用性具有不同的实现;
如果用户没有特别的指定算法的实现方法,默认情况下针对用户设备尝试最快的实现方法;
有三大类主要的实现:for-loop,foreach(多张量),fused;
最直接的是对参数的for-loop循环实现,并进行大量的计算;
for-loop实现通常较foreach实现更慢,foreach实现一次合并参数到多张量中且进行大量计算;
foreach实现节省了很多序列化的内核调用;
一些优化器具有更快速的融合实现;
这些优化器融合大量的计算到一个内核中;
我们可以认为foreach实现是水平融合,融合实现是foreach实现水平融合的垂直融合;
一般来讲,三大类实现的性能排序为:fused>foreach>for-loop;
应用时,默认情况下优先采用foreach;
可应用意味着foreach实现是可用的,用户没有指定任何实现的细节参数(比如fused,foreach,differentiable),且所有张量是本地的在CUDA上;
注意,虽然融合的实现较foreach实现应当更快;
但这些实现是比较新的,在任何地方应用之前应该具有更多的实验时间;
欢迎大家尝试;

目前算法的状态

Algorithm	Default	Has foreach?	Has fused?
Adadelta	foreach	yes	no
Adagrad	foreach	yes	no
Adam	foreach	yes	yes
AdamW	foreach	yes	yes
SparseAdam	for-loop	no	no
Adamax	foreach	yes	no
ASGD	foreach	yes	no
LBFGS	for-loop	no	no
NAdam	foreach	yes	no
RAdam	foreach	yes	no
RMSprop	foreach	yes	no
Rprop	foreach	yes	no
SGD	foreach	yes	no

如何调整学习率

torch.optim.lr_scheduler 提供一些方法基于训练的代数调整学习率;
torch.optim.lr_scheduler.ReduceLROnPlateau 基于一些验证测量允许动态的减少学习率;
学习率调度应当在优化器更新后再应用;

optimizer=optim.SGD(model.parameters(),lr=0.01,momentum=0.9)
scheduler=ExponentialLR(optimizer,gamma=0.9)
for epoch in range(20):for input,target in dataset:optimizer.zero_grad()output=model(input)loss=loss_fn(output,target)loss.backward()optimizer.step()scheduler.step()

很多学习率调度器被称为背靠背调度器(也成为链式调度器);
结果是调度器被一个个的应用到另一个之前的调度器获取到的学习率上;

optimizer=optim.SGD(model.parameters(),lr=0.01,momentum=0.9)
scheduler1=ExponentialLR(optimizer,gamma=0.9)
scheduler2=MultiStepLR(optimizer,milestones=[30,80],gamma=0.1)
for epoch in range(20):for input,target in dataset:optimizer.zero_grad()output=model(input)loss=loss_fn(output,target)loss.backward()optimizer.step()scheduler1.step()scheduler2.step()

注意

在1.1.0版本之前,学习率调度器被期望在优化器更新之前调用;
1.1.0版本改变了这一特性;
如果用户在优化器更新之前使用了学习率调度器;
将忽略学习率调度器中的第一个值;
如果在更新PyTorch1.1.0之后无法重新生成结果;
请检查是否在错误的位置调用了学习率调度器;

lr_scheduler.LambdaLR	设置每一个参数组的学习率为初始学习率乘以一个给定函数.
lr_scheduler.MultiplicativeLR	将每个参数组的学习率乘以指定函数中给出的系数.
lr_scheduler.StepLR	每个步长的epoch以gamma衰减每个参数组的学习率.
lr_scheduler.MultiStepLR	一旦训练的代数达到了一个里程碑以gamma衰减每组参数的学习率;
lr_scheduler.ConstantLR	用一个小的常值系数衰减每个参数组的学习率直到训练的代数达到了预定义的里程碑total_iters;
lr_scheduler.LinearLR	通过线性改变小的乘法系数衰减每个参数组的学习率,直到训练的代数达到了预定义的里程碑:total_iters;
lr_scheduler.ExponentialLR	每一代通过gamma衰减每一个参数组的学习率;
lr_scheduler.PolynomialLR	在给定的total_iters内,使用多项式函数衰减每一个参数组的学习率;
lr_scheduler.CosineAnnealingLR	使用余弦退火时间表设置每一个参数组的学习率,这里 $\eta_{max}$ 设置为初始的学习率lr, $T_{cur}$ 为训练的代数自从在SGDR中重新启动以来.
lr_scheduler.ChainedScheduler	学习率调度器链表.
lr_scheduler.SequentialLR	接收一个在优化过程中被期望顺序调用的调度器列表和提供具体的间隔以反映在一个给定的代数哪一个调度器被猜测调用的里程碑点.
lr_scheduler.ReduceLROnPlateau	当度量停止改进时减少学习率;
lr_scheduler.CyclicLR	根据周期学习率政策(CLR)设置每一个参数组的学习率;
lr_scheduler.OneCycleLR	根据1周期学习率政策设置每一个参数组的学习率.
lr_scheduler.CosineAnnealingWarmRestarts	使用余弦退火时间表设置每一个参数组的学习率,这里 $\eta_{max}$ 设置为初始的学习率lr, $T_{cur}$ 为训练的代数自从在SGDR中重新启动以来. $T_i$ 为SGDR中的两次热重启之间的代数.

权值平均(SWA和EMA)

torch.optim.swa.utils 实现随机权值平均(SWA)和指数移动平均(EMA);
特别的torch.optim.swa_utils.AveragedModel类实现SWA和EMA模型;
torch.optim.swa_utils.SWALR实现SWA学习率调度器;
torch.optim.swa_utils.update_bn()是一个工具函数用于在训练结束时更新SWA/EMA批次标准化统计;
SWA在Averaging Weights Leads to Wider Optima and Better Generalization.中被提出;
EMA是一个通过减少需要更新的权重的数量减少训练时间的广为人知的技术;
EMA是一个Polyak averaging的变体,但是在迭代中使用等权重而不是指数权重;

构建平均模型

AveragedModel类服务于计算SWA和EMA模型的权重;
创建SWA平均模型:

averaged_model=AveragedModel(model)

通过指定multi_avg_fn参数构建EMA模型:

decay=0.999
averaged_model=AveragedModel(model,multi_avg_fn=get_ema_multi_avg_fn(decay))

decay是一个在0和1之间的参数,控制平均化的参数以多快的速度衰减;
如果decay参数没有提供给get_ema_multi_avg_fn,默认值为0.999;
get_ema_multi_avg_fn返回一个应用以下EMA权重公式的函数:

$W_{t+1}^{EMA}=\alpha W_t^{EMA}+(1-\alpha)W_t^{model}$

这里, $\alpha$ 是EMA衰减因子,model可以是任何的torch.nn.Moudle对象;
averaged_model将保持追踪运行中的模型的参数均值化;
为了更新这些均值,用户应当使用update_parameters()函数在optimizer.step()之后;

averaged_model.update_parameters(model)

对于SWA和EMA,该函数的调用通常紧随optimizer step()函数;
在SWA中,在训练起始的一些次数下被略过;

制定均值策略

默认情况下,torch.optim.swa_utils.AveragedModel计算一个用户提供的参数的运行等效均值;
但是用户可以使用定制的均值函数,使用avg_fn或者multi_avg_fn参数;
avg_fn允许定义一个函数操作每一个参数元组(平均的参数,模型参数)且应当返回平均的参数;
multi_avg_fn允许定义对元组参数列表(均值的参数列表,模型参数列表)的更有效的操作;
同时,比如使用torch._foreach* 函数,该函数必须在位更新均值化的参数;
下例中ema_model计算一个指数移动平均使用avg_fn参数:

import torch.optim.swa_utils
ema_avg=lambda averaged_model_parameter,model_parameter,
num_averaged:0.9*averaged_model_parameter+0.1*model_parameter
ema_model=torch.optim.swa_utils.AveragedModel(model,avg_fn=ema_avg)

以下的实例ema_model计算一个指数移动平均使用更为高效的multi_avg_fn参数:

ema_model=AveragedModel(model,multi_avg_fn=get_ema_multi_avg_fn(0.9))

swa学习率计划

通常,SWA中学习率被设置为一个大的常量数值;
SWALR是一个学习率调度器,将学习率调整到一个固定的值,并保持为常量;
比如以下实例代码创建一个调度器线性调整学习率在5代训练的每个参数组中从初始值到0.05;

swa_scheduler=torch.optim.swa_utils.SWALR(optimizer,anneal_strategy="linear",anneal_epochs=5,swa_lr=0.05)

可以使用余弦退火到一个固定的学习率值而不是使用线性退火通过设置annel_strategy='cos';

关注批量规范化

update_bn()是一个有用的函数允许计算SWA模型在一个给定加载器loader中的批规范统计,在训练的末尾;

torch.optim.swa_utils.update_fn(loader,swa_model)

update_bn()应用swa_model模型到数据加载器中的每一个单元;
且在模型中每一个批标准化层计算激活数据;
update_fn()假设数据加载器loader中的每一批不是张量就是张量列表;
且张量或张量列表中的第一个元素是网络swa_model应当应用到的张量;
如果用户的加载器具有不同的结构;
可以更新swa_model模型的批标准化数据;
通过对数据集的每个元素使用swa_model做前向传递;

SWA综述

以下实例,swa_model是一个累积权重均值的SWA模型;
对模型训练300代,调整学习率计划,在训练代160时手机SWA参数的均值:

import torch
loader,optimizer,model,loss_fn=...
swa_model=torch.opim.swa_utils.AveragedModel(model)
scheduler=torch.optim.lr_scheduler.CosineAnnealingLR(optimizer,T_max=300)
swa_start=160
swa_scheduler=SWALR(optimizer,swa_lr=0.05)for epoch in range(300):for input,target_in_loader:optimizer.zero_grad()loss_fn(model(input),target).backward()optimizer.step()if epoch>swa_start:swa_model.update_parameters(model)swa_scheduler.step()else:scheduler.step()
torch.optim.swa_utils.update_bn(loader,swa_model)
preds=swa_model(test_input)

EMA综述

以下实例中,ema_model是一个EMA模型的实例;
该实例累积权重均值的指数衰减;
衰减率为0.999;
训练模型300代,从训练一开始就收集EMA均值;

import torch
loader,optimizer,model,loss_fn=...
ema_model=torch.opim.swa_utils.AveragedModel(model,multi_avg_fn=torch.optim.swa_utils.get_ema_multi_avg_fn(0.999))
for epoch in range(300):for input,target_in_loader:optimizer.zero_grad()loss_fn(model(input),target).backward()optimizer.step()ema_model.update_parameters(model)
torch.optim.swa_utils.update_bn(loader,ema_model)
preds=swa_model(test_input)