Shortcuts

SophiaG

class SophiaG(params, lr=0.0001, betas=(0.965, 0.99), rho=0.04, weight_decay=0.1, *, maximize=False, capturable=False)[源代码]

一个优化器类SophiaG的官方实现。 论文地址:https://arxiv.org/abs/2305.14342 仓库地址:https://github.com/Liuhong99/Sophia

参数:
  • params – 待优化的参数

  • lr (default: 0.0001) – 学习率,默认值为1e-4,

  • betas (default: (0.965, 0.99)) – 用于计算一阶和二阶动量的系数元组,默认值为(0.965,0.99)

  • rho (default: 0.04) – SophiaG梯度平方移动均值的衰减率,默认值为0.04

  • weight_decay (default: 0.1) – 权重衰减系数,默认值为1e-1

  • maximize (bool, default: False) – 是否最大化损失函数,默认值为False

  • capturable (bool, default: False) – 是否开启优化器状态的捕获,默认值为False