随机文章

gpu没有支持是什么意思手机（单个GPU无法训练GPT⑶，但有了这个，你能调优超参数了）gpt⑶ 难以置信

2023-05-22 17:38:11 分类:科技派作者:axdmin 阅读:

机器之心报道编辑：陈萍、小舟模型越大，超参数（HP）调优成本越高，微软联合 OpenAI 提出 HP 调优新范式，单个 GPU 上就可以调优 GPT⑶ 超参数伟大的科学成就没有能仅靠反复试验取得例如太空计划中的每1次发射都是基于数百年的空气动力学、推进和天体等基础研究。

同样，在构建大规模人工智能系统时，基础研究大大减少了试错次数，效益明显超参数（Hyperparameter，HP）调优是深度学习的关键，但也是1个昂贵的过程，对于具有数十亿参数的神经网络来说更是如此假如 HP 选择没有当，会导致模型性能没有佳、训练没有稳定。

当训练超大型深度学习模型时，这些问题更加宽重最近，有研究 [54] 表明没有同的壁纸神经网络参数化会导致没有同的无限宽度限制（infinitewidth limits），他们提出了最大更新参数化（Maximal Update Parametrization，µP），该方法可以在限制内实现「最大」特征学习。

直观地说，它确保每1层在训练期间以相同的顺序更新，而没有管宽度如何相比之下，虽然标准参数化（standard parametrization，SP）在初始化时保证了激活是单位顺序的，但实际上在训练 [54] 时，由于每层学习率的没有平衡，导致激活在宽模型中爆炸。

来自微软和 OpenAI 的研究者首次提出了基础研究如何调优大型神经网络（这些神经网络过于庞大而无法多次训练）他们通过壁纸展示特定参数化保留没有同模型大小的最佳超参数来实现这1点利用 µP 将 HP 从小型模型迁移到大型模型。

也就是说，该研究在大型模型上获得了接近最优的 HP论文作者之1、来自微软的 Greg Yang 表示：「你没有能在单个 GPU 上训练 GPT⑶，更没有用说调优它的超参数（HP）了但是由于新的理论进步，你可以在单个 GPU 上调优 HP ?」。

本文的想法非常简单，论文中引入了1种特殊参数化 µP，窄和宽的神经网络共享1组最优超参数。即使宽度→∞也是如此。

具体而言，该研究证明，在 µP 中，即使模型大小发生变化，许多最优的 HP 仍保持稳定这导致1种新的 HP 调优范式：µTransfer，即在壁纸µP 中对目标模型进行参数化，并在较小的模型上间接调优 HP，将其零样本迁移到全尺寸模型上，无需调优后者。

该研究在 Transformer 和 ResNet 上验证 µTransfer，例如，1）通过从 13M 参数的模型中迁移预训练 HP，该研究优于 BERT-large (350M 参数)，总调优成本相当于1次预训练 BERT-large；2）通过从 40M 参数迁移，该研究的性能优于已公开的 6.7B GPT⑶ 模型，调优成本仅为总预训练成本的 7%。

论文地址：https://arxiv.org/pdf/2203.03466.pdf项目地址：https://github.com/mic壁纸rosoft/mup通过大大减少猜测要使用哪些训练超参数的需要，这种技术可以加快对巨大神经网络的研究，例如 GPT⑶ 和未来可能更大的继任者。

扩展初始化容易，但扩展训练难大型神经网络很难训练，部分原因是没有了解其行为如何随着规模增加而变化在深度学习的早期工作中，研究者采用启发式算法1般来说，启发式方法试图在模型初始化时保持激活扩展1致然而，随着训练的开始，这种1致性会在没有同的模型宽度处中止，如图 1 左侧所示。

取随机初始化没有同，模型训练期间的行为更难进行数学分析该研究用 µP 解决，如图 1 右侧所示，该图显示了网络激活扩展（activation scales）在模型宽度增加的最初几个训练步骤壁纸中的稳定性

图 1：在 PyTorch 的默认参数化中，左图，在经过1次 step 训练后，激活扩展的宽度会出现差异但是在右图的 µP 中，无论训练 step 宽度如何，激活扩展都会发生1致的变化事实上，除了在整个训练过程中保持激活扩展1致以外，µP 还确保没有同且足够宽的神经网络在训练过程中表现相似，以使它们收敛到1个理想的极限，该研究称之为特征学习极限。

如图所示，µP 是唯1在宽度上保持最佳学习率的参数化，在宽度为 213 - 8192 的模型中实现了最佳性能，并且对于给定的学习率，更宽的模型性能更好——即曲线没有相交。

图2左侧，该研究在 CIFAR10 上以没有同的学习率（沿 x 轴显示）训练没有壁纸同宽度（对应于没有同颜色和图案的曲线）的多层感知器 (MLP)，并沿 y 轴绘制训练损失右侧，参数化的 2D 平面由以下插值形成：1）PyTorch 默认值和 µP（x 轴）之间的初始化扩展，以及 2）PyTorch 默认值和 µP（y 轴）之间的学习率扩展。

在这个平面上，PyTorch 默认用 (0,0) 表示，µP 默认用 (1,1) 表示基于张量程序（Tensor Programs）的理论基础，µTransfer 自动适用于高级架构，例如 Transformer 和 ResNet。

此外，它还可以同时迁移各种超参数以 Transformer 为例，图 3 展示了关键超参数如何在宽度上保持稳定壁纸超参数可以包括学习率、学习率 schedule、初始化、参数乘数等，甚至可以单独针对每个参数张量。

该研究在最大宽度为 4096 的 Transformer 上验证了这1点

图 3：在 µP 中参数化并在 WikiText⑵ 上训练的没有同宽度的 transformer随着模型宽度的增加，最优学习率、交叉熵温度、初始化规模和学习率方案保持稳定查看网络的超参数有助于预测更宽网络的最佳超参数。

在右下角的图中，该研究尝试了如放学习率方案：(a) 线性衰减，(b) StepLR @ [5k, 8k]，衰减因子为 0.1，(c) StepLR @ [4k, 7k]，衰减因子为 0.3，(d) 余弦退火，(e壁纸) 常数，(f) 逆平方根衰减。

模型深度的实验扩展现代神经网络扩展没有止涉及宽度1个维度该研究还探索了如何通过将 µP 取非宽度维度的简单启发式算法相结合，将其应用于现实的训练场景下图 4 使用相同的 transformer 设置来显示最佳学习率如何在合理的非宽度维度范围内保持稳定。

图 4：在 µP 中参数化并在 Wikitext⑵ 上训练的没有同大小的 transformer如图 3 所示，最优学习率没有仅可以跨宽度迁移，还可在测试范围内实验性地跨其他扩展维度迁移，例如深度、批大小和序列长度。

这意味着可以将理论上的跨宽度迁移取实验验证的跨其他扩展维度迁移相结合，以获得能在小模型上间接调整超参数并壁纸迁移到大模型的 µTransfer除了学习率，其他超参数的情况如下图所示：

测试 µTransfer在验证完单个超参数的迁移以后，研究者试图将它们组合到更现实的场景中下图 5 对比了两种情况，1种是 µTransfer 从1个小型 proxy 模型迁移调整过的超参数，另1种是直接调整大型目标模型。

在这两种情况下，调整都是通过随机搜索完成的

图 5：µTransfer 大约将计算效率提高了1个数量级由于 proxy 模型即使很小也能有意义地预测最佳超参数（如图 3、图 4 所示），因此随着该研究用数十亿个参数训练更大的目标模型，研究者预计性能差距会扩大。

未来方向：µP + GPT⑶在这项工作之前，壁纸模型越大，调优成本越高，预计调优效果就越差研究者预计 µTransfer 将给最大的模型带来最大的增益，因此该研究取 OpenAI 合作，在 GPT⑶ 上评估 µTransfer。

使用 µP 中的相对注意力对 GPT⑶ 的1个版本进行参数化后，该研究调整了1个具有 4000 万个参数的小型 proxy 模型，然后按照 µTransfer 的方法将最佳超参数组合复制到 GPT⑶ 的 67 亿参数变体中。

在此调整阶段使用的总计算量仅为 67 亿模型预训练使用计算量的 7%如下图 6 所示，这个使用 µTransfer 的模型优于 GPT⑶ 论文中相同大小的模型（绝对注意力），它的性能取 G壁纸PT⑶ 论文中参数数量翻倍的模型（绝对注意力）相当。

理论意义µP 给出了1个扩展规则，该规则在训练损失方面唯1地保留了跨没有同宽度模型的最佳超参数组合相反，其他扩展规则（如 PyTorch 中的默认初始化或 NTK 参数化），随着网络变得越来越宽，超参数空间中的最优值却越来越远。

研究者认为：实际使用特征学习神经网络时，为了获得适用的见解，µP 的特征学习限制会比 NTK 限制更自然因此，过参数化神经网络应该在大型宽度设置中重现 µP 的特征学习限制过去几年开发的张量程序 (TP) 理论使这项进展成为可能。

TP 理论使研究人员能够计算任何通用计算图在其矩阵维数变大时的极限TP 方法产生了基本的理壁纸论结果，例如神经网络 - 高斯过程对应的架构普遍性和动态二分定理，并通过推导 µP 和特征学习限制形成了 µTransfer。

研究者认为将 TP 理论扩展到深度、批大小等扩展维度是大型模型在宽度以外可靠扩展的关键研究者表示：基础研究是对反复试错的1种高成本效益补充，该研究将继续推导出更具原则性的大规模机器学习方法参考链接：https://www.microsoft.com/en-us/research/blog/%c2%b5transfer-a-technique-for-hyperparameter-tuning-of-enormous-neural-networks/。

随机文章

gpu没有支持是什么意思手机（单个GPU无法训练GPT⑶，但有了这个，你能调优超参数了）gpt⑶ 难以置信

您可能也感兴趣:

最近发表

网站分类

TAG标签

随机文章

gpu没有支持是什么意思手机（单个GPU无法训练GPT⑶，但有了这个，你能调优超参数了）gpt⑶ 难以置信

您可能也感兴趣:

为您推荐

gpu没有支持是什么意思手机（单个GPU无法训练GPT⑶，但有了这个，你能调优超参数了）gpt⑶ 难以置信

最近发表

网站分类

TAG标签