当前位置: 网站首页 技术文章 正文

交大哈佛联手出击!新微调框架比LoRA还高效,专攻特定任务

来源:互联网 发布时间:2024-09-20 19:01:23

一种比LoRA更为高效的模型微调技术横空出世——

交大哈佛联手出击!新微调框架比LoRA还高效,专攻特定任务

在减少参数量8至16倍的前提下,这项新技术能实现与LoRA相同的微调效果。

这项创新技术名为LoRA-Dash,由上海交通大学与哈佛大学的研究团队共同开发,旨在解决传统模型微调过程中所需计算资源过于庞大的问题。

下面我们将详细介绍这项技术的研究背景和成果。

建立特定任务导向的微调架构

随着大规模语言模型的发展,如何有效地针对特定任务进行模型微调成为了亟待解决的问题。参数高效微调策略(PEFT),例如LoRA,便是在这样的背景下发展起来的。

在LoRA框架下,研究人员发现这种方法实际上是在捕捉预训练过程中已经习得但却不太重要的方向,并在后续任务中强化这些方向的作用。

这些被放大的方向被称为“特定任务方向”(Task-specific Directions,简称TSD)。

然而,在LoRA的原始论文中,对于TSD的解释存在一定的模糊性和争议,使得研究者难以清晰地理解和利用这些方向。

为克服这些问题,论文作者对高效微调过程中的TSD进行了明确界定,并对其特性进行了详尽的分析。

TSD的界定

首先,定义了矩阵的基以及方向。

定义1:给定一个矩阵𝐀,其左、右奇异向量分别由矩阵𝐔和𝐕表示,矩阵𝐀的基定义如下。

核心基:矩阵𝐀的核心基定义为

,这里每个

代表了一个由奇异向量𝓤𝓲和𝐕𝓲构成的秩为1的矩阵。

全局基:矩阵𝐀的全局基定义为

,包含了左奇异向量和右奇异向量的所有可能组合。

定义2:矩阵𝐀 ∈ ℝ𝑛x𝑚(其中 𝑛 < 𝑚)的方向基于其全局基定义,采用其奇异值∑的扩展集合并用零填充。

具体表示为(𝛔1,0,…,0,𝛔2,0,…,0,𝛔n,…,0)∈ ℝ𝑛x𝑚,即∑经过行展平后的形式。

研究人员指出,任何全局基都可以被视为一个单位方向,因为它们的方向表现为一个one-hot向量。

对于特定任务方向,研究基于以下假设展开:

对于预训练权重矩阵𝐖,其针对某一任务的最佳调整为∆𝐖=𝐖-𝐖。

在PEFT框架下,研究者只能获取𝐖及其方向的信息。

由于∆𝐖和𝐖*的方向基于各自的基,研究者先将两者映射到𝐖的全局基上。

定义3:定义 𝚰𝚰·(·)为一个将坐标系中的方向映射到另一坐标系中的映射运算。

特别地,𝚰𝚰𝐖(𝐀)=(𝒑11,…,𝒑𝑛𝑚)∈ ℝ𝑛𝑚表示将矩阵𝐀 ∈ ℝ𝑛x𝑚 的方向映射到矩阵𝐖 ∈ ℝ𝑛x𝑚的全局基上。

基于矩阵𝐖的全局基,𝚰𝚰𝐖(𝐖*)展示了𝐖需要演化的方向。

交大哈佛联手出击!新微调框架比LoRA还高效,专攻特定任务

由于𝐖最多只能利用𝑛个核心基,因而它只能调整其方向的𝑛个值。

因此,重点在于这些核心方向的变化情况。

在变换过程中,不同的核心方向的坐标值变化程度各异,受下游任务多样性的驱动,某些核心方向可能会发生显著变化,而其他方向的变化则相对较小。

定义的变化率𝛅𝓲用于衡量第𝓲个核心方向的变化程度:

因此,研究者定义TSD为:

对于某一特定任务和预训练权重矩阵𝐖,假设该任务的最优权重为𝐖,则该任务在𝐖上的TSD是指那些在从𝐖到𝐖的变化过程中,其坐标值表现出显著高变化率𝛅的核心方向。

TSD的特点及应用挑战

通过一系列实验,研究者总结出TSD的两大特点:

TSD主要与𝑊较小但非最小的奇异值相关的核心方向相对应。TSD仅涉及少数方向,在从𝑊到𝑊*的转变过程中具有显著的变化率,而其他大多数核心方向的变化率则较小或可忽略。

虽然TSD的定义和特性已经得到了充分讨论,但在实际微调前由于∆𝑊和𝑊都是未知的,因此在实践中提前利用TSD信息几乎是不可能的。

为此,研究者假设LoRA预测的高变化率核心方向与TSD紧密关联。

广泛的实验证明,预测的方向与实际的TSD之间存在高度重叠,从而得出一个重要结论:

即使在TSD未知的情况下,也能通过LoRA训练过程中获得的∆𝑊捕捉到这些关键信息。

挖掘TSD的潜力:LoRA-Dash

为了进一步挖掘TSD在下游任务中的潜力,研究者提出了一种新的高效微调方法LoRA-Dash。

LoRA-Dash包括两个主要步骤:

首先是“预启动阶段”。在这个阶段,任务特定方向被识别出来,这是模型优化的重要环节,确保能识别出最需要调整的方向。

具体来说,在这个阶段,LoRA-Dash利用t次更新后得到的∆𝑊来预测TSD,以确定下一阶段需要调整的方向。

其次是“冲刺阶段”。在这个阶段,模型利用先前识别的TSD进行优化微调,使预训练模型更好地适应特定任务。

具体来说,研究者直接模拟TSD的坐标变化,加速模型的适应性调整,从而提高其在新任务中的表现。

LoRA-Dash的伪代码如图所示。

实验验证

研究者分别在常识推理、自然语言理解和主题驱动生成任务上进行了实验。

实验结果表明,LoRA-Dash在各项任务上均取得了显著优于LoRA的效果。

常识推理(使用LLAMA-7B,LLAMA2-7B以及LLAMA3-8B进行微调):

自然语言理解(使用DeBERTaV3-base和DeBERTaV3-large进行微调):

主题驱动生成(使用SDXL进行微调)。相较于LoRA,LoRA-Dash与原图的一致性更高,如图中的狗和花瓶。

实验结果证明了TSD对于下游任务的有效性,LoRA-Dash能够充分利用TSD的潜力,进一步提升高效微调的表现水平。

目前,相关论文已公开发布,代码也已开源。

交大哈佛联手出击!新微调框架比LoRA还高效,专攻特定任务

论文:https://arxiv.org/pdf/2409.01035代码:https://github.com/Chongjie-Si/Subspace-Tuning项目主页:https://chongjiesi.site/project/2024-lora-dash.html

相关教程