李月 反差 Scaling Law不老是适用!尤其在文分内类任务中,vivo AI Lab提议数据质料擢升处治门径
26uuu色
26uuu色

小黑屋 调教

李月 反差 Scaling Law不老是适用!尤其在文分内类任务中,vivo AI Lab提议数据质料擢升处治门径

发布日期:2024-12-18 14:31    点击次数:132

李月 反差 Scaling Law不老是适用!尤其在文分内类任务中,vivo AI Lab提议数据质料擢升处治门径

Scaling Law 不仅在放缓李月 反差,而且不一定老是适用!

尤其在文分内类任务中,扩大素质集的数据量可能会带来更严重的数据恣意和数据冗余。

若是类别边界不够明晰,数据恣意风景就更昭着了。

而文分内类又在情感分析、识别用户意图等任务中极为蹙迫,继而对 AI Agent 的性能也有很大影响。

最近,vivo AI Lab 照顾团队提议了一种数据质料擢升(DQE)的门径,告捷擢升了 LLM 在文分内类任务中的准确性和服从。

实验中,DQE 门径以更少的数据赢得更高的准确率,何况只用了近一半的数据量,就能灵验擢升素质集的素质服从。

作家还对全量数据微调的模子和 DQE 遴荐的数据微调的模子在测试集上的司法进行了显贵性分析。

司法发现 DQE 遴荐的数据在大无数测试集上齐比全量数据透透露显贵的性能擢升。

目下,此项效果已被当然话语处理顶会 COLING 2025 主会接受。

数据质料擢升门径长啥样?

在当然话语处理中,文分内类是一项相配蹙迫的任务,比如情感分析、意图识别等,尤其目下企业齐在推出各自的 AI Agent,其中最蹙迫的才智之一,就是识别用户的意图。

不同于传统的 BERT 模子,基于自转头的诳言语模子的输出经常是不成控的,而分类任务对输出的体式条目较高。

通过在领导词中加入 few-shot 不错灵验地改善这一风景,然而基于领导词的门径带来的擢升经常有限。指示微调不错灵验地改善模子的性能。

在文分内类任务中,短缺一种灵验的时刻来获取高质料的数据集。OpenAI 提议了缩放定律(Scaling Law),以为诳言语模子的最终性能主要取决于三个身分的缩放:忖度能力、模子参数和素质数据量。

关联词这一定律并不老是适用,尤其在文分内类任务中,扩大素质集的数据量会可能会带来愈加严重的数据恣意风景和数据冗余问题。尤其类别的边界不够明晰的时分,数据恣意的风景愈加昭着。

底下是 vivo AI Lab 团队提议的数据质料擢升(DQE)门径的具体门径筹算。

最初,作家对素质集进行了初步的数据清洗使命,包含处理具有缺失值的数据、query 和标签叠加的数据以及标签不一致数据(合并条 query 对应多个不同的标签)。

然后,使用文本镶嵌模子,将文本诊治为语义向量。再通过贪心采样的门径,立时驱动化一条数据算作驱动向量,然后每次遴荐距离向量中心最远的数据加入到新的聚集中,以擢升数据的万般性。

接着,更新这个集聚的向量中心,阻抑的叠加这个历程,直到网络了 50% 的数据算作 sampled,剩下未被选中的 50% 的数据集算作 unsampled,然后使用 sampled 数据集微调诳言语模子预计 unsampled。

通过聚合向量检索的样式,将 unsampled 中预计司法无理的数据分为 Uncovered、Difficult 和 Noisy 三种类型。

底下是三种类型的数据的识别旨趣:

Uncovered:主要指 sampled 中未袒护的数据,如果预计无理的数据与最一样的数据具有换取的标签,何况最一样的数据位于 unsampled 中,则以为该数据关联的特征可能莫得参与 sampled 模子的微调,从而导致 unsampled 中的该条预计司法无理。

Difficult:主要指 sampled 中难以学会的勤劳样本,如果预计无理的数据与最一样的数据具有换取的标签,何况最一样的数据位于 sampled,则以为该数据关联的特征仍是在 sampled 中参与过模子的微调,预计无理可能是因为这条数据很难学会。

Noisy:主若是标签不一致导致的噪声数据,如果预计无理的数据与最一样的数据具有不同的标签。则怀疑这两条数据是噪声数据。大无数文分内类任务的数据集齐是共同手工标注大概模子标注赢得,齐可能存在一定的主不雅性,尤其在类别边界不明晰的时分,标注无理的风景无法幸免。这种情况下,作家通过领导词,使用 GPT-4o 进一步补助判断。

效果怎样?

作家基于多机多卡的 L40s 奇迹器上通过 swift 框架进行了全参数微调,遴荐开源的 Qwen2.5-7B-Instruct 模子算作本次实验的基础模子。

作家与 PaperWithCode 中收录的最佳的司法以及全量数据微调的门径进行了对比,作家分别在 MR、CR、IMDb、SST-2、SST-5、AG News 数据集聚进行了对比实验。

从实验司法不错看出,DQE 门径以更少的数据赢得更高的准确率,何况只用了近乎一半的数据量,不错灵验地擢升素质集的素质服从。

同期,作家页进一步对全量数据微调的模子和 DQE 遴荐的数据微调的模子在测试集上的司法进行了显贵性分析。将预计司法正确的数据赋值为 1,将预计司法无理的数据赋值为 0,通过 t 查考来评估模子之间性能各异的统计显贵性。

从表中不错发现DQE 遴荐的数据在大无数测试集上齐比全量数据透透露显贵的性能擢升。

与传统的 BERT 模子不同的是,生成式的模子经常是不成控的,作家进一步分析了指示奴婢司法。

司法标明,岂论是全量数据微调照旧 DQE 门径微调,齐不错灵验地擢升诳言语模子的指示奴婢能力,按照预期的司法和体式输出。

对于分类任务来讲,当数据量富足大时,很难幸免标签噪声音象。即就是被各大顶级学术期刊瓦解议无为使用的数据集,也无法幸免标签噪声音象。

作家分析了一部分通过实验找出的噪声数据,何况给出了开源数据集聚的标签噪声的示例。

值得详确的是,在数据采样历程中,本照顾使用贪默算法将数据集辞别为 sampled 和 unsampled。此外,作家凭据文本一样度将 unsampled 分类为 uncovered、difficult 和 noisy 数据。

接下来,分析 sampled 中的这三种类型:

由于该数据将用于最终的素质集,因此它不包含 uncovered。

对于 difficult,翌日自 unsampled 中识别为 difficult 的样本会加入到最终的素质集,这 uncovered 中的 difficult 和 sampled 是成对存在的,从而部分收缩了采样数据中的 difficult 问题。

对于 noisy 数据,使用 DQE 不错在 sampled 和 unsampled 之间识别出大无数成对的噪声实例。

由于使用 sampled 贪心采样战略,在 sampled 内遭受成对的一样噪声数据的概率会相对较低。从表面上阐述了本决议的灵验性。

论文地址:https://arxiv.org/abs/2412.06575

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿履行‍

性吧

附上论文 / 神色主页伙同,以及权衡样式哦

咱们会(尽量)实时讲述你

点这里� � 良善我,牢记标星哦~

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日相逢 ~