发布日期:2026-01-01 11:48 点击次数:113
什么?Scaling Law 最早是百度 2017 年提的?!
Meta 研究员翻出经典论文:
大无数东谈主可能不知谈,Scaling law 原始研究来自 2017 年的百度,而非三年后(2020 年)的 OpenAI。

此研究由吴恩达主执,来自百度硅谷东谈主工智能履行室 ( SVAIL ) 系统团队。
他们探讨了深度学习中安适集大小、盘算推算范畴和模子精度之间的相关,何况通过大范畴实证研究揭示了深度学习泛化错误和模子大小的缩放划定,还在图像和音频上进行了测试。
只不外他们使用的是 LSTM,而不是 Transformer;也莫得将他们的发现定名为「Law」。

再回头看,其中一位作家 Gregory Diamos 给我方畴昔在百度的先容照旧LLM Scaling Law Researcher。

又有一网友发现,OpenAI 论文还援用了 2019 年这位作家 Gregory Diamos 等东谈主的走访。但却不知谈他们 2017 年就有了这样一项责任。

网友们纷纷暗示这篇论文荒谬值得一读,而且完满被低估。


来飞速望望这篇论文。
深度学习 Scaling 是可磋商的
在深度学习规模,跟着模子架构的束缚探索、安适数据集的束缚增大以及盘算推算智商的束缚提高,模子的性能也在束缚提高。
然则,关于安适集大小、盘算推算范畴和模子精度之间的具体相关,一直零落潜入的走漏。

本文通过大范畴的实证研究,对多个机器学习规模(如机器翻译、言语建模、图像分类和语音识别)进行了测试,发现了一些划定:
泛化错误(模子在新数据上的进展错误)与安适集大小呈现幂律相关,即跟着安适集的增大,泛化错误会以一定的幂次下落。
模子大小与与数据大小也存在 Scaling(缩放)相关,频频模子大小的增长速率比数据大小的增长速率慢。
具体来说,会聚以往责任,团队将介意力逼近在准确揣摸学习弧线和模子大小的缩放趋势上。
按照一般测量要领,是选拔首先进的 SOTA 模子,并在安适集的更大子集(碎屑)上安适这些模子的 "超参数缩减 "版块,以不雅察模子的准确性怎样跟着安适集的大小而增长。
因此针对这四个规模,机器翻译、言语建模、图像分类和语音识别,找到了他们在大型数据集上涌现出 SOTA 泛化错误的模子架构。
这里的 "大型数据集 "是指范畴不错收缩 2-3 个数目级,但仍足以进行有价值的模子架构研究的安适集。他们为某些 ML 规模选拔了一种以上的模子架构,以比拟它们的扩张举止。
机器翻译

团队介意到,跟着安适集范畴的增大,优化变得愈加贫困,而且模子会出现容量不及的情况,因此告诫错误会偏离幂律趋势。
词言语模子

这一后果标明,最好拟合模子随安适分片大小呈次线性增长。
字符级言语模子

为了测试字符级言语建模,他们安适了深度为 10 的轮回高速公路会聚(RHN),后果发现该会聚在十亿单词数据集上能达到首先进的(SOTA)准确率。
图像分类。

图像分类雷同呈现出幂律学习弧线和模子大小的缩放相关。何况还标明,在荒谬小的安适集上,准确率会在接近就地猜度的水平上趋于自如。
语音识别。

团队安适了一系列跨度较大的模子尺寸,是以针对每个安适数据大小得出的模子尺寸缩放后果,其意旨不像在言语模子(LMs)或图像分类中那么昭着。
跟着数据量的加多,大无数模子会履历幂律泛化更始,直至数据量接近其有用容量。在这种情况下,参数为 170 万的模子的准确率在不祥 170 小时的音频数据时启动趋于自如,而参数为 600 万的模子在不祥 860 小时的音频数据时趋于自如(也等于说,不祥是前者的 5 倍,这与模子尺寸的互异情况雷同)。更大的模子(举例,参数为 8700 万的模子)在更大的数据集范畴下,其泛化错误也更接近最好拟合趋势。
临了关于这一发现,他们暗示,这些比例相关对深度学习的研究、实施和系统齐有蹙迫影响。它们不错匡助模子调试、设定准确度意见和数据集增长有筹谋,还不错率领盘算推算系统联想,并强调执续盘算推算扩张的蹙迫性。
博客致谢中还有 Ilya 的名字
这次研究主如果由畴昔吴恩达主执下,百度硅谷东谈主工智能履行室 ( SVAIL ) 系统团队。
那时的一群合著者们照旧各自去到各个机构履行室、大厂不绝从事大模子不绝的研究。

在畴昔博客致谢中,还出现了 Ilya 的名字,感谢他们参与了这一接头。

两年后,也等于 2019 年,其中一位作家 Gregory Diamos 又带领团队探讨了深度学习的盘算推算挑战。

后头的 OpenAI 论文恰是援用了这篇论文的走访接头了 Scaling Law。
值得一提的是,Anthropic CEODario Amodei在百度研究院吴恩达团队责任过,他对 Scaling Law 的第一印象亦然那时研究语音模子产生的。

Amodei 刚启动研究语音神经会聚时有一种"外行撞大运"的嗅觉,尝试把模子和数据范畴同期扩大,发现模子性能跟着范畴的加多而束缚提高。
开首,他认为这仅仅语音识别系统的特例。但到了 2017 年,看到 GPT-1 的后果后意志到这种气候在言语模子上雷同适用。
畴昔(2015 年)他一作发表的论文 Deep Speech,合著者中这位 Sharan Narang 恰是两年后这篇论文的主要作家之一。如今后者先后去到了谷歌担任 PaLM 神情 TL 大模子认真东谈主,然后当今是 Meta 当研究员。


如今这一"冷学问"再次出当今大众的视线,让不少东谈主回溯并重温。
这当中还有东谈主进一步暗示:真确的 OG 论文使用了seq2seq LSTM,何况详情了参数盘算推算弧线。


畴昔的一作恰是 Ilya Sutskever。
参考不绝:
[ 1 ] https://arxiv.org/abs/1512.02595 [ 2 ] https://arxiv.org/abs/1909.01736
[ 3 ] https://research.baidu.com/Blog/index-view?id=89
[ 4 ] https://www.linkedin.com/in/gregory-diamos-1a8b9083/ [ 5 ] https://www.linkedin.com/in/dario-amodei-3934934/
[ 6 ] https://x.com/jxmnop/status/1861473014673797411?s=46&t=iTysI4vQLQqCNJjSmBODPw
— 完 —
「MEET2025 智能畴昔大会」
火热报名中
定档 12 月 11 日!李开复博士、周志华证据、智源研究院王仲远院长齐来量子位MEET2025 智能畴昔大会探讨行业破局之谈了!
最新嘉宾声威在此,不雅众报名通谈已开启!迎接来到 MEET 智能畴昔大会,期待与您沿路预念念智能科技新畴昔
傍边滑动查抄最新嘉宾声威
点这里� � 热心我,记起标星哦~
一键三连「点赞」、「共享」和「在看」
科技前沿进展日日再见 ~
Powered by 开yun网页版app(官方)kaiyun网站/网页版登录入口/手机版最新 @2013-2022 RSS地图 HTML地图
Copyright Powered by365站群 © 2013-2024