当前位置:首页 > 科技/电子
 

世界最大AI芯片打破单设备训练大模型记录 ,Cerebras要「杀死」GPU


时间:2022-06-23  来源:  作者:  点击次数:


以制造世界上最大的加速器芯片CS-2晶圆级引擎而闻名的公司Cerebras昨天宣布,他们利用巨芯在训练人工智能方面迈出了重要一步。该公司在单个芯片上训练了世界上最大的NLP(自然语言处理)AI模型。Leifeng.com(微信官方账号:Leifeng.com)

该模型有20亿个参数,基于CS-2芯片进行训练。世界上最大的加速器芯片是由一整块方形晶片通过7nm工艺蚀刻而成的。它的尺寸是主流芯片的几百倍,功率15KW。它集成了2.6万亿个7纳米晶体管,封装了85万个内核和40GB内存。图1 CS-2 Wafer  Scale  Engine芯片

图1 CS-2晶圆级引擎芯片,单芯片训练AI大模型新纪录

自然语言处理模型的发展是人工智能的一个重要领域。利用NLP模型,人工智能可以“理解”单词的意思,并做出相应的动作。OpenAI的DALL。e模型是一个典型的NLP模型。该模型可以将用户输入的文本信息转换成图片输出。

例如,当用户输入“鳄梨形状的扶手椅”时,AI会自动生成几个与这句话相对应的图像。

图:AI接收信息后生成的“牛油果形状扶手椅”图片

图:AI接收信息后生成的“鳄梨形状的扶手椅”图像并不仅限于此。该模型还可以使AI理解复杂的知识,如物种、几何、历史时代等。

然而,要实现这一切并不容易。传统的NLP模型开发有极高的计算成本和技术门槛。

事实上,如果只讨论数字的话,Cerebras开发的这个模型的20亿个参数在同行的背景下显得有些不起眼。

前面提到的DALL。e模型有120亿个参数,而目前最大的模型是去年底DeepMind推出的Gopher,有2800亿个参数。

然而,除了惊人的数字,Cerebras开发的NLP还有一个巨大的突破:它降低了开发NLP模型的难度。

Macrocore如何打败GPU?

按照传统的流程,开发NLP模型需要开发人员将庞大的NLP模型分成几个功能部分,将他们的工作量分配到数百个图形处理单元。

数百个图形处理单元对制造商来说意味着巨大的成本。

技术上的困难也让厂商苦不堪言。

细分模型是一个定制的问题。每一个神经网络,每一个GPU的规范,以及连接它们(或互连它们)的网络都是唯一的,不能跨系统移植。

制造商必须在首次培训前考虑所有这些因素。

这项工作极其复杂,有时需要几个月才能完成。

Cerebras表示,这是NLP模型训练中“最痛苦的方面之一”。只有少数公司有必要的资源和专业知识来开发NLP。对于人工智能行业的其他公司来说,NLP培训成本太高,耗时太长,无法使用。

但如果单个芯片可以支持20亿个参数的模型,就意味着不需要使用海量GPU来分散训练模型的工作量。这可以为制造商节省成千上万的GPU培训成本以及相关的硬件和扩展需求。与此同时,它还使供应商摆脱了拆分模型并将工作负载分配给数千个GPU的痛苦。

Cerebras不仅痴迷于数字,还评价一个模型的好坏。参数的数量不是唯一的标准。

Cerebras希望模型比诞生在“巨核”上的模型“努力”更“聪明”。

Cerebras之所以能在参数上实现爆发式增长,是因为它使用了重量流技术。这项技术可以将计算量和内存使用量解耦,并允许内存扩展到足以存储AI工作负载中添加的任何数量的参数。

由于这一突破,建立模型的时间从几个月减少到几分钟。开发人员“只需敲几下键盘”,就可以在GPT-J和GPT-Neo型号之间切换。这使得NLP的开发更加容易。

这导致了NLP领域的新变化。

正如Intersect360 Research首席研究官丹奥尔兹(Dan Olds)在评价脑波强化器的成就时所说:“脑波强化器可以以一种经济高效、易于获取的方式为公众带来大型语言模型,这为人工智能开辟了一个令人兴奋的新时代。”

雷锋的原创文章。com未经授权禁止转载。详见转载说明。


本文来自华纳娱乐 转载请注明

上一篇 下一篇


  • 用户名:
  • 密码:
  • 验证码:
  • 匿名发表