51CTO首页
AI.x社区
博客
学堂
精品班
直播训练营
企业培训
鸿蒙开发者社区
WOT技术大会
AIGC创新中国行
IT证书
公众号矩阵
移动端

微软英伟达发布5300亿NLP模型“威震天-图灵”,花了4480块A100

新闻 人工智能
由微软联手英伟达推出,名叫威震天-图灵自然语言生成模型(Megatron Turing-NLG)。

[[428336]]

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

5300亿参数!全球最大规模NLP模型诞生。

微软联手英伟达推出,名叫威震天-图灵自然语言生成模型(Megatron Turing-NLG)。

微软英伟达发布5300亿NLP模型“威震天-图灵”,花了4480块A100

据他们介绍,这样的量级不仅让它成为全球规模最大,同时也是性能最强的NLP模型。

训练过程一共使用了4480块英伟达A100 GPU,最终使该模型在一系列自然语言任务中——包括文本预测、阅读理解、常识推理、自然语言推理、词义消歧——都获得了前所未有的准确率。

三倍规模于GPT-3

此模型简称MT-NLG,是微软Turing NLG和英伟达Megatron-LM两者的“继任者”。

Turing NLG由微软于2020年2月推出,参数为170亿;Megatron-LM来自英伟达,2019年8月推出,参数83亿。

它俩在当时分别是第一、二大规模的Transfomer架构模型。

我们都知道大参数规模的语言模型效果会更好,但训练起来也很有挑战性,比如:

  • 即使是最大容量的GPU,也存不下如此规模的参数;
  • 如果不特别注意优化算法、软件和硬件堆栈,那么所需的大量计算操作可能会导致训练时间过长。

那这个参数已是GPT-3三倍的MT-NLG又是如何解决的呢?

答案就是汲取“两家”所长,融合英伟达最先进的GPU加速训练设备,以及微软最先进的分布式学习系统,来提高训练速度。

微软英伟达发布5300亿NLP模型“威震天-图灵”,花了4480块A100

并用上千亿个token构建语料库,共同开发训练方法来优化效率和稳定性。

具体来说,通过借鉴英伟达Megatron-LM模型的GPU并行处理,以及微软开源的分布式训练框架DeepSpeed,创建3D并行系统。

对于本文中这个5300亿个参数的模型,每个模型副本跨越280个NVIDIA A100 GPU,节点内采用Megatron-LM的8路张量切片(tensor-slicing),节点间采用35路管道并行(pipeline parallelism)。

然后再使用DeepSpeed的数据并行性进一步扩展到数千个GPU。

最终在基于NVIDIA DGX SuperPOD的Selene超级计算机上完成混合精度训练。

(该超级计算机由560个DGX A100服务器提供支持,每个DGX A100有8个 NVIDIA A100 80GB Tensor Core GPU,通过NVLink 和 NVSwitch相互完全连接)。

该模型使用了Transformer解码器的架构,层数、hidden dimension和attention head分别为 105、20480和128。

训练所用数据集包括近20万本书的纯文本数据集Books3、问答网站Stack Exchange、维基百科、学术资源网站PubMed Abstracts、ArXiv、维基百科、GitHub等等,这些都是从他们先前搭建的Pile数据集中挑出的质量较高的子集。

最终一共提取了2700亿个token。

微软英伟达发布5300亿NLP模型“威震天-图灵”,花了4480块A100

五大任务上的准确度测试

开发者在以下5大任务上对MT-NLG进行了准确度测试。

  • 在文本预测任务LAMBADA中,该模型需预测给定段落的最后一个词。
  • 在阅读理解任务RACE-h和BoolQ中,模型需根据给定的段落生成问题的答案。
  • 在常识推理任务PiQA、HellaSwag和Winogrande中,每个任务都需要该模型具有一定程度的常识了解。
  • 对于自然语言推理,两个硬基准,ANLI-R2和HANS考验先前模型的典型失败案例。
  • 词义消歧任务WiC需该模型从上下文对多义词进行理解。

结果该模型在PiQA开发集和LAMBADA测试集上的零样本、单样本和少样本三种设置中都获得了最高的成绩。

在其他各项任务上也获得了最佳。

微软英伟达发布5300亿NLP模型“威震天-图灵”,花了4480块A100

除了报告基准任务的汇总指标外,他们还对模型输出进行了定性分析,并观察到,即使符号被严重混淆,该模型也可以从上下文中推断出基本的数学运算。

微软英伟达发布5300亿NLP模型“威震天-图灵”,花了4480块A100

当然,该模型也从数据中也提取出了刻板印象和偏见。微软和英伟达表示也在解决这个问题。

另外,他们表示在生产场景中使用MT-NLG都必须遵守微软的“负责任的AI原则”来减少输出内容的负面影响,但目前该模型还未公开。

 

 

责任编辑:张燕妮 来源: 量子位
相关推荐
中英文超大AI模型世界纪录产生,大模型竞赛新阶段来了
英伟达与微软联合发布了5300亿参数的“威震天图灵”(MegatronTuring),成为迄今为止全球最大AI单体模型。

2021-10-15 15:26:10

AI 数据 人工智能
上万颗英伟A100,烧光微软亿美元
ChatGPT背后,是微软超级昂贵的超级计算机,耗资数亿美元,用了英伟达数万颗芯片。

2023-03-14 13:06:54

英特尔AI芯片中国定制版发布!打的就是英伟A100
虽然相比之下,英伟达只需61分钟便可,但这样的成绩需要512个H100——由于Gaudi2的成本要远低于H100,所以要论性价比,SandraRivera表示,Gaudi2是更具诱惑力的选择。

2023-07-13 23:16:19

英伟达 GPU
英伟64个A100训练StyleGAN-T;九类生成式AI模型综述
本周重要论文包括六大公司推出的九类生成式AI模式综述以及英伟达等机构推出的升级版StyleGAN等研究。

2023-02-06 10:25:13

AI 模型
必应聊天开放测试后添加 GPU 速度赶不上使用量,聊天记录功能“几天内”上线
微软并未公布支撑BingChat运行使用了多少块GPU,不过市场调查机构TrendForce集邦咨询公布的报告指出,如果以英伟达A100显卡的处理能力计算,运行ChatGPT将需要使用到30000块英伟达GPU。

2023-05-09 08:54:01

ChatGPT 必应聊天
英伟确认:对华特供「低配版」A800芯片,可替代A100
英伟达确认,已经向中国提供新的计算图形芯片A800,作为被禁运的A100的替代品,性能稍逊,但符合出口管制规定。

2022-11-08 15:00:51

芯片 英伟达
130亿参数,8个A100训练,UC伯克利发布对话模型Koala
平替再平替,可以在消费级GPU上运行的Koala模型能实现ChatGPT一半的性能。

2023-04-07 09:28:31

模型 训练
英伟3090单挑180亿参数大模型,国产开源项目这回杀疯了
相比于PyTorch和业界主流的DeepSpeed方法,提升参数容量能达到10多倍。

2022-05-17 16:12:33

英伟达 模型 开源
英伟发布大语言模型,专攻辅助芯片设计
虽然目前的结果已经取得了一些进展,但与理想结果之间仍存在改进空间。进一步研究领域适应的LLM方法将有助于缩小这一差距。

2023-10-31 19:20:29

语言模型 英伟达 芯片
微软自曝花数亿美元为OpenAI组装超算开发ChatGPT 使用数万个英伟芯片
微软​发文透露其斥资数亿美元帮助OpenAI​组装了一台AI超级计算机,以帮助开发爆火的聊天机器人ChatGPT。这台超算使用了数万个英伟达​图形芯片A100,这使得OpenAI能够训练越来越强大的AI模型。

2023-03-14 09:19:02

微软 OpenAI ChatGPT
谷歌公布新一代AI超算,称比英伟A100更快、更节能
谷歌公司设计了自己的定制芯片,称为TensorProcessingUnit(TPU),并将这些芯片应用于90%以上的人工智能训练工作。这个过程通过模型对数据进行训练,以提高其在类似人类文本响应或生成图像等任务中的实用性。

2023-04-05 14:31:49

AI超算 人工智能
英伟最强通用大模型Nemotron-4登场!15B击败62B,目标单张A100/H100可跑
许久未更新大模型的英伟达推出了150亿参数的Nemotron4,目标是打造一个能在单个A100H100可跑的通用大模型。

2024-02-29 13:54:00

数据 训练
微软发布 Azure ND H100 v5 虚拟机,配备 8 个英伟 H100 GPU
据介绍,微软全新发布AzureNDH100v5虚拟机(VM)系列,现已在美国东部和美国中南部Azure区域提供。

2023-11-21 09:14:33

微软 Azure AI
A卡跑大模型,性能达到4090的80%,价格只有一半:陈天奇TVM团队出品
英伟达GPU买不到的问题,就这样解决了?最近,微软、OpenAI等公司都表示正在采取必要措施来缓解用于AI任务的H100、A100专用GPU的短缺问题。

2023-08-10 13:54:36

GPU AI
英伟H100订单排到24年,马斯克都坐不住了
ChatGPT爆发以来,擅长训练大模型的英伟达A100、H100成了香饽饽。甚至H100已经可以作为初创公司的一种资产,找投资基金获得抵押贷款。

2023-08-14 08:07:46

ChatGPT AI
数十万张缺口 GPU瓶颈到底卡住了谁?
每个想要在人工智能爆发中分一杯羹的人都需要GPU。准确地说,是英伟达的A100和H100,它们在训练和推理大模型中扮演关键角色。如果要想要从头训练大模型,至少需要上千张A100或H100,而推理和微调大模型也至少需要储存100张。

2023-08-13 07:44:18

GPU 模型 英伟达
微软13亿参数phi-1.5,单个A100训练,刷新SOTA
微软推出了一个全新预训练模型phi1.5,共有13亿参数,能做QA问答、聊天和写代码等等。

2023-09-18 09:36:58

微软 模型
谷歌超强AI超算碾压英伟A100!TPU v4性能提升10倍,细节首次公开
微软为ChatGPT打造专用超算,砸下几亿美元,用了上万张A100。现在,谷歌首次公布了自家AI超算的细节——性能相较上代v3提升10倍,比A100强1.7倍。此外,据说能和H100对打的芯片已经在研发了。

2023-04-06 09:37:22

谷歌 AI
微软OpenAI联手围剿英伟,首款自研AI芯片下月发布
一家独大的英伟达,把微软和OpenAI都逼得亲自下场造芯片了。也许AI芯片大战才刚刚拉开帷幕。

2023-10-08 13:56:00

英伟达 芯片 AI
微软开发定制AI芯片“由软变硬”,到底打的什么算盘?
微软AzureMaia​​AI​​芯片和Arm版AzureCobaltCPU将会在2024年推出。目前市场上最流行的AI芯片是英伟达的H100GPU,企业用它训练生成式图形工具和大语言模型。英伟达GPU需求很高,供不应求,网上标价单块已经冲破4万美元。

2023-11-17 17:02:21

微软 AI芯片

同话题下的热门内容

欠款6000万,知名学习平台疑似倒闭跑路;京东员工“代打卡”成风,刘强东怒批;阿里蔡崇信、吴泳铭发联名信;小米汽车再添猛将 桌面版ChatGPT登台演讲,能视频通话还会实时读屏,GPT-4o demo再次惊艳:“能力还是被低估了” 每周节省7800万工时!ChatGPT等成美国降本增效利器 全球首台生物计算机开放服务:16个人脑类器官,能耗节省百万倍 惊掉下巴:GPT-4o现场爆改代码看图导航!OpenAI曝光LLM路线图,GPT Next年底发 李飞飞亲自撰文:大模型不存在主观感觉能力,多少亿参数都不行 李彦宏欧洲谈AI:比起GPT-5,我更感兴趣超级应用 通用世界模型问世:不学习就能生成新领域视频,可实时控制

相关专题 更多

OPPO Android 15 适配开发者交流专场
OPPO Android 15 适配开发者交流专场
Google Cloud Next ’24
Google Cloud Next ’24
2024-04-15 17:53:02
网络运维智能化?瞻博网络有奇招!
网络运维智能化?瞻博网络有奇招!
2023-12-18 11:43:34
我收藏的内容
点赞
收藏

51CTO技术栈公众号

业务
速览
在线客服
媒体
51CTO CIOAge HC3i
社区
51CTO博客 鸿蒙开发者社区
教育
51CTO学堂 精培 企业培训 CTO训练营

两个鬼故事2014年属相马女孩起什么名字新冠疫苗预12月上市百家讲坛大风歌公司在线起名免费网爽字起名天才名医牛宝宝起名字女孩2021免费4月是什么星座喜欢你粤语发音铁马少年东游记演员表电商生鲜起名趣盘农村集体经济网格化管理制度新绝代双骄1姓氏滕起名字弑神1.5硫磺岛浴血战今年男孩起名证件集团412事件咨询公司起名起名走进新中国wow视频协会起名川菜馆最新起名spa馆起名火中金莲笔趣阁口腔公司起名少年生前被连续抽血16次?多部门介入两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”淀粉肠小王子日销售额涨超10倍高中生被打伤下体休学 邯郸通报单亲妈妈陷入热恋 14岁儿子报警何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言张家界的山上“长”满了韩国人?男孩8年未见母亲被告知被遗忘中国拥有亿元资产的家庭达13.3万户19岁小伙救下5人后溺亡 多方发声315晚会后胖东来又人满为患了张立群任西安交通大学校长“重生之我在北大当嫡校长”男子被猫抓伤后确诊“猫抓病”测试车高速逃费 小米:已补缴周杰伦一审败诉网易网友洛杉矶偶遇贾玲今日春分倪萍分享减重40斤方法七年后宇文玥被薅头发捞上岸许家印被限制高消费萧美琴窜访捷克 外交部回应联合利华开始重组专访95后高颜值猪保姆胖东来员工每周单休无小长假男子被流浪猫绊倒 投喂者赔24万小米汽车超级工厂正式揭幕黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发当地回应沈阳致3死车祸车主疑毒驾恒大被罚41.75亿到底怎么缴妈妈回应孩子在校撞护栏坠楼外国人感慨凌晨的中国很安全杨倩无缘巴黎奥运校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变王树国卸任西安交大校长 师生送别手机成瘾是影响睡眠质量重要因素国产伟哥去年销售近13亿阿根廷将发行1万与2万面值的纸币兔狲“狲大娘”因病死亡遭遇山火的松茸之乡“开封王婆”爆火:促成四五十对奥巴马现身唐宁街 黑色着装引猜测考生莫言也上北大硕士复试名单了德国打算提及普京时仅用姓名天水麻辣烫把捣辣椒大爷累坏了

两个鬼故事 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化