全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学
3038 0
2023-07-06

在2023年第四届中国数据中心绿色能源大会上,由CDCC、益企研讨院、中国智能计算产业联盟结合打造的“算力经济 算网交融”专场备受关注。来自不同范畴的专家、生态同伴、用户共同讨论以算力为中心消费要素的算力根底设备的革新与开展。

大模型需求大算力,当算力和网络的开展呈现一体共生之势时,从算网协同到算网交融,业务需求的变化会经过CPU、GPU、存储等IT设备传导到网络架构层面,即数据中心作为根底设备也会相应的产生自上而下的变化,英伟达网络亚太区高级总监宋庆春受邀列席本次论坛并细致分享了“大模型时期的NVIDIA网络计算”。

以下内容依据现场演讲整理:

说到大模型,首先就要提一下ChatGPT。今年ChatGPT的呈现标志着大模型时期曾经降临了,所以ChatGPT出来以后在全世界掀起了大模型热潮。在这个热潮中最火的几家公司,一个是OpenAI,一个是微软,还有一个公司是Facebook,就是Meta。OpenAI在锻炼它的GPT3的时分,用了几千颗NVIDIA的GPU,花了两年时间最终锻炼出ChatGPT这么一个历史性的模型。在ChatGPT出来以后,OpenAI并没有停下来他们的脚步,不断在持续锻炼它的GPT4,以至也在研讨他们的GPT5。OpenAI和微软协作得十分严密,如今它本人的算力远远不够了,用的就是微软的Azure公有云来锻炼它的新模型。

Meta也在用微软的公有云来锻炼它的大模型,叫OPT。还有在元宇宙应用中的各种模型。Meta除了本人建了多个超越万卡的集群以外,也在用微软的云在锻炼它的模型。

为什么大家都在选择微软的Azure云来锻炼他们的大模型呢?用微软的CTO一句话来讲,在微软的Azure云上有三个关键技术,能确保Azure的AI云能提供全世界最好的大模型的锻炼性能。在这里其中有两个要素跟网络相关,一个是NVIDIA的NVLink网络,一个就是NVIDIA的InfiniBand网络。所以今天我们的重心会放在网络上来停止讨论。

在几周前的Computex2023上,NVIDIA的CEO黄仁勋提出了将来数据中心市场的走向,数据中心正在往云的方向转型。将来数据中心会走向三个方向:第一个是传统的云,由于我们有很多传统业务需求传统的云来提供效劳;第二个是生成式AI云,由于如今AI业务变得越来越多,我们的生活曾经离不开AI了,为我们的用户提供AI云的效劳,需求有十分强大的算力平台,在这个算力平台里就会包括计算平台,包括通讯平台,所以生成式AI云也是将来的开展趋向;还有一个更大的云的趋向,这个云就是将来的AI工厂,大模型的呈现标志着AI会往超大范围的场景上变化。

ChatGPT呈现之前,大家对AI有一定理解的话,会看到AI有很多不同的分支,我们有基于计算视觉(Computing Vision,CV)的,有基于NLP自然言语处置的,还有特地针对多媒体的,模型的分支很多。但是当以GPT为代表的多模态的大模型呈现以后,模型逐步走向统一。当模型走向统一之后,将来提供锻炼效劳的平台,其实会变成十分单纯、但是十分强大,有很大很大算力的平台。这个平台我们就叫它AI云,由于它跟传统的云和数据中心的目的完整不一样的,它追求的就是很单纯的几个模型,或许是一个,或许是有限的几个,但是我要让这个模型的性能发挥到淋漓尽致。所以在这里需求有最强的计算平台,像最强的GPU,也需求最强的网络平台。

当我们的锻炼平台把1个GPU,或者是1台GPU效劳器拓展到几千个几万个GPU的时分,单一的高性能的GPU,或者单一的高性能效劳器曾经不再决议这个系统的性能。在这样的AI工厂里,NVLink加上InfiniBand(IB)网络,将是一个黄金伙伴,会成为我们将来构建AI工厂必不可少的关键网络。

在生成式AI里面,我们能够用NVLink,也能够用InfiniBand,但是在生成式AI云上面,我们还要提供一些云的效劳,所以会有一些用户比拟倾向于用以太网。NVIDIA也向市场上推出了十分高性能的以太网,叫Spectrum-X,是一套以太网端到端的处理计划。Spectrum-X里面包括了NVIDIA的DPU、NVIDIA Spectrum-4以太网交流机,NVIDIA高性能的LINK-X的网线,以及上面运转的一切的软件,这是一个整体的Package。这样就处理了喜欢以太网的用户要追求高性能的需求。相比InfiniBand和InfiniBand + NVLink的组合,Spectrum-X的性能还是稍微要低一些,但是相比起传统的数据中心的以太网,Spectrum-X的性能,借用国内常说的一句话,叫“遥遥抢先”。所以关于我们在构建将来的生成式AI云、构建AI工厂,选择高性能网络是一个不可防止的趋向。

基于前面的讨论,NVIDIA提供了端到端的处理计划,包括了NVIDIA的交流机、NVIDIA的DPU、NVIDIA的CPU、NVIDIA的GPU。基于这么高性能的计算平台,我们能够来支持HPC的应用,支持AI的应用,支持数字孪生Omniverse的应用场景。这三个应用场景就能够涵盖将来方才我谈到的三个云上一切的应用

我们在谈生成式AI,在谈AI工厂的时分,性能是我们独一的目的。最高的性能、最低的功耗,是我们两个最关键的追求,其他的都会让位于这两个追求。在数据中心里,在我们的AI工厂,在我们的生成式AI云里面,面临的主要是四个应战。

首先,我们要应战如何让我们里面的资源应用率更高。在AI的应用场景中,经常会呈现计算的时分没有通讯,通讯的时分没有计算,如何处理这个问题呢?我们如今需求一个新的技术,让计算和通讯完成堆叠,这样就能够把通讯时间躲藏在计算时间里。从应用的角度来讲,仿佛觉得到我这边没有通讯了,这时应用的性能能够大幅度的提升。如今NVIDIA网络计算技术曾经帮我们提供了答案,处理了问题。

其次,在大模型时期,比方说拿GPT3来说,我们在锻炼GPT3的时分普通需求128个GPU去跑一个模型,需求锻炼45TB的数据。假如跑一个模型来锻炼完45TB这么庞大的数据,可能要花好几年,在对大模型需求这么急切的时期,肯定是来不及的。这时分就需求把模型分散在很多个GPU上。但是把任务和模型参数分散到很多个GPU以后,每个GPU之间就变成了强关联和紧耦合的状态。假如有一个GPU锻炼完了,另外一个GPU没有锻炼完,锻炼完的GPU向另外一个GPU传数据的时分,没有锻炼完的GPU的数据传输不过去,就招致每次迭代的时间都会被那个慢的GPU给拉长,这就会产生长尾。在我们的业务过程中,哪次通讯呈现了长尾,都会对我们的性能产生影响,怎样处理这个问题?NVIDIA经过本人的网络计算技术,处理了这个长尾问题。

第三,在云上可能有多个任务同时运转,我们需求有计算业务,需求存储业务,还需求做平安、管理等等这方面的工作,这时分每个任务有可能相互干扰,这种干扰我们叫它颤动(Jitter)。如今NVIDIA也经过NVIDIA的DPU网络计算技术,把这些问题都给处理了。

第四,我们提到了在将来的AI工厂里,或者生成式AI云里面,我们会跑多个不同的大任务。当我们在跑多个不同任务的时分,我希望每个任务都能到达最优的性能,它的性能跟只跑这一个任务的时分是一模一样的。而不是说跑一个任务的时分性能很好,由于我一切的资源都给它了,但是我跑多个任务的时分,多个任务之间相互干扰,招致每个任务的性能都不好——这不是我们想要看到的。所以,我们要做每个业务的性能隔离。如今NVIDIA也经过网络计算技术,完成了业务的性能隔离。从有数据中心以来,历来没有完成过任务的性能隔离,如今NVIDIA经过我们的网络技术率先完成了,这是一个里程碑式的创新。

谈到网络计算时分,我们会来谈两局部。一个是在我们的Host里面,我们需求插网卡和DPU,我们赋予了DPU一个计算才能。我们的网络不只仅在数据中心里做数据的传输,网络还作为数据中心的计算单元之一,它直接参与到业务的计算当中来,这跟我们以前对网络的了解是不一样的。以前的网络只是转发数据和传输数据,如今不只仅是转发和传输数据,也在做计算。这个图就引见了用它参与计算,像UCC是特地用来做Collective操作,特地用来做汇合通讯操作的。汇合通讯操作在大模型锻炼里是十分十分重要的通讯模型,能够经过DPU完成对汇合通讯的十分高性能的优化。

接下来谈一下为什么DPU成了我们的计算单元。在数据中心里,常常需求做一些平安加密,由于我们希望数据中心承受外来访问的时分不要形成平安隐患。用https去访问网页的时分,所用的数据加密方式就是IPSec。假如用CPU来跑IPSec,可能对100G的数据流量能加密的只要30%,70%没有方法加密。如今我们能够把加密的计算放到了NVIDIA DPU上面来做,能够对100G、200G、400G这样的网络流量完成100%的加密,同时它不耗费任何CPU资源。一方面,得到了最高的性能,另一方面,经过DPU的IPSec的卸载能够让CPU花在加解密的功耗大幅度降低,就能够俭省电力。假如是一个1万台效劳器的平台,在3年里能够俭省到1400万美金的电费。

再有一个,我们经过我们的DPU网络计算技术能够完成GPU和DPU计算的完整堆叠,经过适宜的优化,它的堆叠率能够到达100%,这意味着什么?意味着我的业务不会感知到通讯,通讯变成零了,实践上在它的背后有大量通讯的,但是我们经过网络计算技术把通讯躲藏在了计算背后。

方才我们谈的是在Host端的网络计算,还有一个网络计算技术是在交流机端的网络计算。以前我们交流机只是转发数据,如今交流机不只是转发数据,它也直接参与到了AI锻炼里面来。我们能够举一个例子,在大模型的锻炼中,需求做数据并行的时分,会对数据做AllReduce的处置。AllReduce处置之前需求把数据传输到每一台效劳器上,如今只需这个数据传到了交流机上,交流机就会把AllReduce这个操作做完了。

比方这个例子,这5个Host里面,它的数据做完计算,送到了交流机,交流机就会做一次AllReduce,它往后面送数据的时分,它就不用再把一切的原始数据再往上送了,只是把它做完AllReduce的一个数据再往后送就能够了。当送到最顶上的交流机以后,这时分顶上这个交流机就能够把送上来的一切数据都做完AllReduce,然后它再做一个播送(Broadcast)就能够把这个数据都返回到Host。经过这样的方式,能够让它在人工智能的锻炼里得到大幅度的性能提升。

大家能够看一下这个数据,这里罗列了128个GPU、256个GPU,不断到1000个GPU来做锻炼的状况。假如用了交流机上的AllReduce(实线)的结果,它的性能比没有用交流机AllReduce(虚线)的结果大幅地提升了。同时,这是一个200G的网络,物理带宽只能到达200G,但实践上用了交流机上的网络计算技术后,带宽到达了240G、250G,以至如今最新的数据能够到达260G,打破了传统的思想。在传统思想中,假定高速公路宽度只能跑4辆车,假如并排5辆车就跑不了。但是如今经过网络计算技术,即使是4车道的高速公路,能够让5辆车以至是6辆车并行地跑,这完整推翻了我们的概念。这就是经过交流机网络计算给我们带来的价值。


还有动态路由。面对一个十分大范围的网络的时分,我希望网络里的流量能够很平衡地分散开来。经过NVIDIA网络计算技术,交流机能够动态地预算每个链路上的忙碌情况,把流量均匀分配到最适宜的网络链路上去。

再有一个例子,当我们构建一个大模型锻炼集群的时分,一定不能假定这个集群不会出问题,一定要假定会出问题。当它出了问题以后,我们能够经过交流机的网络计算技术,自动就把这个问题躲避过去,让我们的应用不会有任何的感知。

刚刚我们谈到了性能隔离,经过性能隔离技术,让它在AI工厂里每个业务都能够到达只运转一个模型的性能,各个模型之间不会有任何的干扰,与在超算里的业务场景一模一样。

最后做一个总结,为了能让我们的用户在锻炼它的模型的时分能更快的部署,NVIDIA有十分强大的一个参考架构,叫SuperPoD。这个参考架构中,NVIDIA在不停地停止优化和晋级换代,为用户提供最新的软硬件一体化计划。NVIDIA本人搭建了基于InfiniBand的网络平台、基于以太网的锻炼平台,这样就能够给一切的用户提供第一手的协助,能最快地分享到我们的用户手上去。

益企研讨院秉承“全栈数据中心”理念,自2018年发起“数字中国万里行”。分离多年来对CPU、GPU等算力技术开展的持续追踪,最近发布业界首个以算网交融为中心的多元算力研讨报告:《算力经济时期·2023新型算力中心调研报告》。2023年7月,我们将继续开启新一年度“数字中国万里行”,欢送各位专家和从业者垂询。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群