3月14日消息,美国当地时刻周一,微软发文泄漏其斥资数亿美元帮助OpenAI拼装了一台AI超级核算机,以帮助开发爆火的谈天机器人ChatGPT。这台超算运用了数万个英伟达图形芯片A100,这使得OpenAI能够练习越来越强壮的AI模型。
OpenAI企图练习越来越大的AI模型,这些模型正在吸收更多的数据,学习越来越多的参数,这些参数是AI体系经过练习和再练习找出的变量。这意味着,OpenAI需要很长时刻才干取得强壮的云核算服务支撑。
为应对这一应战,当微软于2019年向OpenAI出资10亿美元时,该公司同意为这家AI研讨草创公司拼装一台巨大的顶级超级核算机。但问题在于,微软没有任何OpenAI所需的东西,也不完全确认其能否能在不破坏Azure云服务的情况下构建如此巨大的设备。
为此,微软不得不想方设法将英伟达的数万个A100图形芯片连接起来,并改动服务器在机架上的放置办法以避免断电。A100图形芯片是练习AI模型的主力。微软担任云核算和AI事务的履行副总裁斯科特·格思里(Scott Guthrie)没有泄漏该项意图具体本钱,但其暗示或许达数亿美元。
微软Azure AI基础设施总经理尼迪·卡佩尔(Nidhi Cappell)说:“咱们构建了一个体系构架,它可以在非常大的范围内运转且非常牢靠,这是ChatGPT成功的重要原因。这仅仅咱们从中得出的一个形式,还会有许许多多其他的模型。”
根据这项技能,OpenAI发布了爆火的谈天机器人ChatGPT。在上一年11月上线后几天,它就招引了100多万用户,现在正被归入其他公司的商业形式。跟着企业和顾客对ChatGPT等生成式人工智能(AIGC)东西的爱好越来越大,微软、亚马逊和谷歌等云服务供给商将面对更大的压力,以保证他们的数据中心能够供给所需的巨大算力。
与此一起,微软现在也开端运用它为OpenAI构建的基础设施来练习和运转自己的大型AI模型,包含上个月推出的新必应查找谈天机器人。该公司还向其他客户出售该体系。这家软件巨头现已在研制下一代AI超级核算机,这是微软与OpenAI扩展协作的一部分,微软在买卖中添加了100亿美元出资。
格思里在承受采访时说:“咱们并没有为OpenAI定制任何东西,虽然其开端是定制的,但咱们总是以一种泛化的办法构建它,这样任何想要练习大型言语模型的人都可以运用相同的改善技能。这真的帮助咱们在更广泛的范围内成为更好的AI智能云。”
练习规划巨大的AI模型需要在某个当地有很多彼此连接的图形处理单元,就像微软拼装的AI超级核算机那样。一旦模型投入运用,答复用户查询的一切问题(这个进程称为推理)需要略有不同的设置。为此,微软还布置了用于推理的图形芯片,但这些处理器(不计其数个)在地理上涣散在该公司60多个数据中心里。微软表明,现在该公司正在添加用于AI工作负载的最新英伟达图形芯片H100以及最新版Infiniband网络技能,以更快地同享数据。
新的必应仍处于测验阶段,微软正在逐渐从请求测验名单中添加更多用户。格思里的团队与大约20多名职工每天都要举办会议,他将这些职工称为“pit crew”,原指赛车中车队后勤保护组的技师。这些人的工作是找出如何让更多的核算才能快速上线,以及处理忽然呈现的问题。
云服务依靠于数千个不同的部件,包含服务器、管道、修建物的混凝土、不同的金属和矿藏,而任何一个组件的推迟或缺少,聚集多么细小,都或许导致整个项目中止。最近,“pit crew”团队不得不帮助处理电缆托盘缺少的问题,这是一种篮状的设备,用来固定从机器上顺下来的电缆。因而,他们规划了一种新的电缆桥架。格思里说,他们还致力于研讨如何在世界各地的现有数据中心压榨尽或许多的服务器,这样他们就不用等候新的修建竣工。
当OpenAI或微软开端练习大型AI模型时,这项工作需要一次完结。工作被分配给一切的GPU,在某些时候,这些GPU需要彼此交流来分享他们所做的工作。对于AI超级核算机,微软有必要保证处理一切芯片之间通讯的网络设备能够处理这种负载,而且它有必要开宣布最大极限地运用GPU和网络设备的软件。该公司现在现已开宣布一种软件,可以用来练习数十万亿个参数的AI模型。
由于一切机器都是一起发动的,微软不得不考虑安放它们的方位,以及电源该应该放在哪里。不然,数据中心终究或许会断电。Azure全球基础设施总监阿利斯泰尔·斯皮尔斯(Alistair Speirs)说,微软还有必要保证能够冷却一切这些机器和芯片,该公司在较凉快的气候中运用蒸腾;冷却办法、在较冷的气候中运用室外空气,在酷热的气候中运用高科技沼地冷却器。
格思里说,微软将持续致力于定制服务器和芯片规划,以及优化供应链的办法,以尽或许地进步速度、进步功率和节约本钱。他说:“现在令世界惊叹的AI模型是根据咱们几年前开端制作的超级核算机构建的,而新模型将运用咱们现在正在练习的新超级核算机。这台核算机要大得多,可以完成更杂乱的技能。”
微软现已在努力使Azure的AI功用愈加强壮,推出了新的虚拟机,运用英伟达的H100和A100 Tensor Core GPU,以及Quantum-2 InfiniBand网络。微软表明,这将答应OpenAI和其他依靠Azure的公司练习更大、更杂乱的AI模型。
微软Azure AI企业副总裁埃里克·博伊德(Eric Boyd)在一份声明中说:“咱们发现,咱们需要构建专门的集群,专心于支撑很多的练习工作,而OpenAI便是前期的依据之一。咱们正与他们密切协作,了解他们在树立练习环境时需要的要害条件,以及他们需要的其他东西。”(小小)