AI的“iPhone 時刻”之后,英偉達(dá)新“核彈”為ChatGPT提速10倍

·英偉達(dá)在推理方面的全新GPU推理平臺包括:4種配置(L4 Tensor Core GPU、L40 GPU、H100 NVL GPU、Grace Hopper超級芯片)、一個體系架構(gòu)、一個軟件棧,分別用于加速AI視頻、圖像生成、大型語言模型部署和推薦系統(tǒng)。

“加速計(jì)算并非易事,2012年,計(jì)算機(jī)視覺模型AlexNet動用了GeForce GTX 580,每秒可處理262 PetaFLOPS。該模型引發(fā)了AI技術(shù)的爆炸?!薄笆曛螅琓ransformer出現(xiàn)了,GPT-3動用了323 ZettaFLOPS的算力,是AlexNet的100萬倍,創(chuàng)造了ChatGPT這個震驚全世界的AI。嶄新的計(jì)算平臺出現(xiàn)了,AI的‘iPhone時刻’已經(jīng)來臨?!?/p>

當(dāng)?shù)貢r間3月21日,英偉達(dá)首席執(zhí)行官黃仁勛將OpenAI的ChatGPT稱為人工智能的“iPhone時刻”,并在該公司的春季GTC大會上宣布了專為其設(shè)計(jì)的推理GPU(圖形處理器)。

除此之外,英偉達(dá)還發(fā)布了AI超級計(jì)算服務(wù)DGX Cloud、突破性的光刻計(jì)算庫cuLitho、加速企業(yè)創(chuàng)建大模型和生成式AI的云服務(wù)NVIDIA AI Foundations等,以及與Quantum Machines合作推出了全球首個GPU加速量子計(jì)算系統(tǒng)。

ChatGPT專用GPU

其中最主要的是H100 NVL,它將英偉達(dá)的兩個H100 GPU拼接在一起,以部署像 ChatGPT這樣的大型語言模型(LLM)?!爱?dāng)前唯一可以實(shí)際處理ChatGPT的GPU是英偉達(dá)HGX A100。與前者相比,現(xiàn)在一臺搭載四對H100和雙NVLINK的標(biāo)準(zhǔn)服務(wù)器速度能快10倍,可以將大語言模型的處理成本降低一個數(shù)量級。”黃仁勛說。

H100 NVL將英偉達(dá)的兩個 H100 GPU 拼接在一起,以部署像 ChatGPT 這樣的大型語言模型 (LLM)。

H100不是新的GPU,英偉達(dá)在一年前的GTC上展示了其Hopper架構(gòu),并在各種任務(wù)中加速AI推理(推理是機(jī)器學(xué)習(xí)程序部署的第二階段,此時運(yùn)行經(jīng)過訓(xùn)練的程序以通過預(yù)測來回答問題)。英偉達(dá)表示,H100 NVL附帶94GB內(nèi)存,與上一代產(chǎn)品相比,H100的綜合技術(shù)創(chuàng)新可以將大型語言模型的速度提高30倍。

據(jù)黃仁勛透露,H100 NVL預(yù)計(jì)將在今年下半年上市。

第二款芯片是用于AI Video的L4,在視頻解碼和轉(zhuǎn)碼、視頻內(nèi)容審核、視頻通話功能上做了優(yōu)化。英偉達(dá)稱其可以提供比CPU高120倍的AI視頻性能,同時能效提高99%。也就是說,一臺8-GPU L4服務(wù)器,將取代一百多臺用于處理AI視頻的雙插槽CPU服務(wù)器。

用于AI Video的L4芯片,在視頻解碼和轉(zhuǎn)碼、視頻內(nèi)容審核、視頻通話功能上做了優(yōu)化。

“谷歌是第一家提供L4視頻芯片的云提供商,目前處于私人預(yù)覽版。L4將集成到谷歌的Vertex AI模型商店中?!秉S仁勛說。除了谷歌的產(chǎn)品外,L4還在30多家計(jì)算機(jī)制造商的系統(tǒng)中提供,其中包括研華、華碩、源訊、思科、戴爾科技、富士通、技嘉、惠普企業(yè)、聯(lián)想、QCT和超微。

同時,英偉達(dá)還針對Omniverse、圖形渲染以及文本轉(zhuǎn)圖像/視頻等生成式AI推出了L40芯片。其性能是英偉達(dá)最受歡迎的云推理GPU T4的10倍。另外,英偉達(dá)還推出了全新的超級芯片Grace-Hopper,適用于推薦系統(tǒng)和大型語言模型的AI數(shù)據(jù)庫,圖推薦模型、向量數(shù)據(jù)庫和圖神經(jīng)網(wǎng)絡(luò)的理想選擇,通過900GB/s的高速一致性芯片到芯片接口連接英偉達(dá)Grace CPU和Hopper GPU。

4種配置(L4 Tensor Core GPU、L40 GPU、H100 NVL GPU、Grace Hopper超級芯片)、一個體系架構(gòu)、一個軟件棧,分別用于加速AI視頻、圖像生成、大型語言模型部署和推薦系統(tǒng)。

總體而言,英偉達(dá)在推理方面的全新GPU推理平臺包括:4種配置(L4 Tensor Core GPU、L40 GPU、H100 NVL GPU、Grace Hopper超級芯片)、一個體系架構(gòu)、一個軟件棧,分別用于加速AI視頻、圖像生成、大型語言模型部署和推薦系統(tǒng)。

月租云端AI算力

在黃仁勛的主題演講中,多次提到了ChatGPT的創(chuàng)建者OpenAI。黃仁勛于2016年向該公司交付了附有自己簽名和贈語的全球第一臺DGX。這臺集成了8塊通過NVLink共享算力的H100組成的超級計(jì)算機(jī),為OpenAI奠定了創(chuàng)造ChatGPT的重要算力基礎(chǔ)。

“自O(shè)penAI使用DGX以后,《財(cái)富》100強(qiáng)企業(yè)中有一半安裝了DGX AI超級計(jì)算機(jī)。DGX已成為AI領(lǐng)域的必備工具?!秉S仁勛說。

在GTC大會上,英偉達(dá)推出云端人工智能DGX Cloud。DGX Cloud提供了專用的 NVIDIA DGX AI超級計(jì)算集群,用戶能夠按月租用這些計(jì)算資源,并使用簡單的網(wǎng)絡(luò)瀏覽器訪問。從而消除在本地獲取、部署和管理基礎(chǔ)設(shè)施的成本,大大增加了AI的便捷性。

“如今通過一個瀏覽器,就能將DGX AI超級計(jì)算機(jī)即時地接入每家公司?!秉S仁勛憧憬道。

每個DGX Cloud實(shí)例都具有8個H100或A100 80GB Tensor Core GPU,每個節(jié)點(diǎn)共有640GB GPU內(nèi)存。

據(jù)介紹,每個DGX Cloud實(shí)例都具有8個H100或A100 80GB Tensor Core GPU,每個節(jié)點(diǎn)共有640GB GPU內(nèi)存。使用NVIDIA Networking構(gòu)建的高性能、低延遲結(jié)構(gòu)確保工作負(fù)載可以跨互連系統(tǒng)集群擴(kuò)展,允許多個實(shí)例充當(dāng)一個巨大的GPU,以滿足高級AI訓(xùn)練的性能要求。

據(jù)黃仁勛介紹,每個實(shí)例的月租價格為36999美元起。

在演講中,黃仁勛宣布,英偉達(dá)將與云服務(wù)提供商合作托管DGX云基礎(chǔ)設(shè)施。目前英偉達(dá)已經(jīng)與甲骨文達(dá)成合作,甲骨文的OCI RDMA Supercluster已經(jīng)提供了一個可擴(kuò)展到超過32000個GPU的超級集群。微軟云服務(wù)Azure預(yù)計(jì)下個季度開始托管DGX Cloud,很快谷歌云也將加入托管的行列。

挑戰(zhàn)物理極限,光刻提速40倍

除了芯片,黃仁勛還談到了一個名為cuLitho的計(jì)算光刻庫,它將部署在芯片制造中。光刻計(jì)算庫cuLitho可將計(jì)算光刻加速40倍以上,使得2nm及更先進(jìn)芯片的生產(chǎn)成為可能。

光刻計(jì)算庫cuLitho可將計(jì)算光刻加速40倍以上,使得2nm及更先進(jìn)芯片的生產(chǎn)成為可能。

全球最大晶圓廠臺積電、全球光刻機(jī)霸主阿斯麥、全球最大EDA巨頭新思科技均參與合作并引入這項(xiàng)技術(shù)。該計(jì)劃旨在加快制造光掩模的任務(wù),光掩模是用以將集成電路以及其他各種電路通過光刻技術(shù)印制在晶圓上的圖形母板,相當(dāng)于書籍印刷的母板。

計(jì)算光刻模擬了光通過光學(xué)元件并與光刻膠相互作用時的行為,應(yīng)用逆物理算法來預(yù)測掩膜板上的圖案,以便在晶圓上生成最終圖案。

光刻是芯片制造過程中最復(fù)雜、最昂貴、最關(guān)鍵的環(huán)節(jié),其成本約占整個硅片加工成本的1/3甚至更多。計(jì)算光刻模擬了光通過光學(xué)元件并與光刻膠相互作用時的行為,應(yīng)用逆物理算法來預(yù)測掩膜板上的圖案,以便在晶圓上生成最終圖案。

計(jì)算光刻是提高光刻分辨率、推動芯片制造達(dá)到2nm及更先進(jìn)節(jié)點(diǎn)的關(guān)鍵手段。

“計(jì)算光刻是芯片設(shè)計(jì)和制造領(lǐng)域中最大的計(jì)算工作負(fù)載,每年消耗數(shù)百億CPU小時。大型數(shù)據(jù)中心24X7全天候運(yùn)行,以便創(chuàng)建用于光刻系統(tǒng)的掩膜板。這些數(shù)據(jù)中心是芯片制造商每年投資近2000億美元的資本支出的一部分?!倍S仁勛說,cuLitho能夠?qū)⒂?jì)算光刻的速度提高到原來的40倍。

也就是說英偉達(dá)H100 GPU需要89塊掩膜板,在CPU上運(yùn)行時,處理單個掩膜板需要兩周時間,而在GPU上運(yùn)行cuLitho只需8小時。

據(jù)介紹,臺積電可通過在500個DGX H100系統(tǒng)上使用cuLitho加速,將功率從35MW降至5MW,替代此前用于計(jì)算光刻的40000臺CPU服務(wù)器。 使用cuLitho的晶圓廠,每天可以生產(chǎn)3-5倍多的光掩膜,僅使用當(dāng)前配置電力的1/9。

黃仁勛說,該軟件正被集成到全球最大的代工芯片制造商臺積電的設(shè)計(jì)系統(tǒng)中,臺積電將于6月開始對cuLitho進(jìn)行生產(chǎn)資格認(rèn)證。它還將被集成到Synopsys的設(shè)計(jì)軟件中,Synopsys是少數(shù)幾家使用軟件工具制造新芯片底板的公司之一。

新思科技董事長兼首席執(zhí)行官Aart de Geus稱,在英偉達(dá)的cuLitho平臺上運(yùn)行新思科技的光學(xué)鄰近校正(OPC)軟件,將性能從幾周加速到幾天。

臺積電首席執(zhí)行官魏哲家則夸贊它為臺積電在芯片制造中廣泛地部署光刻解決方案開辟了新的可能性,為半導(dǎo)體規(guī)?;龀鲋匾暙I(xiàn)。阿斯麥?zhǔn)紫瘓?zhí)行官Peter Wennink稱阿斯麥計(jì)劃將對GPU的支持集成到其所有的計(jì)算光刻軟件產(chǎn)品中。

其他更新

英偉達(dá)還推出了全新云服務(wù)及代工廠NVIDIA AI Foundations,這個云服務(wù)包括語言、視覺和生物學(xué)模型制作服務(wù)。

其中,NeMo是用于構(gòu)建定制的語言文本轉(zhuǎn)文本生成式模型。

NeMo是用于構(gòu)建定制的語言文本轉(zhuǎn)文本生成式模型。

Picasso是視覺語言模型構(gòu)建服務(wù),具有文生圖、文本轉(zhuǎn)視頻、文本轉(zhuǎn)3D功能,可為產(chǎn)品設(shè)計(jì)、數(shù)字孿生、角色創(chuàng)建等使用自然文本提示的應(yīng)用快速創(chuàng)建和定制視覺內(nèi)容。只要向Picasso發(fā)送文本提示和元數(shù)據(jù)的API調(diào)用,Picasso就會用DGX Cloud上的模型把生成的素材發(fā)送回應(yīng)用。

Picasso是視覺語言模型構(gòu)建服務(wù)。

而把這些素材導(dǎo)入NVIDIA Omniverse,就可以構(gòu)建逼真的元宇宙應(yīng)用,和數(shù)字孿生仿真。

BioNeMo是生命科學(xué)服務(wù),提供AI模型訓(xùn)練和推理,加速藥物研發(fā)中最耗時和成本最高的階段,可加速新蛋白質(zhì)和治療方法的創(chuàng)建以及基因組學(xué)、化學(xué)、生物學(xué)和分子動力學(xué)研究。

直接在瀏覽器上或通過API,均可訪問這些運(yùn)行在NVIDIA DGX Cloud上的云服務(wù)。NeMo、BioNeMo云服務(wù)已開放早期訪問,Picasso云服務(wù)正在私人預(yù)覽中。

英偉達(dá)與Quantum Machines合作推出了一個量子控制鏈路,它可將英偉達(dá)GPU連接到量子計(jì)算機(jī),以極快的速度進(jìn)行糾錯。

面向量子計(jì)算,要從量子噪聲和退相干中恢復(fù)數(shù)據(jù),需要對大量量子比特進(jìn)行糾錯。對此,英偉達(dá)與Quantum Machines合作推出了一個量子控制鏈路,它可將英偉達(dá)GPU連接到量子計(jì)算機(jī),以極快的速度進(jìn)行糾錯。

面向元宇宙領(lǐng)域,英偉達(dá)推出了第三代OVX計(jì)算系統(tǒng)和新一代工作站,為基于NVIDIA Omniverse Enterprise的大規(guī)模數(shù)字孿生提供動力。

面向元宇宙領(lǐng)域,英偉達(dá)推出了第三代OVX計(jì)算系統(tǒng)和新一代工作站,為基于NVIDIA Omniverse Enterprise的大規(guī)模數(shù)字孿生提供動力。微軟和英偉達(dá)正在將工業(yè)元宇宙引入Microsoft 365應(yīng)用程序(如Teams)和Azure云。

微軟也是Omniverse Cloud的首批云合作伙伴之一。英偉達(dá)的云服務(wù)預(yù)計(jì)將于今年下半年在Microsoft Azure上推出。Omniverse還將連接到Azure IoT,以便將來自 Azure Digital Twins的真實(shí)世界傳感器數(shù)據(jù)傳輸?shù)絆mniverse模型。

Omniverse Cloud還瞄準(zhǔn)了汽車行業(yè),寶馬、梅賽德斯-奔馳、沃爾沃、豐田和比亞迪等幾家大公司已經(jīng)在使用Omniverse執(zhí)行各種任務(wù)。

此外,英偉達(dá)與三菱聯(lián)合發(fā)布了將用于加速藥物研發(fā)的日本第一臺生成式AI超級計(jì)算機(jī)Tokyo-1。通過在Tokyo-1上使用NVIDIA BioNeMo軟件,研究人員能運(yùn)行高達(dá)數(shù)十億參數(shù)的先進(jìn)AI模型,包括蛋白質(zhì)結(jié)構(gòu)預(yù)測、小分子生成、姿態(tài)估計(jì)等。

標(biāo)題:AI的“iPhone 時刻”之后,英偉達(dá)新“核彈”為ChatGPT提速10倍

地址:http://www.17168cn.cn/gzdm/11181.html