Arista levert holistische AI-oplossingen in samenwerking met NVIDIA

30 mei 2024

Arista Networks heeft AI-data­cen­ter­tech­no­logie aange­kon­digd, in samen­wer­king met NVIDIA, om computer- en netwerk­do­meinen op één lijn te brengen als één beheerde AI-entiteit. Voor het bouwen van optimale gene­ra­tieve AI-netwerken die taken sneller verwerken, kunnen klanten AI-clusters op een uniforme wijze confi­gu­reren, beheren en monitoren. Dat kan vanaf nu over alle belang­rijke bouw­stenen, waaronder netwerken, NIC’s en servers. Deze demon­stratie van nieuwe tech­no­logie is de eerste stap richting een multi-vendor, inter­o­pe­rabel ecosys­teem dat controle en coör­di­natie tussen AI-netwerken en AI-computers mogelijk maakt.

Behoefte aan uniforme controles 

Naarmate AI-clusters en grote taal­mo­dellen (LLM’s) groeien, groeit ook de complexi­teit en het volume van andere delen van de totale AI-puzzel. GPU’s, NIC’s, switches, optics en kabels moeten optimaal samen­werken om een holis­tisch netwerk te vormen. Klanten hebben uniforme controles nodig tussen hun AI-servers die NIC’s en GPU’s hosten, en de AI-netwerks­wit­ches op verschil­lende niveaus. 

Alle elementen zijn van elkaar afhan­ke­lijk voor een correcte verwer­king van AI-taken, maar werken in de praktijk onaf­han­ke­lijk van elkaar. Dit kan leiden tot een verkeerde confi­gu­ratie of verkeerde afstem­ming tussen onder­delen van het hele ecosys­teem, zoals tussen NIC’s en switches. Met als mogelijk gevolg een onge­wenste impact op de voltooiing van taken in de tijd, omdat netwerk­pro­blemen moeilijk te diagnos­ti­ceren kunnen zijn. Grote AI-clusters vereisen tevens geco­ör­di­neerd congestie­be­heer om pakket­ver­liezen en onder­be­nut­ting van GPU’s te voorkomen, evenals geco­ör­di­neerd beheer en moni­to­ring om de computer- en netwerk­bronnen tege­lij­ker­tijd te kunnen optimaliseren.

Introductie van de Arista AI-agent

De kern van de AI-oplossing is een op Arista EOS geba­seerde agent waarmee het netwerk en de host onderling kunnen commu­ni­ceren en confi­gu­ra­ties kunnen coör­di­neren om AI-clusters te opti­ma­li­seren. Met behulp van een externe AI-agent is het EOS op Arista-switches uit te breiden naar recht­streeks aange­sloten NIC’s en servers, om één centraal punt van controle en zicht­baar­heid in een AI-data­center mogelijk te maken als holis­ti­sche oplossing. 

De externe AI-agent die direct op een NVIDIA BlueField‑3 SuperNIC wordt gehost, of op de server draait en tele­me­trie van de SuperNIC verzamelt, stelt EOS in staat om op de netwerks­witch netwerk­pro­blemen op de server te confi­gu­reren, te monitoren en te debuggen, voor end-to-end netwerk­con­fi­gu­ratie en QoS-consis­tentie. AI-clusters zijn daardoor als één homogene oplossing te beheren en te optimaliseren.

End-to-end AI-communicatie en ‑optimalisatie

De nieuwe tech­no­logie laat zien hoe een op Arista EOS geba­seerde externe AI-agent het mogelijk maakt het gecom­bi­neerde, onderling afhan­ke­lijke AI-cluster als één totaal­op­los­sing te beheren. EOS die in het netwerk draait is uit te breiden naar servers of SuperNIC’s via externe AI-agents, om onmid­del­lijke tracking en rappor­tage van pres­ta­tie­ver­min­de­ring of storingen tussen hosts en netwerken mogelijk te maken. Met als gevolg dat de veroor­za­kers snel kunnen worden geïso­leerd om de impact te reduceren. 

Omdat op EOS geba­seerde netwerks­wit­ches continu op de hoogte zijn van de exacte netwerk­t­o­po­logie, maakt het uitbreiden van EOS tot SuperNIC’s en servers met de externe AI-agent een geco­ör­di­neerde opti­ma­li­satie van end-to-end QoS tussen alle elementen in het AI-data­center mogelijk. Daarmee is de verwer­kings­tijd van AI-taken aanzien­lijk te verkorten.

Efficiëntie communicatie verbeteren

“Arista streeft ernaar de effi­ci­ëntie van de commu­ni­catie tussen het netwerk en de GPU-topologie te verbe­teren om de verwer­kings­tijden van alle taken te verbe­teren via een geco­ör­di­neerde orkestratie, confi­gu­ratie, validatie en moni­to­ring van reken­kracht versneld door NVIDIA SuperNICs en Arista-netwer­k­in­fra­struc­tuur”, zegt John McCool, Chief Platform Officier voor Arista Networks.

“De beste Arista-netwerk­plat­formen gecom­bi­neerd met NVIDIA’s compu­ter­plat­formen en SuperNIC’s maken geco­ör­di­neerde AI-data­cen­ters mogelijk. De nieuwe moge­lijk­heid om het Arista’s EOS uit te breiden met externe AI-agents op hosts belooft een oplossing te bieden bij een cruciale uitdaging van klanten met groot­scha­lige AI-clusters. Dat is mogelijk door één centraal punt van controle en zicht­baar­heid te bieden om de beschik­baar­heid en pres­ta­ties van AI te beheren als een holis­ti­sche oplossing”, zegt Zeus Kerravala, hoof­d­ana­list bij ZK Research.

Lees meer over de nieuwe AI-data­cen­ters in de blog van CEO en bestuurs­voor­zitter Jayshree Ullal.

Pin It on Pinterest

Share This