Arista introduceert intelligente innovaties voor AI-netwerken

13 maart 2025

Arista Networks intro­du­ceert geavan­ceerde moge­lijk­heden om de perfor­mance en effi­ci­ëntie van AI-clusters te maxi­ma­li­seren. Cluster Load Balancing (CLB) in Arista EOS maxi­ma­li­seert de perfor­mance van AI-workloads met consis­tente lage latency network flows, terwijl Arista Cloud­Vi­sion Universal Network Obser­va­bi­lity (CV UNO) nu AI-taak­ge­richte obser­vatie biedt voor betere oplossing en snelle infe­rentie van problemen. Dat zorgt voor betrouw­baar­heid bij het op grote schaal verwerken van AI-taken.

Slimme AI-netwerken mogelijk maken 

De Arista EOS Smart AI Suite is ontworpen voor robuust­heid en bescher­ming van de AI-kwaliteit. Het geeft AI-clusters een innovatie genaamd Cluster Load Balancing: een nieuwe op Ethernet geba­seerde oplossing voor AI-load balancing, op basis van ‘RDMA queue pairs’, die een hoog band­breed­te­ge­bruik tussen spines en leaves mogelijk maakt. 

AI-clusters hebben meestal kleine hoeveel­heden flows met grote band­breedte. Basis­me­thoden voor load balancing zijn vaak inef­fi­ciënt voor AI-workloads, wat resul­teert in een ongelijke verkeers­ver­de­ling en verhoogde tail-latency. CLB pakt dit aan door RDMA-bewuste flow placement te gebruiken, om uniforme hoge pres­ta­ties voor alle flows te garan­deren en tege­lij­ker­tijd de tail-latency te reduceren. CLB hanteert een globale aanpak en opti­ma­li­seert de verkeers­stroom in beide rich­tingen, leaf-to-spine en spine-to-leaf, wat zorgt voor een even­wichtig gebruik van resources en een consis­tente lage latentie.

“Nu Oracle zijn AI-infra­struc­tuur blijft uitbreiden met behulp van Arista-switches, zien we een behoefte aan geavan­ceerde load balancing-tech­nieken om flow­con­flicten te voorkomen en de doorvoer in ML-netwerken te verhogen”, aldus Jag Brar, vice president en Distin­guished Engineer, Oracle Cloud Infra­struc­ture. “De Cluster Load Balancing-func­ti­o­na­li­teit van Arista helpt daarbij.”

Holistische AI-observatie

CV UNO, het AI-gestuurde 3600 Network Obser­va­bi­lity-platform aange­stuurd door Arista AVA, levert end-to-end AI-job visi­bi­lity door netwerk‑, systeem- en AI-taakdata te verenigen binnen het Arista Network Data Lake (NetDL). EOS NetDL Streamer, een realtime framework voor tele­me­trie, streamt continu gede­tail­leerde netwerk­data van Arista-switches naar NetDL. In tegen­stel­ling tot tradi­ti­o­nele SNMP-polling, die afhan­ke­lijk is van peri­o­dieke query’s en kritieke updates kan missen, biedt EOS NetDL Streamer lage latentie, hoge frequentie, event­ge­stuurde inzichten in netwerk­pres­ta­ties, wat cruciaal is voor het opti­ma­li­seren van AI-training en inferentie-infrastructuur. 

Ontworpen voor AI-acce­le­ra­tor­clus­ters, versnelt het de impact­ana­lyse, loka­li­seert het problemen nauw­keurig en zorgt het voor een snelle oplossing, waardoor de tijden om taken te voltooien tot een minimum worden beperkt. Enkele van de belang­rijkste voordelen zijn:

  • AI Job Moni­to­ring – Geeft een uitge­breid overzicht van belang­rijke AI-job statis­tieken, inclusief job voltooi­ings­tijden, congestie-indi­ca­toren (ECN-gemar­keerde packets, PFC-pauze­frames, packet­drops) en buffer-/link­ge­bruik voor realtime-inzichten.
  • Deep-Dive Analytics – Ontdekt kritieke taak­spe­ci­fieke inzichten door netwerk­ap­pa­raten, server-NIC’s (bijv. PFC-out-of-sync-gebeur­te­nissen, RDMA-fouten, PCIe-fatale fouten) en bijbe­ho­rende flows te analy­seren, en geeft perfor­man­ce­knel­punten nauw­keurig aan.
  • Flow Visu­a­li­za­tion – Benut de kracht van CV-topo­lo­gie­map­ping om realtime, intuïtief inzicht te krijgen in AI-job flows met micro­se­conde-granu­la­ri­teit, wat de infe­rentie en oplossing van problemen versnelt.
  • Proac­tieve oplossing – Detec­teert anoma­lieën vroeg­tijdig en corre­leert netwerk- en compu­ter­pres­ta­ties binnen NetDL, wat zorgt voor onon­der­broken, zeer effi­ci­ënte uitvoe­ring van AI-workloads.

Arista AI Centers aangestuurd door AVA

Arista’s Etherlink AI-platforms zijn op stan­daarden geba­seerde Ethernet-systemen met een zeer hoge perfor­mance, voor volgende generatie AI-netwerken. Etherlink biedt 800G/​400G modulaire en gedis­tri­bu­eerde platforms, die toekomst­ge­richt  compa­tibel zijn met Ultra Ethernet Consor­tium (UEC), en is schaal­baar van kleine AI-clusters tot enorme imple­men­ta­ties met ruim 100.000 accelerators. 

Arista beschikt over de AI Analyzer, aange­stuurd door Arista AVA, die hoge-resolutie verkeers­data levert met inter­vallen van 100 micro­se­conden. Hiermee kunnen netwerk­be­heer­ders nauw­keurig de perfor­mance opti­ma­li­seren, snel problemen oplossen en welover­wogen beslis­singen nemen voor AI-gestuurde netwerken. Arista AVA voedt ook een externe EOS AI Agent, die tele­me­trie streamt van SuperNIC’s of servers naar NetDL, wat zorgt voor naadloze netwerk­be­wa­king, debugging en QoS-consis­tentie over de gehele stack.

Beschikbaarheid

  • CLB
    • Vanaf nu beschik­baar op de platforms 7260X3, 7280R3, 7500R3 en 7800R3.
    • Onder­steu­ning op de platforms 7060X6 en 7060X5 staat gepland voor Q2 2025
    • Onder­steu­ning voor 7800R4 staat gepland voor 2H 2025
  • CV UNO is vanaf nu beschik­baar. De obser­va­tie­ver­be­te­ringen voor AI worden nog door klanten getest, waarna de brede beschik­baar­heid gepland staat voor Q2 2025

Lees hier meer over de onder­steu­ning in de markt voor deze introductie.

Regi­streer u hier voor een webinar op 10 april 2025 om meer te weten te komen over de EOS Smart AI-suite en lees de blog van Praful Bhaidasna, directeur Product Mana­ge­ment bij Arista.

Pin It on Pinterest

Share This