Onderzoek: ‘AI gaat forse impact hebben op de colo-markt’

10 augustus 2023

De ontwik­ke­lingen op het gebied van kunst­ma­tige intel­li­gentie (AI) zullen een aanzien­lijke impact hebben op colocatie-data­cen­ters. Cloud­dien­sten die AI-gestuurde appli­ca­ties en processen kunnen onder­steunen, zullen in trek blijven naarmate orga­ni­sa­ties AI-gestuurde appli­ca­ties en processen gaan gebruiken, stellen Stéphane Piot en Sylvain Loizeau, markt­ana­listen bij Analys Mason in een onlangs gepu­bli­ceerde blogpost.

Multi-node computing wordt vaak gebruikt in AI-workloads om complexe bere­ke­ningen uit te voeren. Om de bott­le­neck­ef­fecten die worden veroor­zaakt door commu­ni­catie tussen reken­knoop­punten te mini­ma­li­seren, hebben deze gedis­tri­bu­eerde systemen verbin­dingen met grote band­breedte en lage latentie nodig. Er zijn twee manieren om wrijving te vermin­deren in een bepaalde systeem­ar­chi­tec­tuur van een centrale/​grafische/​tensorverwerkingseenheid:

door de dichtheid van reken- en memory-chipsets op server­borden te vergroten (intra-board en intra-rack)
door netwerken in te zetten die zijn gebaseerd op stan­daarden zoals Infi­ni­Band en die zijn voorzien van speciale high-speed glas­ve­zel­ver­bin­dingen (inter-rack).
Het trainen van grote AI-modellen vergt veel reken­kracht. De training van een groot taalmodel (LLM) met ongeveer 100 miljard para­me­ters kan al gauw 1000 petaf­lops­dagen in beslag nemen. Ofwel: ongeveer 33 dagen als het model wordt getraind met 30 petaflops.

Infe­rentie- en trai­nings­wor­kloads voor AI-modellen vereisen complexe matrix­be­re­ke­ningen. Gelukkig kunnen gespe­ci­a­li­seerde proces­sors die voor deze taken zijn ontworpen de benodigde tijd en middelen vermin­deren. Meer gespe­ci­a­li­seerde proces­sors vervangen tradi­ti­o­nele centrale verwer­kings­een­heden (CPU’s) voor AI-workloads omdat deze relatief inef­fi­ciënt zijn in matrix- en tensor­be­re­ke­ningen. Oorspron­ke­lijk ontwik­keld om 3D-graphics weer te geven, zijn grafische verwer­kings­een­heden (GPU’s) in staat tot ‘algemene’ bere­ke­ningen die AI-workflows kunnen versnellen. AI-speci­fieke ASIC’s, zoals Tensor Proces­sing Units (TPU’s), zijn ontwik­keld om de snelheden verder te verhogen. Deze gespe­ci­a­li­seerde proces­sors blinken uit in AI-gere­la­teerde bere­ke­ningen. Ze zijn echter duur, schaars en vereisen veel stroom. Bovendien, zo citeren de analisten van Analys Mason de data­cen­ter­spe­ci­a­list Danseb Consul­ting, zullen relaties met chip­fa­bri­kanten van cruciaal belang zijn, waarbij één co-loca­tie­pro­vider zelfs stelt dat ‘je een part­ner­schap met NVIDIA nodig hebt om AI te ondersteunen’.

Met krachtige GPU’s en AI-speci­fieke proces­sors geïn­te­greerd in server­borden en racks, stuwen high-density proces­sors de gewenste vermo­gens­dicht­heid per rack naar nieuwe hoogten. Hoewel ASIC’s zoals TPU’s zijn ontworpen om ener­gie­zui­niger te zijn dan GPU’s, moeten data­cen­te­r­ex­ploi­tanten er vanuit gaan dat de vermo­gens­dicht­heid toeneemt, wat prak­ti­sche impli­ca­ties heeft. Het gemid­delde stroom­ver­bruik van een rack met GPU’s is ongeveer 50 kW, ver boven het huidige gemid­delde van maximaal 10 kW. Op basis van de recente toename van de vraag naar racks die meer dan 30 kW aan kunnen voor AI-toepas­singen, gelooft Danseb Consul­ting dat de reken­kracht die nodig is voor AI een aanzien­lijke kans creëert voor de datacenterindustrie.

Naarmate de vermo­gens­dicht­heid van racks toeneemt, zullen data­cen­ter­fa­ci­li­teiten over het algemeen meer stroom nodig hebben om te voorkomen dat de stroom opraakt, terwijl de data­hallen maar halfvol zijn. Exploi­tanten van data­cen­ters zullen daarom ener­gie­dis­tri­bu­tie­sys­temen moeten upgraden, inclusief power condi­ti­o­ners en trans­for­ma­toren, backup-gene­ra­toren en UPS-systemen en de toege­nomen eisen aan het elek­tri­ci­teitsnet bespreken met nutsbedrijven.

De vermo­gens­dicht­heid van een rack verhoogt ook de hoeveel­heid warmte die moet worden afgevoerd. Momenteel maken data­cen­ters gebruik van tradi­ti­o­nele lucht­koe­lings­me­thoden, die een ener­gie­dicht­heid van een rack tot 20 kW kunnen onder­steunen. Data­cen­ters zullen waar­schijn­lijk hun koel­sys­temen moeten verbe­teren als de rack­dicht­heid dit punt over­schrijdt, bijvoor­beeld door hun koude­bronnen, zoals koel­ma­chines of koel­to­rens, te upgraden. Door de over­dracht van warmte tussen warme en koude bronnen te opti­ma­li­seren, kunnen geavan­ceerde warm­te­wis­se­laars ook de koel­ef­fi­ci­ëntie verbe­teren. Ook vloei­stof­koe­ling komt dan serieus in beeld.

Deze infra­struc­tu­rele en archi­tec­tu­rale verschui­vingen hebben aanzien­lijke impli­ca­ties voor de colo­ca­tie­markt, stellen de AM-analisten. Het upgraden van bestaande data­cen­ter­fa­ci­li­teiten om te voldoen aan de eisen van AI-workloads kan complex zijn en veel inves­te­ringen vereisen, vooral in faci­li­teiten met beperkte ruimte voor extra koeling- en stroom­con­di­ti­o­ne­ring en stroom­be­schik­baar­heid. Dit laatste omdat lokale onder­sta­tions mogelijk vol zijn.

De instal­latie van geavan­ceerde koel­tech­no­lo­gieën vereist een zorg­vul­dige planning, vooral voor faci­li­teiten die al draaien. Het vereist ook aanzien­lijke inves­te­ringen, vooral als derge­lijke upgrades moeten worden uitge­voerd op hypers­cale faci­li­teiten, menen de analisten. Dankzij dark fiber-verbin­dingen binnen en tussen data­cen­ters kunnen gebrui­kers hun AI-reken­knoop­punten en ‑workflows efficiënt en met het protocol van hun keuze verbinden. Denk hierbij aan met name aan InfiniBand.

Pin It on Pinterest

Share This