De ontwikkelingen op het gebied van kunstmatige intelligentie (AI) zullen een aanzienlijke impact hebben op colocatie-datacenters. Clouddiensten die AI-gestuurde applicaties en processen kunnen ondersteunen, zullen in trek blijven naarmate organisaties AI-gestuurde applicaties en processen gaan gebruiken, stellen Stéphane Piot en Sylvain Loizeau, marktanalisten bij Analys Mason in een onlangs gepubliceerde blogpost.
Multi-node computing wordt vaak gebruikt in AI-workloads om complexe berekeningen uit te voeren. Om de bottleneckeffecten die worden veroorzaakt door communicatie tussen rekenknooppunten te minimaliseren, hebben deze gedistribueerde systemen verbindingen met grote bandbreedte en lage latentie nodig. Er zijn twee manieren om wrijving te verminderen in een bepaalde systeemarchitectuur van een centrale/grafische/tensorverwerkingseenheid:
door de dichtheid van reken- en memory-chipsets op serverborden te vergroten (intra-board en intra-rack)
door netwerken in te zetten die zijn gebaseerd op standaarden zoals InfiniBand en die zijn voorzien van speciale high-speed glasvezelverbindingen (inter-rack).
Het trainen van grote AI-modellen vergt veel rekenkracht. De training van een groot taalmodel (LLM) met ongeveer 100 miljard parameters kan al gauw 1000 petaflopsdagen in beslag nemen. Ofwel: ongeveer 33 dagen als het model wordt getraind met 30 petaflops.
Inferentie- en trainingsworkloads voor AI-modellen vereisen complexe matrixberekeningen. Gelukkig kunnen gespecialiseerde processors die voor deze taken zijn ontworpen de benodigde tijd en middelen verminderen. Meer gespecialiseerde processors vervangen traditionele centrale verwerkingseenheden (CPU’s) voor AI-workloads omdat deze relatief inefficiënt zijn in matrix- en tensorberekeningen. Oorspronkelijk ontwikkeld om 3D-graphics weer te geven, zijn grafische verwerkingseenheden (GPU’s) in staat tot ‘algemene’ berekeningen die AI-workflows kunnen versnellen. AI-specifieke ASIC’s, zoals Tensor Processing Units (TPU’s), zijn ontwikkeld om de snelheden verder te verhogen. Deze gespecialiseerde processors blinken uit in AI-gerelateerde berekeningen. Ze zijn echter duur, schaars en vereisen veel stroom. Bovendien, zo citeren de analisten van Analys Mason de datacenterspecialist Danseb Consulting, zullen relaties met chipfabrikanten van cruciaal belang zijn, waarbij één co-locatieprovider zelfs stelt dat ‘je een partnerschap met NVIDIA nodig hebt om AI te ondersteunen’.
Met krachtige GPU’s en AI-specifieke processors geïntegreerd in serverborden en racks, stuwen high-density processors de gewenste vermogensdichtheid per rack naar nieuwe hoogten. Hoewel ASIC’s zoals TPU’s zijn ontworpen om energiezuiniger te zijn dan GPU’s, moeten datacenterexploitanten er vanuit gaan dat de vermogensdichtheid toeneemt, wat praktische implicaties heeft. Het gemiddelde stroomverbruik van een rack met GPU’s is ongeveer 50 kW, ver boven het huidige gemiddelde van maximaal 10 kW. Op basis van de recente toename van de vraag naar racks die meer dan 30 kW aan kunnen voor AI-toepassingen, gelooft Danseb Consulting dat de rekenkracht die nodig is voor AI een aanzienlijke kans creëert voor de datacenterindustrie.
Naarmate de vermogensdichtheid van racks toeneemt, zullen datacenterfaciliteiten over het algemeen meer stroom nodig hebben om te voorkomen dat de stroom opraakt, terwijl de datahallen maar halfvol zijn. Exploitanten van datacenters zullen daarom energiedistributiesystemen moeten upgraden, inclusief power conditioners en transformatoren, backup-generatoren en UPS-systemen en de toegenomen eisen aan het elektriciteitsnet bespreken met nutsbedrijven.
De vermogensdichtheid van een rack verhoogt ook de hoeveelheid warmte die moet worden afgevoerd. Momenteel maken datacenters gebruik van traditionele luchtkoelingsmethoden, die een energiedichtheid van een rack tot 20 kW kunnen ondersteunen. Datacenters zullen waarschijnlijk hun koelsystemen moeten verbeteren als de rackdichtheid dit punt overschrijdt, bijvoorbeeld door hun koudebronnen, zoals koelmachines of koeltorens, te upgraden. Door de overdracht van warmte tussen warme en koude bronnen te optimaliseren, kunnen geavanceerde warmtewisselaars ook de koelefficiëntie verbeteren. Ook vloeistofkoeling komt dan serieus in beeld.
Deze infrastructurele en architecturale verschuivingen hebben aanzienlijke implicaties voor de colocatiemarkt, stellen de AM-analisten. Het upgraden van bestaande datacenterfaciliteiten om te voldoen aan de eisen van AI-workloads kan complex zijn en veel investeringen vereisen, vooral in faciliteiten met beperkte ruimte voor extra koeling- en stroomconditionering en stroombeschikbaarheid. Dit laatste omdat lokale onderstations mogelijk vol zijn.
De installatie van geavanceerde koeltechnologieën vereist een zorgvuldige planning, vooral voor faciliteiten die al draaien. Het vereist ook aanzienlijke investeringen, vooral als dergelijke upgrades moeten worden uitgevoerd op hyperscale faciliteiten, menen de analisten. Dankzij dark fiber-verbindingen binnen en tussen datacenters kunnen gebruikers hun AI-rekenknooppunten en -workflows efficiënt en met het protocol van hun keuze verbinden. Denk hierbij aan met name aan InfiniBand.