Cloudflare verbetert AI-inferentieplatform met krachtige GPU-upgrade, snellere inferentie, grotere modellen, observeerbaarheid en verbeterde vectordatabase

27 september 2024

Cloud­flare heeft nieuwe moge­lijk­heden aange­kon­digd voor Workers AI en de beschik­bare bouw­stenen voor het ontwik­kelen van AI-apps. Workers AI is het server­loze AI-platform waarmee ontwik­ke­laars nu nog snellere, krach­ti­gere en beter pres­te­rende AI-apps kunnen maken. Apps die op Workers AI zijn gemaakt, profi­teren onder andere van snellere infe­rentie, grotere modellen en betere pres­ta­tie­sta­tis­tieken. Workers AI is het eenvou­digste platform om wereld­wijde AI-apps te maken en AI-infe­rentie dichter bij de gebruiker uit te voeren, waar ter wereld die zich ook bevindt.

Netwerklatentie verminderen

Aangezien large language models (LLM’s) kleiner en sneller worden, is de netwerk­snel­heid het knelpunt voor klanten die de LLM’s willen gaan gebruiken en naadloze inter­ac­ties met AI willen ervaren. Cloudflare’s wereld­wijde netwerk helpt netwerk­la­tentie te vermin­deren. Het onder­scheidt zich hiermee van andere netwerken die meestal uit gecon­cen­treerde bronnen in een beperkt aantal data­cen­ters bestaan. Cloudflare’s server­loze infe­ren­tie­plat­form, Workers AI, beschikt nu over GPU’s in meer dan 180 steden in de hele wereld. Het is gemaakt voor wereld­wijde toegan­ke­lijk­heid, zodat eind­ge­brui­kers van over de hele wereld van een lage latentie kunnen profi­teren. Met dit netwerk van GPU’s is Workers AI een van de grootste wereld­wijde AI-platforms. Workers AI is ontworpen om AI-infe­rentie lokaal en zo dicht mogelijk bij de gebruiker uit te voeren, zodat klant­ge­ge­vens dichter in de buurt blijven.

“Terwijl AI het afgelopen jaar populair werd, dacht niemand dat netwerk­snel­heden tot AI-latentie zouden leiden. Het ging hierbij immers om nieuwe, expe­ri­men­tele inter­ac­ties. Maar naarmate AI een steeds grotere rol in ons dagelijks leven speelt, worden het netwerk en milli­se­conden van cruciaal belang”, zegt Matthew Prince, mede­op­richter en CEO van Cloud­flare. “Terwijl AI-workloads van training naar infe­rentie opschuiven, worden de pres­ta­ties en regionale beschik­baar­heid van essen­tieel belang om de volgende fase van AI te onder­steunen. Cloud­flare is het meest wereld­wijde AI-platform op de markt. GPU’s in steden overal ter wereld zullen AI van een nieuw technisch snufje omvormen tot een onderdeel van ons dagelijks leven, net zoals sneller internet dat voor smartphones heeft gedaan.

Cloud­flare intro­du­ceert ook nieuwe moge­lijk­heden waarmee Workers AI het eenvou­digste platform wordt om AI-apps mee te maken:

  • Betere pres­ta­ties en onder­steu­ning voor grotere modellen: Cloud­flare breidt zijn wereld­wijde netwerk nu uit met krach­ti­gere GPU’s, zodat Workers AI sneller de AI-infe­rentie kan uitvoeren op aanzien­lijk grotere modellen, zoals Llama 3.1 70B en de collectie Llama 3.2‑modellen met 1B, 3B, 11B (en binnen­kort 90B). Dankzij onder­steu­ning voor grotere modellen, snellere respons­tijden en grotere context­ven­sters, kunnen AI-apps die op Workers AI van Cloud­flare zijn gemaakt complexere taken effi­ci­ënter uitvoeren. Dit resul­teert in natuur­lijke, naadloze erva­ringen voor eindgebruikers.
  • Verbe­terde controle en opti­ma­li­se­ring van AI-gebruik met perma­nente logs: Dankzij nieuwe perma­nente logs in AI Gateway, beschik­baar in open bèta, kunnen ontwik­ke­laars prompts van gebrui­kers en antwoorden van modellen langer opslaan. Daardoor kunnen ze beter analy­seren en begrijpen hoe hun app presteert. Perma­nente logs bieden ontwik­ke­laars uitge­breid inzicht op basis van gebrui­ker­s­er­va­ringen, bijvoor­beeld in de kosten en duur van verzoeken. Dit stelt hen in staat om hun app te verbe­teren. Sinds de lancering van afgelopen jaar heeft AI Gateway al meer dan twee miljard verzoeken verwerkt.
  • Snellere en betaal­baar­dere zoek­op­drachten: Vector­da­ta­bases maken het makke­lijker voor modellen om eerdere inputs te onthouden. Zo kan machine learning praktisch worden ingezet voor zoek­func­ties, aanbe­ve­lingen en tekst­ge­ne­ratie. De vector­da­ta­base van Cloud­flare, Vectorize, is nu algemeen beschik­baar. Sinds augustus 2024 onder­steunt deze database indexen van maximaal vijf miljoen vectoren, ten opzichte 200.000 daarvoor. De gemid­delde latentie van zoek­op­drachten is nu nog maar 31 milli­se­conden (ms), ten opzichte van 549 ms in het verleden. Dankzij deze verbe­te­ringen kunnen AI-apps snel relevante infor­matie vinden, terwijl ze minder gegevens hoeven te verwerken. Dit zorgt er ook voor dat AI-apps betaal­baarder worden. 

Pin It on Pinterest

Share This