Cloudflare’s AI Gateway verbetert zichtbaarheid en schaalbaarheid van AI-applicaties

9 oktober 2023

Met het voort­du­rend toene­mende gebruik van AI-toepas­singen neemt de belasting van veel bedrijfs­net­werken ook aanzien­lijk toe. Hoe kunnen we dit beter schalen? Hoe houden we grip op de kosten van het gebruik van externe AI model providers? En als we model providers gaan inte­greren in enter­prise-appli­ca­ties hoe opti­ma­li­seren we dan de beschik­baar­heid van deze models? Ook gaan we zien dat er steeds meer trai­nings­data voor AI-appli­ca­ties tussen cloud-omge­vingen uitge­wis­seld moet gaan worden. Cloud­flare denkt deze problemen te kunnen oplossen met een nieuwe AI Gateway, waarvan onlangs een bèta­versie is uitge­bracht, vertelt Cloudflare’s Field Tech­no­logy Officer, John Engates.

Cloud­flare biedt een zogeheten ‘connec­ti­vity cloud’ aan voor het opti­ma­li­seren van data­ver­keer tussen meerdere cloud-omge­vingen. Connec­ti­vity clouds zijn oplos­singen die zorgen voor uitste­kende data-uitwis­se­ling tussen cloud-omge­vingen. Het is een relatief nieuwe categorie die in toene­mende mate cruciaal is voor het succes van multi­cloud-omge­vingen. Voor zijn connec­ti­vi­teits­cloud heeft Cloud­flare een wereld­wijd netwerk van data­cen­ters gecreëerd, met in veel belang­rijke econo­mi­sche steden en regio’s zelfs meerdere faciliteiten.

Data uitwisselen tussen clouds

Met deze connec­ti­vi­teits­cloud biedt Cloud­flare een inte­res­sante aanpak voor bedrijven die dreigen vast te lopen in een multi­cloud-omgeving en die steeds meer problemen ervaren met het uitwis­selen van data of func­ti­o­na­li­teit tussen al die appli­ca­ties in de cloud. Vrijwel elke grotere orga­ni­satie heeft al te maken met een IT-omgeving waarin meerdere clouds een rol spelen. Tot nu toe was de aandacht echter vooral gericht op de vraag hoe gebrui­kers toegang kunnen krijgen tot indi­vi­duele cloud-omge­vingen. En niet zozeer op de vraag hoe we data afkomstig uit cloud A en data uit cloud B voor bijvoor­beeld analyse bij elkaar kunnen brengen in cloud C, om het resultaat vervol­gens in cloud D toe te passen in een business-proces. Met andere woorden: data-uitwis­se­ling tussen tal van cloud-omgevngen. Deze problemen worden alleen maar groter nu steeds meer data­cen­ters en IT-afde­lingen te maken krijgen met AI-appli­ca­ties die hun trai­nings­data uit meerdere cloud-omge­vingen halen.

John Engates

John Engates, Field Chief Tech­no­logy Officer bij Cloud­flare: “Zodra binnen de orga­ni­satie het idee ontstaat om data of func­ti­o­na­li­teiten die beschik­baar zijn in de ene cloud-omgeving ook in een andere cloud te gaan gebruiken, wordt het belang van connec­ti­vi­teit tussen verschil­lende cloud-appli­ca­ties ineens volstrekt duidelijk. Dan blijkt al gauw dat er veel minder goed is nagedacht over de vraag hoe data van de ene cloud-omgeving naar de andere moet worden gebracht. Zeker als we over AI-appli­ca­ties praten, is dat een belang­rijk punt. Veel van de data zal immers uit tal van cloud-based appli­ca­ties afkomstig zijn of daar verder worden gebruikt.“

Connectivity cloud

In dit denken over connec­ti­vi­teit en de cloud begint inmiddels veran­de­ring te komen. Dat is ook vanuit het oogpunt van kosten belang­rijk. Veel IT-afde­lingen geven namelijk nu al 20–30% van hun budget uit aan telecom. Met de komst van AI en zijn enorme hoeveel­heden data zal dit percen­tage alleen nog maar verder stijgen. Een veelal zelf samen­ge­steld MPLS-netwerk is in belang­rijke mate verant­woor­de­lijk voor deze uitgaven. Volledig uitbe­steden is vaak een veel betere keuze, ware het niet dat telco’s – veelal de klassieke telecom-partners van enter­prise IT-afde­lingen – lang niet altijd in staat zijn om de meest optimale finan­ciële en tech­ni­sche pres­ta­ties te leveren. Dat kan te maken hebben met samen­wer­kingen die men al of niet met andere telco’s heeft, terwijl soms ook finan­ciële argu­menten een rol spelen bij de routering van data die men voorstelt.

Cloud­flare heeft dit gat opgevuld door als het ware een netwerk tussen cloud-omge­vingen te creëren. In eerste instantie gebeurde dit als een soort Content Delivery Network waar security in de vorm van Web Appli­ca­tion Firewalls (WAF) in was opgenomen. Inmiddels is ook Zero Trust volledig in dit netwerk geïn­te­greerd en heeft men compute en storage op al deze edge-locaties beschikbaar. 

Makkelijk connecteren

Het vervangen van een eigen MPLS-netwerk wordt door veel IT-afde­lingen echter als een riskante migratie gezien. Daarom beginnen veel orga­ni­sa­ties met het vervangen van kleinere delen van hun netwerk, vaak in combi­natie met nieuwe cloud-based appli­ca­ties. Op deze manier kunnen orga­ni­sa­ties staps­ge­wijs ervaring opdoen met Cloud­flare als backbone-netwerk tussen cloud-based appli­ca­ties, zonder alles in één keer te moeten vervangen. De risico’s die vaak worden geas­so­ci­eerd met derge­lijke grote veran­de­ringen kunnen hierdoor worden geminimaliseerd.

“Juist om dit soort staps­ge­wijze migraties zo eenvoudig mogelijk te maken, hebben we onlangs onze Magic WAN Connector geïn­tro­du­ceerd”, vertelt Engates. Na het aansluiten van de hardware van deze connector wordt het netwerk­ver­keer auto­ma­tisch gerou­teerd naar de dichtst­bij­zijnde Cloud­flare-locatie. Voorheen was hier een Cloud­flare Network Inter­con­nect (CNI) voor nodig, die eerst gecon­fi­gu­reerd moest worden. De komst van de nieuwe connector betekent dat deze confi­gu­ratie nu volledig is geau­to­ma­ti­seerd. Het betekent ook dat het verkeer dat via een Magic WAN Connector loopt dus ook door Cloudflare’s Web Appli­ca­tion Firewalls (WAF) en Zero Trust-bevei­li­gings­con­troles gaat, voordat het wordt door­ge­stuurd naar zijn bestem­ming. Hierbij maakt het niet uit of dit een andere locatie is op het private netwerk, een extern gehoste SaaS-appli­catie, of bijvoor­beeld een externe large language model (LLM) provider.

De rol van de AI Gateway

Hiermee kan een data­center of enter­prise IT-afdeling veel meer grip krijgen op de pres­ta­ties en de bevei­li­ging van het netwerk dat men gebruikt voor het bereiken van cloud-appli­ca­ties en om data van de ene cloud naar de andere te brengen. Met de opkomst van AI-toepas­singen komt daar echter een nieuwe uitdaging bij: hoe gaan we AI-models in deze netwerk­om­ge­ving opnemen? En hoe gaan we intern ontwik­kelde AI-appli­ca­ties op een betrouw­bare manier laten samen­werken met deze model providers? Hoe gaan we om met de data die daarbij nodig is?

Engates: “Hiervoor heeft Cloud­flare nu een bèta­versie van zijn AI Gateway geïn­tro­du­ceerd. Deze AI Gateway bevindt zich tussen de AI-appli­catie en de AI-API’s waarnaar de toepas­sing calls doet. Op die manier kan Cloud­flare reacties cachen, verzoeken beperken of juist opnieuw proberen. Ook zijn hiermee analyses mogelijk om te helpen het gebruik van AI-modellen te monitoren en te admi­ni­streren. De AI Gateway regelt de dingen die bijna alle AI-toepas­singen nodig hebben. Dit scheelt het interne team veel engineering-tijd.”

Devel­o­pers behoeven in principe slechts één regel in hun code aan te passen om aan de slag te gaan met Cloudflare’s AI Gateway en dat is de URL in de API calls vervangen door die van de AI Gateway die zij gebruiken. Alle tokens blijven gewoon in hun eigen code-omgeving en blijven dus veilig. Verder logt de gateway iedere call voordat deze wordt door­ge­laten naar de uitein­de­lijke API.

“We onder­steunen momenteel model-providers als OpenAI, Hugging Face en Replicate”, vertelt Engates. “In de toekomst zal dit verder worden uitge­breid. Ook is onder­steu­ning beschik­baar voor alle verschil­lende endpoints binnen deze providers en is in respons streaming voorzien. Het speciale endpoint voor deze providers stelt devel­o­pers in staat hun appli­ca­ties aan te sluiten op de AI Gateway, zonder dat de oorspron­ke­lijke payload-structuur aangepast behoeft te worden.”

Analyses en inzichten

Er is ook voorzien een zogeheten ‘universal endpoint’ dat kan worden gebruikt als meer flexi­bi­li­teit gewenst is met calls. Met dit univer­sele endpoint is het bijvoor­beeld mogelijk om fallback-modellen te defi­ni­ëren en pogingen tot calls opnieuw te doen als deze om wat voor reden dan ook mislukken. “Stel dat er een call is gedaan naar OpenAI GPT‑3, maar de API bleek down. In zo’n geval kan in het univer­sele endpoint bijvoor­beeld worden gede­fi­ni­eerd dat als fallback een call naar Hugging Face GPT‑2 moeten worden gedaan. De gateway zal de call dan auto­ma­tisch opnieuw verzenden naar Hugging Face. Dit is handig om de resi­lience van een appli­catie te verbe­teren in gevallen waarin ongewone fouten optreden of tegen snel­heids­li­mieten wordt aange­lopen. Denk echter ook aan situaties waarin één account finan­cieel kostbaar wordt en het team liever wil diver­si­fi­ëren naar andere modellen. Met het univer­sele endpoint is het alleen nodig om de payload aan te passen om de provider en het endpoint te speci­fi­ceren, zodat calls correct kunnen worden gerouteerd.”

“Is een AI-appli­catie eenmaal verbonden met Cloud­flare, dan kunnen we helpen met analyses en het verza­melen van inzichten”, licht Engates toe. “Ook kunnen we controle bieden over het verkeer dat door de AI-appli­ca­ties gaat. Ongeacht welk model of welke infra­struc­tuur aan de achter­kant wordt gebruikt, kunnen we helpen met het loggen van calls en het analy­seren van gegevens zoals het aantal calls, het aantal gebrui­kers, de kosten van het draaien van de appli­ca­ties, de duur van calls en dergelijke.”

“Hoewel dit basis­ana­lyses lijken die model providers zouden moeten bieden, is het verras­send moeilijk om zicht te krijgen op deze statis­tieken”, vertelt Engates tenslotte. “De AI Gateway gaat bovendien nog een stap verder. We maken het ook mogelijk analyses te aggre­geren over meerdere providers heen.”

Pin It on Pinterest

Share This