Red Hat schaalt AI-inferentie met Red Hat AI 3

15 oktober 2025

Red Hat, wereld­wijd aanbieder van open source-oplos­singen, kondigt vandaag Red Hat AI 3 aan, een grote stap vooruit voor zijn enter­prise AI-platform. Door de nieuwste inno­va­ties van Red Hat AI Inference Server, Red Hat Enter­prise Linux AI (RHEL AI) en Red Hat OpenShift AI samen te brengen, helpt het platform bedrijven om de complexi­teit van groot­scha­lige AI-infe­rentie te vereen­vou­digen. Orga­ni­sa­ties kunnen zo hun AI-workloads vlotter van proof-of-concept naar productie brengen en beter samen­werken rond AI-gestuurde toepassingen.

Nu bedrijven verder gaan dan expe­ri­men­teren met AI, botsen ze op uitda­gingen zoals data­pri­vacy, kosten­be­heer­sing en het beheren van uiteen­lo­pende modellen. “The GenAI Divide: State of AI in Business”, een onderzoek van het Massa­chu­setts Institute of Tech­no­logy NANDA-project, toont dat scherp aan: ongeveer 95% van de orga­ni­sa­ties ziet geen meetbare finan­ciële meer­waarde, ondanks een wereld­wijde inves­te­ring van zo’n 40 miljard dollar in enter­prise AI.

Red Hat AI 3 pakt die problemen recht­streeks aan met een consis­tenter en eendui­diger platform voor CIO’s en IT-leiders, zodat ze hun inves­te­ringen in versnelde compu­ter­toe­pas­singen maximaal kunnen benutten. Het maakt het mogelijk om AI-workloads snel op te schalen en te verdelen over hybride, multi-vendorom­ge­vingen, terwijl samen­wer­king tussen teams rond nieuwe AI-toepas­singen zoals agents eenvou­diger wordt. Gebouwd op open stan­daarden sluit Red Hat AI 3 aan bij elke stap in de AI-reis van een orga­ni­satie, ongeacht model of hardware, van data­cen­ters tot publieke cloud en soeve­reine AI-omge­vingen tot aan de edge.

Van trainen naar doen: de verschuiving naar enterprise AI-inferentie

Wanneer orga­ni­sa­ties AI naar productie brengen, verschuift de focus van trainen en finetunen naar infe­rentie: de fase waarin AI effectief “doet”. Red Hat AI 3 legt de nadruk op schaal­bare en kosten­ef­fi­ci­ënte infe­rentie, gebouwd op de succes­volle open source-projecten vLLM en llm‑d, gecom­bi­neerd met Red Hat’s eigen opti­ma­li­sa­tie­ca­pa­ci­teiten. Zo kunnen bedrijven grote taal­mo­dellen (LLM’s) betrouw­baar in productie inzetten.

Om CIO’s te helpen hun dure hardware optimaal te benutten, intro­du­ceert Red Hat OpenShift AI 3.0 de algemene beschik­baar­heid van llm‑d. Dat project herde­fi­ni­eert hoe LLM’s native draaien op Kuber­netes. llm‑d maakt slimme, gedis­tri­bu­eerde infe­rentie mogelijk, waarbij de kracht van Kuber­netes-orkestratie en de pres­ta­ties van vLLM worden gecom­bi­neerd met open source-tech­no­lo­gieën zoals de Kuber­netes Gateway API Inference Extension, de NVIDIA Dynamo-bibli­o­theek voor snelle data­trans­fers (NIXL) en de DeepEP Mixture of Experts (MoE)-communicatielaag. 

Zo kunnen organisaties:

  • Kosten verlagen en respons­tijden verbe­teren via intel­li­gente, infe­ren­tie­ge­richte model­sche­du­ling en gede­cen­tra­li­seerde verwerking
  • Opera­ti­o­nele eenvoud en betrouw­baar­heid bereiken met duide­lijke “Well-lit Paths” die het uitrollen van modellen op schaal vereenvoudigen
  • Meer flexi­bi­li­teit behouden dankzij onder­steu­ning voor verschil­lende hard­wa­re­ver­snel­lers, waaronder NVIDIA en AMD

llm‑d bouwt verder op vLLM en evolueert van een single-node infe­rentie-engine naar een gedis­tri­bu­eerd, schaal­baar systeem, strak geïn­te­greerd met Kuber­netes. Het is ontworpen om voor­spel­bare pres­ta­ties, meetbare ROI en efficiënt infra­struc­tuur­be­heer mogelijk te maken. Alle verbe­te­ringen spelen in op de uitda­gingen van wisse­lende LLM-workloads en het serveren van gigan­ti­sche modellen zoals Mixture-of-Experts.

Een verenigd platform voor samenwerkende AI

Red Hat AI 3 brengt een geïn­te­greerde, flexibele ervaring die inspeelt op de nood aan samen­wer­king bij het bouwen van gene­ra­tieve AI-oplos­singen op produc­tie­ni­veau. Het platform creëert tastbare meer­waarde door teams te verbinden en workflows te stroom­lijnen binnen één omgeving waar zowel platform- als AI-engineers hun AI-strategie kunnen uitvoeren. Nieuwe functies helpen bedrijven de stap te zetten van proof-of-concept naar productie met meer effi­ci­ëntie en productiviteit.

  • De Model-as-a-Service (MaaS)-mogelijkheden bouwen voort op gedis­tri­bu­eerde infe­rentie en geven IT-teams de kans om zelf als MaaS-provider te fungeren. Ze kunnen zo centrale modellen aanbieden met on-demand toegang voor zowel AI-ontwik­ke­laars als AI-toepas­singen. Dat maakt kosten­be­heer eenvou­diger en biedt oplos­singen voor use cases die niet op publieke AI-diensten kunnen draaien omwille van privacy of dataveiligheid.
  • De AI Hub laat plat­for­men­gi­neers toe om AI-assets te verkennen, te imple­men­teren en te beheren. Ze krijgen één centrale plek met een gecu­reerde catalogus van geva­li­deerde en geop­ti­ma­li­seerde gene­ra­tieve AI-modellen, een register voor het model­be­heer en een omgeving om alle AI-assets op OpenShift AI te confi­gu­reren en te monitoren.
  • De Gen AI Studio biedt AI-engineers een inter­ac­tieve werk­ruimte om met modellen te spelen en snel nieuwe toepas­singen te proto­typen. Dankzij de AI assets endpoint-functie kunnen ze eenvoudig beschik­bare modellen en MCP-servers ontdekken en gebruiken, wat de inter­actie met externe tools vereen­vou­digt. De inge­bouwde playground maakt het makkelijk om modellen te testen, prompts te verfijnen en para­me­ters af te stellen voor toepas­singen zoals chat en retrieval-augmented gene­ra­tion (RAG).
  • Nieuwe geva­li­deerde en geop­ti­ma­li­seerde Red Hat-modellen versnellen de ontwik­ke­ling verder. De selectie omvat populaire open source-modellen zoals OpenAI’s gpt-oss, DeepSeek-R1 en gespe­ci­a­li­seerde modellen zoals Whisper voor spraak-naar-tekst en Voxtral Mini voor spraak­ge­stuurde agents.

De basis voor de volgende generatie AI-agents

AI-agents staan op het punt om de manier waarop appli­ca­ties gebouwd worden grondig te veran­deren. Hun complexe, autonome workflows stellen zware eisen aan infe­ren­tie­ca­pa­ci­teiten. De nieuwste Red Hat OpenShift AI 3.0‑release bouwt voort op die basis, niet alleen via verbe­terde infe­rentie, maar ook via nieuwe functies voor agentbeheer.

Om het bouwen en uitrollen van agents te versnellen, intro­du­ceert Red Hat een Unified API-laag gebaseerd op Llama Stack, die de ontwik­ke­ling afstemt op indu­strie­stan­daarden zoals OpenAI-compa­ti­bele LLM-proto­collen. Daarnaast onder­steunt Red Hat als vroege adoptant het Model Context Protocol (MCP), een nieuwe open standaard die bepaalt hoe AI-modellen commu­ni­ceren met externe tools. Dat vormt een cruciaal fundament voor moderne AI-agents.

Red Hat AI 3 bevat ook een modulair en uitbreid­baar toolkit voor modelaan­pas­sing, gebaseerd op InstructLab. Het biedt gespe­ci­a­li­seerde Python-bibli­o­theken waarmee ontwik­ke­laars meer controle en flexi­bi­li­teit krijgen. Het toolkit gebruikt open source-projecten zoals Docling voor gege­vens­ver­wer­king, die onge­struc­tu­reerde docu­menten omzet naar een AI-leesbaar formaat. Verder omvat het een flexibel kader voor synthe­ti­sche data­ge­ne­ratie en een training hub voor LLM-fine­tu­ning. Het geïn­te­greerde evalu­a­tie­cen­trum helpt AI-engineers resul­taten te valideren en op te volgen, zodat ze hun eigen data met vertrouwen kunnen inzetten voor accu­ra­tere en rele­van­tere AI-uitkomsten.

Pin It on Pinterest

Share This