Red Hat AI 3.4: Eigene Inferenzplattformen statt externer API-Calls

3 minutes reading View : 3
Avatar-Foto
Felix Schmidt
News - 18 Mai 2026

Red Hat hat auf seinem diesjährigen Summit in Atlanta die Version 3.4 seiner KI-Plattform vorgestellt. Ein zentraler Schwerpunkt liegt auf erweiterten Inferenzmöglichkeiten: Mit Model-as-a-Service und einem KI-Gateway können Plattformteams Modelle einfacher bereitstellen, absichern und deren Nutzung messen. Unternehmen können somit interne Inferenzdienste selbst anbieten, anstatt ausschließlich auf externe Modell-APIs angewiesen zu sein. Technische Grundlage bildet die AI Inference Platform, die auf dem Open-Source-Server vLLM basiert.

Mit AI 3.4 erweitert Red Hat auch die Unterstützung der zugrundeliegenden Systeme und Komponenten. Dazu zählen GPU-Beschleunigungen für Nvidia und AMD sowie CPU-basierte Infrastrukturen für kleinere Sprachmodelle. Für den Betrieb größerer Inferenzumgebungen wird das Framework llm-d erweitert, das Funktionen wie Request-Priorisierung und Batch-Inferenz ergänzt. Speculative Decoding soll die Antwortgenerierung beschleunigen und helfen, Inferenzkosten zu senken.

„Viele Unternehmen wollen weg vom Token-Konsum und hin zum Betreiber einer eigenen Inferenzplattform“, sagt Joe Fernandes, Vice President AI Business bei Red Hat. „Gerade bei größeren Lasten oder souveränen Umgebungen kann der Betrieb eigener Inferenzdienste wirtschaftlich und regulatorisch sinnvoll sein.“

Die neue Version bietet Funktionen für Identität, Autorisierung und Lifecycle-Management von KI-Agenten. Hinzu kommen Tracing und Observability, um die Aktivitäten der Agenten transparenter zu machen. Ein kuratierter MCP-Server-Katalog (Model Context Protocol) sowie ein MCP-Gateway erleichtern die kontrollierte Anbindung von Tools, Services und Datenquellen.

Neu ist ein Evaluation Hub als gemeinsame Kontrollschicht für Evaluierungsframeworks, Experiment Tracking, AutoRAG und AutoML. Für Prompts bringt Red Hat ein integriertes Prompt-Management mit Prompt Lab und Registry auf den Markt. MLflow wird mit AI 3.4 allgemein verfügbar und dient als Grundlage für Prompt Management, Evaluationen und Agent Tracing.

Im Bereich Sicherheit verweist Red Hat auf sein automatisiertes Red-Teaming, das auf der Übernahme von Chatterbox Labs basiert. Diese Funktion soll Modelle und Agenten vor dem Produktiveinsatz automatisch auf Risiken testen. Damit adressiert Red Hat eine zentrale Schwachstelle agentischer KI: Agenten sind nur dann sinnvoll, wenn deren Zugriff, Verhalten und Ergebnisse nachprüfbar sind.

Parallel baut Red Hat die Zusammenarbeit mit Nvidia aus. Die Red Hat AI Factory with Nvidia kombiniert Red Hat AI Enterprise mit Nvidia AI Enterprise und unterstützt Unternehmen beim Aufbau produktiver KI-Infrastrukturen. Red Hat verweist auf Support für Nvidias Blackwell-Generation sowie Day-Zero-Unterstützung für die kommende Vera-Rubin-Architektur. Zudem beteiligt sich Red Hat an OpenShell, einem Nvidia-Projekt für sichere Ausführungsumgebungen und Sandbox-Funktionen für KI-Agenten. Mehrere Partner wie Cisco, Dell Technologies, Lenovo, Supermicro, TD SYNNEX und WWT sind eingebunden; Kunden erhalten validierte Systeme aus Hardware, Software und Services.

Fazit: Red Hat fokussiert sich klar auf die Betriebsseite von KI. Die Plattform zielt weniger auf das Vortraining großer Basismodelle, sondern auf Inferenz, Modellanpassung, RAG, Agentenbetrieb und Governance in hybriden Umgebungen. Fernandes sagt dazu: „Das Training großer generativer Modelle ist im klassischen Enterprise-IT-Markt voraussichtlich nicht der zentrale Anwendungsfall.“ Wichtiger sei die kontrollierte Bereitstellung, Optimierung und Verwaltung bestehender Modelle und Agenten.

Diese Ausrichtung passt zu Red Hats klassischer Stärke: Infrastruktur, OpenShift, Kubernetes, Hybrid Cloud und offene Schnittstellen. Das Unternehmen positioniert sich damit als Partner für Unternehmen, die KI-Systeme produktiv und kontrolliert betreiben wollen.

📝 Dieser Artikel wurde mit KI-Unterstützung basierend auf Inhalten von Heise Online umgeschrieben.
Share Copied