AMD Instinct MI350P: KI-Inferenz für Standard-Server

Während die KI-Industrie in den letzten Jahren immer aufwendigere Datacenter-Designs erforderte – mit Flüssigkühlung, OAM-Modulen und Spezialracks im sechsstelligen Preisbereich – geht AMD jetzt einen pragmatischen Schritt zurück: Mit dem Instinct MI350P stellt der Chiphersteller seine erste PCIe-basierte KI-Beschleunigerkarte seit fast vier Jahren vor. Die Karte passt in jeden Standard-Server mit Luftkühlung, ist sofort über Partner verfügbar und richtet sich an Unternehmen, die KI-Inferenz lokal betreiben wollen, ohne ihr Rechenzentrum dafür komplett umbauen zu müssen.

Comeback eines vergessenen Formfaktors

Seit dem Instinct MI210 von 2022 hatte AMD keine PCIe-Karte mehr im Instinct-Portfolio. Die Branche war komplett auf OAM-Module (Open Accelerator Module) und proprietäre Rack-Designs umgeschwenkt – Performance ja, aber zu Preisen jenseits dessen, was sich kleinere und mittelgroße Unternehmen leisten können. Wer KI-Inferenz auf eigener Hardware fahren wollte, hatte praktisch nur die Wahl zwischen NVIDIAs H200 NVL für 30.000 bis 40.000 US-Dollar pro Karte oder gar nichts.

Genau diese Lücke schließt AMD jetzt. Die MI350P ist im Grunde eine halbierte MI350X: gleiche Architektur, gleicher Prozess, aber mit der Hälfte der Compute-Ressourcen und des Speichers. Was nach Sparvariante klingt, ist in Wirklichkeit eine clevere Marktpositionierung. Denn die Karte muss nicht das Maximum liefern, sie muss in viele Server passen – und das tut sie.

Was unter der Haube steckt

Die technischen Daten lesen sich beeindruckend, auch wenn die Karte nur die Hälfte ihres großen OAM-Bruders bietet. Auf der CDNA-4-Architektur basierend und in TSMCs 3-nm-Prozess gefertigt, packt AMD 128 Compute Units, 8.192 Stream Processors und 512 Matrix Cores auf die Karte. Das I/O-Die nutzt den 6-nm-FinFET-Prozess von TSMC. Insgesamt sitzen 73 Milliarden Transistoren auf der Karte, die mit bis zu 2,2 GHz taktet.

Beim Speicher gibt es 144 GB HBM3E über ein 4.096-Bit-Interface mit 4 TB/s Bandbreite. Das ist die Hälfte der MI350X, aber immer noch mehr als die 141 GB der NVIDIA H200 NVL und deutlich mehr als die 96 GB der NVIDIA RTX PRO 6000 Blackwell. 128 MB Infinity Cache stehen direkt auf dem Chip bereit.

Die Rechenleistung liegt bei bis zu 4.600 TFLOPS in MXFP4-Präzision, dem für KI-Inferenz gängigsten Format. In MXFP6, FP8 und höheren Präzisionen bietet die Karte entsprechend abgestufte Leistung. Acht Karten in einem 2U-Chassis kommen zusammen auf 1.152 GB HBM3E und 32 TB/s Speicherbandbreite – genug, um ein Modell mit einer Billion Parametern in MXFP4-Präzision in einem einzelnen Server zu hosten.

Der entscheidende Punkt: Sie passt einfach rein

Was die MI350P von den meisten anderen Top-KI-Beschleunigern unterscheidet, ist ihr Dual-Slot-Full-Height-Full-Length-Format mit 10,5 Zoll Länge. Sie verwendet passive Kühlung und einen 12V-2×6-Stromstecker (AMDs erster Instinct mit diesem Anschluss). Server wie der Dell PowerEdge XE7740 oder der HPE ProLiant DL380a Gen12 sind explizit für solche dichten PCIe-Konfigurationen ausgelegt – AMD-Karten passen dort einfach rein.

Die Karte ist mit 600 Watt TBP (Total Board Power) am oberen Limit dessen, was die PCIe-CEM-Spezifikation erlaubt. Für Server, die diese Leistung thermisch nicht stemmen können, bietet AMD einen 450-Watt-Modus mit etwas reduzierter Performance.

Eine bewusste Einschränkung

AMD verzichtet bei der MI350P bewusst auf die Infinity-Fabric-Links zwischen GPUs. Wer mehrere Karten kombiniert, muss die Kommunikation über den PCIe-5.0-Bus mit 128 GB/s abwickeln. Das ist ein Faktor langsamer als bei den OAM-basierten MI350X-Modellen, die untereinander mit deutlich höherer Bandbreite kommunizieren.

In der Praxis heißt das: Acht MI350P-Karten in einem Server sind besser für acht parallele Inferenz-Workloads geeignet als für ein einziges riesiges Modell, das über alle Karten verteilt läuft. Für die Zielgruppe – Unternehmen mit mehreren KI-Anwendungen, die parallel laufen – ist das aber kein Showstopper. Wer extreme Modelle mit Skalierung über viele GPUs braucht, greift sowieso zu OAM oder zur kommenden MI400-Generation.

Konkurrent: NVIDIA H200 NVL

Im direkten Vergleich landet die MI350P im NVIDIA-Territorium der H200 NVL, die seit Anfang 2024 verfügbar ist. NVIDIAs Karte basiert noch auf der älteren Hopper-Architektur, bietet 141 GB HBM3E und ist mit 30.000 bis 40.000 US-Dollar pro Stück preislich kein Schnäppchen. AMD hat seine Preise für die MI350P bislang nicht offiziell genannt – aber die gesamte Positionierung des Produkts als "cost-effective drop-in solution" deutet darauf hin, dass AMD hier preislich aggressiv vorgehen wird.

Bemerkenswert: NVIDIA hat aktuell keine Pläne, ein vergleichbares aktuelles PCIe-Pendant aufzulegen. Die RTX PRO 6000 Blackwell Server Edition basiert auf dem GB202-Chip aus der Consumer-Reihe, nicht auf dem GB200-Server-Chip. AMD hat damit für den Moment ein Marktfeld weitgehend für sich allein.

Software-Ökosystem: ROCm wird erwachsener

AMD setzt bei der MI350P auf seinen vollen Software-Stack mit ROCm-Support und Enterprise-Ready-AI-Komponenten. Native Unterstützung für PyTorch, Kubernetes-Integration über den GPU Operator, AMD Inference Microservices und Sparsity-Beschleunigung für 8- und 16-bit-Präzisionen sind dabei. AMD vermarktet das aktiv als "offenes Ökosystem" – ein Seitenhieb auf NVIDIAs proprietäres CUDA, das zwar marktbeherrschend, aber an die NVIDIA-Hardware gebunden ist.

In den letzten Monaten haben sich AMD-Lösungen mit ROCm tatsächlich deutlich verbessert: Modelle von Meta, Mistral, DeepSeek und mehrere chinesische Open-Source-Modelle laufen mittlerweile gut auf AMD-Hardware. Die letzte größere Hürde – die Software-Reife – schließt sich also langsam.

Was bedeutet das für den Markt?

Die MI350P ist kein Produkt für Hyperscaler. OpenAI, Google oder Meta werden weiterhin OAM-basierte Karten in eigenen Datacentern einsetzen. Aber für die zweite Welle der KI-Adoption – mittelständische Unternehmen, Behörden, Forschungseinrichtungen, Gesundheitswesen, Banken – ist sie hochinteressant. Genau diese Kunden wollen oft aus Datenschutz- oder Compliance-Gründen ihre KI-Modelle on-premises betreiben, haben aber keine Lust und kein Budget, dafür ein eigenes Hochleistungsrechenzentrum hochzuziehen.

In Deutschland und Europa, wo Datensouveränität ein wachsendes Thema ist und KI-Workloads zunehmend aus der Public Cloud zurückgeholt werden, dürfte die MI350P deshalb deutlich Resonanz finden. Ein bestehender Dell- oder HPE-Server, ein paar Karten reingesteckt, ROCm installiert – und schon läuft Inferenz im eigenen Haus.

Erste Konfigurationen im deutschen Markt

Wie schnell sich die Karte im deutschsprachigen Raum etabliert, zeigt sich an Bewegungen bei Systemintegratoren. So konfiguriert beispielsweise die Nelpx GmbH als langjähriger AMD-Hardware-Integrator bereits MI350P-basierte High-Performance-Server, deren Auslieferung an Kunden in Kürze beginnt. Damit landet die neue AMD-Hardware zeitnah bei deutschen Unternehmen, die KI-Workloads on-premises betreiben wollen – ohne den Umweg über internationale Cloud-Provider oder Hyperscaler.

Ein Schritt, der mehr ist als nur Hardware

AMD signalisiert mit dem Launch der MI350P, dass Unternehmenskunden ernst genommen werden – nicht nur Top-Tier-Cloud-Anbieter. Während NVIDIA seine Roadmap aktuell von einer GPU-Generation pro Jahr auf jährliche Datacenter-Updates verschoben hat (mit Rubin Ultra in 2027 und Feynman danach), positioniert sich AMD gezielt in der mittleren Marktschicht, die NVIDIA mit ihren aktuellen Top-Produkten oft links liegen lässt.

Die ersten MI350P-Karten sind ab sofort über AMDs Partner verfügbar. Wann konkrete Preise und erste Benchmarks von unabhängigen Testern kommen, hat AMD noch nicht angekündigt – aber bei einem Produkt, das so klar positioniert ist, dürfte das nur noch eine Frage von wenigen Wochen sein.

Häufig gestellte Fragen zu diesem Thema

Was ist der Unterschied zwischen MI350P und MI350X?
Die MI350X ist AMDs Top-Modell der MI350-Serie und kommt im OAM-Formfaktor mit 288 GB HBM3E, 256 Compute Units und doppelter Speicherbandbreite. Die MI350P ist im Grunde eine halbierte Version: 144 GB HBM3E, 128 Compute Units, halbe Bandbreite, dafür im handelsüblichen PCIe-Format und in jeden luftgekühlten Server einsteckbar.

Wie viel Strom verbraucht die Karte? 600 Watt TBP (Total Board Power) im Standardmodus, was das maximale Limit der PCIe-CEM-Spezifikation ist. Für Server mit weniger Kühlkapazität gibt es einen 450-Watt-Modus mit etwas reduzierter Leistung.

Konkurriert die MI350P direkt mit NVIDIA?
Ja, im Segment der PCIe-basierten KI-Beschleuniger ist die direkte Konkurrenz die NVIDIA H200 NVL mit 141 GB HBM3E. Diese kostet etwa 30.000 bis 40.000 US-Dollar pro Stück. AMD hat seine Preise noch nicht offiziell genannt, positioniert das Produkt aber als kosteneffiziente Alternative.

Für welche KI-Workloads ist die MI350P gedacht?
Primär für KI-Inferenz – also den produktiven Einsatz fertig trainierter Modelle. Sie unterstützt MXFP4-, MXFP6-, FP8- und höhere Präzisionen mit nativer Beschleunigung. Für Trainings extrem großer Modelle, die über viele GPUs verteilt werden müssen, ist sie weniger geeignet, weil sie keine Infinity-Fabric-Links zwischen Karten bietet.

Wann ist die Karte verfügbar?
Ab sofort über AMDs Partner. Konkrete Liefertermine und Preise variieren je nach Hersteller und Konfiguration. Server mit MI350P-Karten werden unter anderem von Dell (PowerEdge-Serie) und HPE (ProLiant-Serie) angeboten.

Was kommt nach der MI350-Serie? AMD hat bereits die nächste Generation angekündigt: Die MI400-Serie soll 2026 erscheinen, mit 432 GB HBM4-Speicher und bis zu 19,6 TB/s Bandbreite. Sie wird Teil von AMDs neuer "Helios"-Rack-Architektur sein, die EPYC-Venice-CPUs, MI400-GPUs und Pensando-Vulcano-Netzwerk-Karten kombiniert.

Instinct MI350P macht KI-Server bezahlbar

Comeback eines vergessenen Formfaktors

Was unter der Haube steckt

Der entscheidende Punkt: Sie passt einfach rein

Eine bewusste Einschränkung

Konkurrent: NVIDIA H200 NVL

Software-Ökosystem: ROCm wird erwachsener

Was bedeutet das für den Markt?

Erste Konfigurationen im deutschen Markt

Ein Schritt, der mehr ist als nur Hardware

Häufig gestellte Fragen zu diesem Thema

Bitte melde dich an oder registriere dich, um diesen Beitrag zu kommentieren.

Entdecken

Instinct MI350P macht KI-Server bezahlbar

Comeback eines vergessenen Formfaktors

Was unter der Haube steckt

Der entscheidende Punkt: Sie passt einfach rein

Eine bewusste Einschränkung

Konkurrent: NVIDIA H200 NVL

Software-Ökosystem: ROCm wird erwachsener

Was bedeutet das für den Markt?

Erste Konfigurationen im deutschen Markt

Ein Schritt, der mehr ist als nur Hardware

Häufig gestellte Fragen zu diesem Thema

Teilen

oder Link kopieren

Bitte melde dich an oder registriere dich, um diesen Beitrag zu kommentieren.

Login

Entdecken