GPU-Erweiterung

Um GPU-beschleunigte Workloads im lokalen Data Center zu aktivieren, kann eine Compute Cloud@Customer-Installation mit Serverknoten erweitert werden, auf denen GPUs installiert sind.

GPU-Knoten werden in einem Erweiterungsrack mit Stromverteilereinheiten (PDUs) und Netzwerkkomponenten bereitgestellt, um die zusätzlichen physischen Ressourcen in das Grundrack zu integrieren. Ein GPU-Erweiterungsrack enthält mindestens 1 und maximal 6 werkseitig installierte GPU-Knoten. Nach dem ersten Deployment können weitere Knoten installiert werden. Bis zu zwei Erweiterungsracks können mit einem Basisrack verbunden werden, für maximal 12 GPU-Knoten.

Ein GPU-Knoten ist ein 3-RU-Server mit Intel Xeon Platinum 8480+-Architektur, High-Speed-Ethernet-Konnektivität und vier NVIDIA L40S-GPUs mit 48 GB GDDR6-Speicher und 1466 Peak FP8 TFLOPS. Nachdem diese Knoten vollständig bereitgestellt wurden, können sie problemlos verwendet werden: Beim Starten einer neuen Compute-Instanz wählen Benutzer eine dedizierte Compute-Ausprägung aus, um der Instanz mindestens eine GPU zuzuweisen. Eine Beschreibung der verfügbaren Ausprägungen finden Sie unter Compute-Ausprägungen.

Detaillierte Komponentenspezifikationen finden Sie auf der Website des Herstellers.

Oracle Compute Cloud@Customer mit GPU-Erweiterung bietet eine skalierbare Plattform zum Erstellen von KI- und grafikintensiven Anwendungen an der Edge. Es wurde für die nächste Generation von Rechenzentrums-Workloads entwickelt, darunter:

Generative KI-Inferenz: Echtzeitinferenzierung für generative KI-Pipelines mit Multimodell (Text, Bild, Audio, Video)
LLM-Training und Feinabstimmung: Beschleunigte Leistung für die Feinabstimmung mittlerer LLMs und das Training kleiner LLMs mit NVIDIA-Transformator-Engine und FP8-Unterstützung
Grafikintensive und VDI-Anwendungen: 3D-Grafiken und Rendering-Workflows mit NVIDIAs RTX- und Raytracing-Funktionen
Digitale Zwillinge mit NVIDIA Omniverse: Entwicklung und Betrieb komplexer Workflows für die industrielle Digitalisierung 3D
Medien-Streaming: erhöhte Verschlüsselungs-/Decodedichte und AV1-Unterstützung für 4K-Video-Streaming
HPC: Arbeitslasten für wissenschaftliche Datenanalyse und Simulation mit Unterstützung von FP32

Installationsanforderungen

Standortvorbereitung: Wenn Sie sich entschieden haben, Ihre Compute Cloud@Customer-Umgebung mit GPU-Knoten zu erweitern, planen Sie die Installation der zusätzlichen Hardware sorgfältig voraus. Das GPU-Erweiterungsrack hat die gleichen Außenabmessungen wie das Grundrack und enthält den gleichen Hardwaretyp. Daher gelten die Anforderungen am Grundrack auch für das Erweiterungsrack. Sie werden ausführlich im Installationsabschnitt Preparing the Installation Site beschrieben.
Rackkabel: Die Kabelanschlüsse zwischen dem Grundrack und dem GPU-Erweiterungsrack dürfen 25 Meter nicht überschreiten. Weisen Sie dem Erweiterungsrack nahe dem Grundrack einen Platz zu, sodass die Kabel zwischen den Rissen innerhalb der angegebenen maximalen Länge liegen, wenn sie durch den Boden oder die Decke geleitet werden. Die erforderliche Kabellänge muss mit der Bestellung angegeben werden.
High-Performance Storage: Die GPU-Compute-Ausprägungen sind für hohe Geschwindigkeit und geringe Latenz optimiert. Sie verwenden ausschließlich Hochleistungsspeicher, was bedeutet, dass die ZFS Storage Appliance des Systems einen Hochleistungsspeicherpool bereitstellen muss, der aus einem oder mehreren Leistungs-Festplatteneinsätzen besteht. Wenn in der vorhandenen Installation kein Performance-Tray vorhanden ist, wird einer der GPU-Erweiterungsreihenfolge hinzugefügt. Wenn für das Basisrack keine Rackeinheiten zum Hinzufügen des Performancetrays verfügbar sind, wird es in einem Speichererweiterungsrack installiert. Der Hochleistungsspeicherpool muss konfiguriert werden, bevor das GPU-Erweiterungsrack aktiviert wird.

Installationsvorgang

Physische Installation

Alle Installationsaufgaben werden von Oracle ausgeführt. Wenn sich das GPU-Erweiterungsrack im zugewiesenen Platz befindet, muss es mit dem Grundrack verbunden werden. Die Leaf Switches des Erweiterungsracks sind über Kreuz mit den Spine Switches des Grundracks verbunden, um das Datennetzwerk in das Erweiterungsrack zu erweitern. Ebenso werden die Erweiterungsrackkomponenten über eine Kabelverbindung zwischen den Management-Switches beider Racks zum internen Verwaltungsnetzwerk hinzugefügt. Die für dieses Setup erforderlichen Ports wurden auf allen verbundenen Switches reserviert. Die GPU-Knoten sind werkseitig intern mit den Erweiterungsrack-Switches verbunden.

Rackaktivierung

Wenn die physischen Verbindungen vorhanden sind, wird das Erweiterungsrack aktiviert, indem ein Skript von einem der Managementknoten ausgeführt wird. Das Skript schaltet die Switches ein und aktiviert die erforderlichen Ports, damit die neuen Hardwarekomponenten erkannt und registriert werden können. Wenn das Skript fertig ist, sind die Daten- und Managementnetzwerke über die miteinander verbundenen Racks hinweg betriebsbereit. Das System fährt mit der Installation und Konfiguration des Betriebssystems und zusätzlicher Software auf den neuen Knoten fort und bereitet sie auf das Provisioning vor. Wenn die GPU-Knoten bereitgestellt wurden, sind sie vollständig integriert und einsatzbereit.

GPU-Knoten werden den vorhandenen Faultdomains neben anderen Compute Nodes hinzugefügt, Serverfamilien arbeiten jedoch getrennt voneinander, und Migrationen zwischen ihnen werden nicht unterstützt. Die Faultdomains können nicht mehr ausgeglichen werden, da GPU-Knoten im Gegensatz zu Standard-Compute-Knoten einzeln hinzugefügt werden können.

Oracle Cloud Infrastructure-Dokumentation

GPU-Erweiterung

Installationsanforderungen

Installationsvorgang