Erste Schritte mit einem hochverfügbaren ODH Big Data-Cluster

Mit einem Oracle Cloud Infrastructure-Account können Sie ein hochverfügbares Big Data-Cluster mit Oracle-Distribution einschließlich Apache Hadoop erstellen.

Zum Erstellen von Big Data-Clustern können Sie Optionen für Knotenausprägungen und Speichergrößen verwenden. Wählen Sie diese Optionen je nach Anwendungsfall und Performanceanforderungen aus. In diesem Workshop erstellen Sie ein HA-Cluster und weisen den Knoten kleine Ausprägungen zu. Dieses Cluster eignet sich ideal zum Testen von Anwendungen.

Dieses einfache HA-Cluster hat das folgende Profil:

Knoten: 2 Masterknoten, 2 Utilityknoten und 3 Worker-Knoten.
Ausprägung der Haupt- und Utilityknoten: VM.Standard2.4-Ausprägung für die Master- und Utilityknoten. Diese Ausprägung bietet 4 CPUs und 60 GB Arbeitsspeicher.
Ausprägung der Worker-Knoten: VM.Standard2.1-Ausprägung für die Worker-Knoten im Cluster. Diese Ausprägung bietet 1 CPU und 15 GB Arbeitsspeicher.
Speichergröße: 150 GB Blockspeicher für die Master-, Utility- und Worker-Knoten.

Grafische Darstellung von HA-Clusterknoten

Bevor Sie beginnen

Für eine erfolgreiche Ausführung des Tutorials benötigen Sie Folgendes:

Oracle Cloud Infrastructure-Account Siehe Für Oracle Cloud Infrastructure registrieren.
Ein MacOS-, Linux- oder Windows-Computer mit installierter ssh-Unterstützung.

Übung 1. Für Big Data-Cluster erforderliche OCI-Ressourcen einrichten

In dieser Übung verwenden Sie einen Oracle Cloud Infrastructure-Account, um die zum Erstellen eines Big Data-Clusters erforderlichen Ressourcen vorzubereiten.

Aufgabe 1: Servicelimits prüfen

Anmelden bei der Oracle Cloud Infrastructure-Konsole.
Öffnen Sie das Navigationsmenü, und wählen Sie Governance und Administration aus. Wählen Sie unter Governance die Option Limits, Quota und Nutzung aus.
Ermitteln Sie Ihr Servicelimit für Big Data-Knotenausprägungen:
- Filter für die folgenden Optionen:
  - Service: Big Data
  - Geltungsbereich: <your-region> (entspricht der Region in der oberen Navigationsleiste)
  - Ressource:
    - VM Standard2.4 - OCPUs gesamt (für Master-, Utility- und Cloud SQL-Knoten)
    - VM Standard2.1 - OCPUs gesamt (für Worker-Knoten)
  - Compartment: <tenancy-name> (Root)
  - verfügbare OCPU-Anzahl suchen:
    - Limitname: vm-standard-2-4-ocpu-count
    - Verfügbar:
      - Für nicht hochverfügbare (Nicht-HA-)Cluster: mindestens 3
        (Eine für den Masterknoten, eine für den Utilityknoten und eine für Cloud SQL.)
      - Für hochverfügbare (HA-)Cluster: mindestens 5
        (Zwei für Masterknoten, zwei für Utilityknoten und eine für Cloud SQL.)
    - Limitname: vm-standard-2-1-ocpu-count
    - Verfügbar: Mindestens 3

Hinweis

In diesem Workshop erstellen Sie Knoten mit folgenden Ausprägungen und folgendem Speicher:

Ausprägung:

VM Standard2.4 für die Master-, Utility- und Cloud SQL-Knoten.
VM Standard2.1 für die Worker-Knoten.

Speicher:

150 GB Blockspeicher für die Master-, Utility- und Worker-Knoten.
1.000 GB Blockspeicher für den Cloud SQL-Knoten.

Wenn Sie eine andere Ausprägung verwenden möchten, filtern Sie stattdessen nach dieser Ausprägung. Eine Liste aller in Big Data Service unterstützten Ausprägungen finden Sie unter Servicelimits.

Aufgabe 2: SSH-Verschlüsselungsschlüssel erstellen

Erstellen Sie ssh-Verschlüsselungsschlüssel, um eine Verbindung zu Ihren Compute-Instanzen oder Knoten herzustellen.

Öffnen Sie ein Terminalfenster:
- MacOS oder Linux: Öffnet ein Terminalfenster im Verzeichnis, in dem Sie Ihre Schlüssel speichern möchten.
- Windows: Klicken Sie mit die rechte Maustaste auf das Verzeichnis, in dem Sie Ihre Schlüssel speichern möchten, und wählen Sie Git Bash Here aus.
Hinweis

Wenn Sie Windows-Subsystem für Linux (WSL) verwenden. Stellen Sie sicher, dass sich das Verzeichnis für die Schlüssel direkt auf Ihrem Linux-Rechner und nicht in einem /mnt-Ordner (Windows-Dateisystem) befindet.
Geben Sie den folgenden OpenSSH-Befehl aus:
```
ssh-keygen -t rsa -N "" -b 2048 -C <your-ssh-key-name> -f <your-ssh-key-name>
```
Der Befehl generiert zufälligen Text, der zum Generieren der Schlüssel verwendet wird. Nach Abschluss haben Sie zwei Dateien:
- Die Private-Key-Datei: <your-ssh-key-name>
- Die Public-Key-Datei: <your-ssh-key-name>.pub
Mit diesen Dateien stellen Sie eine Verbindung zu Ihren Knoten her.

Weitere Informationen zum Generieren von SSH-Verschlüsselungsschlüsseln finden Sie unter Schlüsselpaar erstellen.

Hinweis

In diesem Workshop werden keine PuTTY-Schlüssel verwendet. Erstellen Sie Ihr Schlüsselpaar anhand der Anweisungen in diesem Abschnitt.

Aufgabe 3: Compartment-Policy hinzufügen

Wenn sich Ihr Benutzername in der Gruppe Administratoren befindet, überspringen Sie diesen Abschnitt. Andernfalls muss der Administrator Ihrem Mandanten die folgende Policy hinzufügen:

allow group <the-group-your-username-belongs> to manage compartments in tenancy

Mit dieser Berechtigung können Sie ein Compartment für alle Ressourcen in Ihrem Tutorial erstellen.

Schritte zum Hinzufügen der Policy

Öffnen Sie in der oberen Navigationsleiste das Menü Profil.
Wählen Sie Ihren Benutzernamen aus.
Klicken Sie im linken Fensterbereich auf Gruppen.
Kopieren Sie den Gruppennamen, zu der Ihr Benutzername gehört, in einem Notizblock.
öffnen Sie das Navigationsmenü, und wählen Sie Identität und Sicherheit aus. Wählen Sie unter Identität die Option Policys aus.
Wählen Sie Ihr Compartment in der Dropdown-Liste Compartment aus.
Wählen Sie Policy erstellen aus.
Geben Sie die folgenden Informationen ein:
- Name: manage-compartments
- Beschreibung: Allow the group <the-group-your-username-belongs> to list, create, update, delete and recover compartments in the tenancy.
- Compartment: <your-tenancy>(root)
Klicken Sie unter Policy Builder auf Anpassen (erweitert).

Fügen Sie die folgende Policy ein:

allow group <the-group-your-username-belongs> to manage compartments in tenancy

Wählen Sie Erstellen.

Referenz: Der Ressourcentyp compartments in Kombinationen aus Verben + Ressourcentyp für IAM

Aufgabe 4: Compartment erstellen

Erstellen Sie ein Compartment für die Ressourcen, die Sie in diesem Tutorial erstellen.

Anmelden bei der Oracle Cloud Infrastructure-Konsole.
öffnen Sie das Navigationsmenü, und wählen Sie Identität und Sicherheit aus. Wählen Sie unter Identität die Option Compartments aus.
Compartment erstellen.
Geben Sie die folgenden Informationen ein:
- Name: <your-compartment-name>.
  Beispiel: training-compartment.
- Beschreibung: Compartment for <your-description>.
- Übergeordnetes Compartment: <your-tenancy>(root)
Compartment erstellen.

Aufgabe 5: Ressourcen-Policy hinzufügen

Wenn sich Ihr Benutzername in der Gruppe Administratoren befindet, überspringen Sie diesen Abschnitt. Andernfalls muss der Administrator Ihrem Compartment die folgende Policy hinzufügen:

allow group <the-group-your-username-belongs> to manage all-resources in compartment <your-compartment-name>

Mit dieser Berechtigung können Sie alle Ressourcen in Ihrem Compartment verwalten, das Ihnen im Wesentlichen Administratorrechte in dem Compartment erteilt.

Schritte zum Hinzufügen der Policy

öffnen Sie das Navigationsmenü, und wählen Sie Identität und Sicherheit aus. Wählen Sie unter Identität die Option Policys aus.
Wählen Sie Ihr Compartment in der Dropdown-Liste Compartment aus.
Policy erstellen.
Geben Sie die folgenden Informationen ein:
- Name: manage-<your-compartment-name>-resources
- Beschreibung: Allow users to list, create, update, and delete resources in <your-compartment-name>.
- Compartment: <your-compartment-name>
Wählen Sie unter Policy Builder die folgenden Optionen aus:
- Policy-Anwendungsfälle: Compartment Management
- Allgemeine Policy-Vorlagen: Let compartment admins manage the compartment
- Gruppen: <the-group-your-username-belongs>
- Speicherort: <your-compartment-name>
Erstellen.

Referenz: Allgemeine Policys

Aufgabe 6: Big Data-Policy hinzufügen

Big Data Service kann ein virtuelles Cloud-Netzwerk in Ihrem Mandanten nur erstellen, wenn Sie ihm die entsprechende Berechtigung erteilen. Fügen Sie dem Compartment die folgende Policy hinzu:

allow service bdsprod to {VNC_READ, VNIC_READ, VNIC_ATTACH, VNIC_DETACH, VNIC_CREATE, VNIC_DELETE,VNIC_ATTACHMENT_READ, SUBNET_READ, VCN_READ, SUBNET_ATTACH, SUBNET_DETACH, INSTANCE_ATTACH_SECONDARY_VNIC, INSTANCE_DETACH_SECONDARY_VNIC} in compartment <your-compartment-name>

Mit dieser Berechtigung kann Big Data die Netzwerkressourcen erstellen in Ihrem Compartment.

Schritte zum Hinzufügen der Policy

öffnen Sie das Navigationsmenü, und wählen Sie Identität und Sicherheit aus. Wählen Sie unter Identität die Option Policys aus.
Wählen Sie im Dropdown-Menü Compartment Ihr Compartment aus.
Wählen Sie Policy erstellen aus.
Geben Sie die folgenden Informationen ein:
- Name: big-data-create-network-resources
- Beschreibung: Allow Big Data service to create a virtual cloud network.
- Compartment: <your-compartment-name>
Aktivieren Sie unter Policy Builder die Option Manuellen Editor anzeigen.

Fügen Sie die folgende Policy im Editor ein:

allow service bdsprod to {VNC_READ, VNIC_READ, VNIC_ATTACH, VNIC_DETACH, VNIC_CREATE, VNIC_DELETE,VNIC_ATTACHMENT_READ, SUBNET_READ, VCN_READ, SUBNET_ATTACH, SUBNET_DETACH, INSTANCE_ATTACH_SECONDARY_VNIC, INSTANCE_DETACH_SECONDARY_VNIC} in compartment <your-compartment-name>

Wählen Sie Erstellen.

Hinweis

Achten Sie darauf, diese Policy zu erstellen. Ohne diese Policy können Sie kein Cluster erstellen.

Aufgabe 7: Virtuelles Cloud-Netzwerk (VCN) erstellen

Richten Sie ein virtuelles Cloud-Netzwerk zum Hosten der Knoten in Ihrem Cluster ein.

Gehen Sie zu Ressourcen starten, und klicken Sie in der Haupt-Landingpage der Konsole auf Netzwerk über einen Assistenten einrichten.
Wählen Sie im Workflow VCN-Assistenten starten die Option VCN mit Internetverbindung erstellen aus, und klicken Sie anschließend auf VCN-Assistenten starten.
Sie können die folgenden Informationen eingeben oder wählen:
- VCN-Name: training-vcn
- Compartment: <your-compartment-name>. Beispiel: training-compartment.
Behalten Sie im Abschnitt VCN und Subnetze konfigurieren die Standardwerte für die CIDR-Blöcke beim:
- VCN-CIDR-BLOCK: 10.0.0.0/16
- ÖFFENTLICHER SUBNETZ-CIDR-BLOCK: 10.0.0.0/24
- CIDR-BLOCK FÜR PRIVATES SUBNETZ: 10.0.1.0/24
Hinweis

Beachten Sie, dass öffentliche und private Subnetze unterschiedliche Netzwerkadressen haben.
Aktivieren Sie unter "DNS-Auflösung" das Kontrollkästchen "DNS-Hostnamen IN einem VCN verwenden".

Hinweis

Wenn Sie beabsichtigen, Hostnamen anstelle von IP-Adressen über das VCN-DNS oder ein DNS eines Drittanbieters zu verwenden, aktivieren Sie dieses Kontrollkästchen. Nach der Erstellung des VCN kann diese Option nicht mehr geändert werden.
Nächster.
Das Dialogfeld Prüfen und erstellen wird angezeigt (hier nicht dargestellt), um alle eingegebenen Werte zu bestätigen, die Namen der Netzwerkkomponenten sowie DNS-Informationen.

Beispiel:
- DNS-Label für VCN: trainingvcn
- DNS-Domainname für VCN: trainingvcn.oraclevcn.com
- DNS-Label für öffentliches Subnetz: sub07282019130
- DNS-Label für privates Subnetz: sub07282019131
Erstellen, um Ihr VCN zu erstellen.

Das Dialogfeld Ressourcen erstellen wird angezeigt (hier nicht dargestellt) und zeigt alle VCN-Komponenten an, die erstellt werden.
Virtuelles Cloud-Netzwerk anzeigen und die neuen VCN-Details anzeigen.

Aufgabe 8: Ingress-Regel für Apache Ambari erstellen

Um mit ssh auf die Knoten zuzugreifen, öffnet der Assistent VCN starten automatisch Port 22 in Ihrem öffentlichen Subnetz. Um andere Ports zu öffnen, müssen Sie der Sicherheitsliste Ihres VCN Ingress-Regeln hinzufügen.

In diesem Abschnitt fügen Sie dem öffentlichen Subnetz eine Ingress-Regel hinzu, um den Zugriff auf Apache Ambari zu ermöglichen.

Öffnen des Navigationsmenüs, und wählen Sie Networking aus. Wählen Sie dann Virtuelle Cloud-Netzwerke aus.
Wählen Sie das VCN aus, das Sie mit dem Assistenten erstellt haben.
Wählen Sie <your-public-subnet-name> aus.
Klicken Sie im Abschnitt Sicherheitslisten auf den Link Standardsicherheitsliste.
Wählen Sie Ingress-Regeln hinzufügen aus.
Geben Sie die folgenden Informationen für die Ingress-Regel ein.
Geben Sie die Ingress-Regel wie folgt ein:
- Zustandslos: Deaktivieren Sie das Kontrollkästchen.
- Quelltyp: CIDR
- Quell-CIDR: 0.0.0.0/0
- IP-Protokoll: TCP
- Quellportbereich: (leer lassen)
- Zielportbereich: 7183
- Beschreibung: Zugriff auf Apache Ambari auf dem ersten Utilityknoten.
Wählen Sie Ingress-Regel hinzufügen aus.
Vergewissern Sie sich, dass die Regel in der Liste der Ingress-Regeln angezeigt wird.

Übung 2. Hochverfügbares ODH-Cluster erstellen

Erstellen Sie ein HA-Cluster, und überwachen Sie die Schritte.

Aufgabe 1: HA-ODH-Cluster erstellen

Melden Sie sich bei der Oracle Cloud-Konsole an.
Öffnen Sie das Navigationsmenü, und wählen Sie Analysen und KI aus. Wählen Sie unter Data Lake die Option Big Data Service aus.
Öffnen Sie im Abschnitt Listengeltungsbereich die Dropdown-Liste Compartment, und wählen Sie die Option <your-compartment-name> aus, die Sie im Tutorial "Erste Schritte" erstellt haben. Beispiel: training-compartment.
Cluster erstellen.
Geben sie im Fensterbereich Cluster erstellen die Clusterdetails an:
- Clustername: training-cluster .
- Admin-Kennwort des Clusters: Geben Sie ein cluster admin password Ihrer Wahl ein, wie Training123 . Wichtig: Sie benötigen dieses Kennwort, um sich bei Apache Ambari anzumelden und bestimmte Aktionen im Cluster über die Konsole auszuführen.
- Admin-Kennwort des Clusters bestätigen: Bestätigen Sie Ihr Kennwort.
- Sicher & hochverfügbar (HA): Aktivieren Sie dieses Kontrollkästchen, um das Cluster sicher und hochverfügbar zu machen. Ein sicheres Cluster hat den vollständigen Hadoop-Sicherheitsstack, einschließlich HDFS Transparent Encryption, Kerberos und Apache Sentry. Diese Einstellung kann während der Nutzungsdauer des Clusters nicht geändert werden.
- Clusterversion: ODH <latest-version>.
Geben Sie im Abschnitt Hadoop-Knoten > Master-/Utilityknoten die folgenden Details an:
- Instanztyp auswählen: Virtual Machine .
- Ausprägung der Master-/Utilityknotens wählen: VM.Standard2.4 .
- Blockspeichergröße pro Master-/Utilityknoten (in GB): 150 GB .
- Anzahl Master- und Utilityknoten Schreibgeschützt : Da Sie ein HA-Cluster erstellen, werden in diesem Feld 4 Knoten angezeigt: 2 Masterknoten und 2 Utilityknoten. Bei einem Nicht-HA-Cluster würden in diesem Feld nur 2 Knoten angezeigt: 1 Masterknoten und 1 Utilityknoten.
Geben Sie im Abschnitt Hadoop-Knoten > Worker-Knoten die folgenden Details an:
- Instanztyp auswählen: Virtual Machine .
- Ausprägung des Worker-Knotens auswählen: VM.Standard2.1 .
- Blockspeichergröße pro Worker-Knoten (in GB): 150 GB .
- Anzahl Worker-Knoten: 3 . Drei ist das zulässige Minimum für ein Cluster.
Geben Sie im Abschnitt Netzwerkeinstellungen > Privates Clusternetzwerk die folgenden Details an:
- CIDR-BLOCK: 10.1.0.0/24. Dieser CIDR-Block weist einen Bereich von 256 zusammenhängenden IP-Adressen zu, 10.1.0.0 bis 10.1.0.255 . Die IP-Adressen sind für das private Netzwerk des Clusters verfügbar, das BDS für das Cluster erstellt. Dieses private Netzwerk wird im Oracle-Mandanten erstellt (also nicht in Ihrem Kundenmandanten). Es wird ausschließlich für die private Kommunikation zwischen den Knoten des Clusters verwendet. Kein anderer Traffic durchläuft dieses Netzwerk. Externe Hosts können nicht darauf zugreifen, und Sie können es nach der Erstellung nicht ändern. Alle Ports in diesem privaten Netzwerk sind geöffnet.
  Hinweis
  
  Verwenden Sie den obigen CIDR-Block anstelle des bereits angezeigten CIDR-Blockbereichs, um eine mögliche Überschneidung der IP-Adressen mit dem CIDR-Blockbereich für das training-vcn-VCN zu vermeiden, das Sie in Übung 1 erstellt haben.
Geben Sie im Abschnitt Netzwerkeinstellung > Kundennetzwerk die folgenden Details an:
- VCN in training-compartment auswählen: training-vcn. Dies ist das VCN, das Sie im Tutorial für erste Schritte erstellt haben. Das VCN muss ein regionales Subnetz enthalten.
  Hinweis
  
  Stellen Sie sicher, dass training-compartment ausgewählt ist. Klicken Sie andernfalls auf den Link Compartment ändern, suchen Sie nach training-compartment , und wählen Sie ihn aus.
- Wählen Sie das regionale Subnetz in training-compartment aus: Public Subnet-training-vcn . Dies ist das öffentliche Subnetz, das für Sie erstellt wurde, als Sie im Tutorial "Erste Schritte" Ihr VCN training-vcn erstellt hatten.
- Netzwerkoptionen: Deploy Oracle-managed Service gateway and NAT gateway (Quick Start). Diese Option vereinfacht die Netzwerkkonfiguration, indem sie es Oracle gestattet, diese Kommunikationsgateways für die private Verwendung durch das Cluster bereitzustellen und zu verwalten. Diese Gateways werden im Oracle-Mandanten erstellt und können nach der Erstellung des Clusters nicht mehr geändert werden.
  Hinweis
  
  Wählen Sie die Option Verwenden Sie die Gateways im ausgewählten Kunden-VCN (Anpassbar), wenn Sie mehr Kontrolle über die Netzwerkkonfiguration haben möchten.
Klicken Sie im Abschnitt Weitere Optionen > SSH-Public Key auf SSH-Public-Key-Datei auswählen.
Fügen Sie den Public Key hinzu, den Sie im Tutorial für erste Schritte erstellt haben. Ihr Public Key hat die Erweiterung .pub. Beispiel: big-data-key.pub
Cluster erstellen. Die Seite Cluster wird erneut angezeigt. Der Status des Clusters lautet anfänglich Wird erstellt.

Wenn Sie diesen Workshop mit einem kostenlosen Testaccount ausführen, empfiehlt Oracle, das BDS-Cluster nach Abschluss des Workshops zu löschen, um unnötige Gebühren zu vermeiden.

Aufgabe 2: Services im HA-Cluster prüfen

Die training-cluster ist ein hochverfügbares (HA-)Cluster. In allen ODH-HA-Clustern sind die Services wie folgt verteilt:

Masterknoten Utilityknoten Worker-Knoten, traininwn0, traininwn1, traininwn2

Masterknoten	Utilityknoten	Worker-Knoten, `traininwn0`, `traininwn1`, `traininwn2`
Erster Masterknoten `traininmn0` Ambari Metrics Monitor HDFS-Client HDFS JournalNode HDFS NameNode HDFS ZKFailoverController Hive-Client Kerberos-Client MapReduce2-Client Spark3-Client Spark3 History Server YARN-Client YARN ResourceManager ZooKeeper-Server Zweiter Masterknoten `traininmn1` Ambari Metrics Monitor HDFS-Client HDFS JournalNode HDFS NameNode HDFS ZKFailoverController Kerberos-Client MapReduce2-Client MapReduce2 History Server Spark3-Client Tez-Client YARN-Client YARN Registry DNS YARN ResourceManager YARN Timeline Service V1.5 ZooKeeper-Server	Erster Utilityknoten `traininun0` Ambari Metrics Monitor Ambari Server HDFS-Client HDFS JournalNode Hive Metastore HiveServer2 Kerberos-Client MapReduce2-Client Oozie-Server Spark3-Client Tez-Client YARN-Client ZooKeeper-Client ZooKeeper-Server Zweiter Utilityknoten `traininun1` Ambari Metrics Collector Ambari Metrics Monitor HDFS-Client Hive-Client Kerberos-Client MapReduce2-Client Spark3-Client YARN-Client	Ambari Metrics Monitor HDFS DataNode HDFS-Client Hive-Client Kerberos-Client MapReduce2-Client Oozie-Client Spark3-Client Spark3 Thrift Server Tez-Client YARN-Client YARN NodeManager ZooKeeper-Client

Erster Masterknoten traininmn0

Ambari Metrics Monitor
HDFS-Client
HDFS JournalNode
HDFS NameNode
HDFS ZKFailoverController
Hive-Client
Kerberos-Client
MapReduce2-Client
Spark3-Client
Spark3 History Server
YARN-Client
YARN ResourceManager
ZooKeeper-Server

Zweiter Masterknoten traininmn1

Ambari Metrics Monitor
HDFS-Client
HDFS JournalNode
HDFS NameNode
HDFS ZKFailoverController
Kerberos-Client
MapReduce2-Client
MapReduce2 History Server
Spark3-Client
Tez-Client
YARN-Client
YARN Registry DNS
YARN ResourceManager
YARN Timeline Service V1.5
ZooKeeper-Server

Erster Utilityknoten traininun0

Ambari Metrics Monitor
Ambari Server
HDFS-Client
HDFS JournalNode
Hive Metastore
HiveServer2
Kerberos-Client
MapReduce2-Client
Oozie-Server
Spark3-Client
Tez-Client
YARN-Client
ZooKeeper-Client
ZooKeeper-Server

Zweiter Utilityknoten traininun1

Ambari Metrics Collector
Ambari Metrics Monitor
HDFS-Client
Hive-Client
Kerberos-Client
MapReduce2-Client
Spark3-Client
YARN-Client

Ambari Metrics Monitor
HDFS DataNode
HDFS-Client
Hive-Client
Kerberos-Client
MapReduce2-Client
Oozie-Client
Spark3-Client
Spark3 Thrift Server
Tez-Client
YARN-Client
YARN NodeManager
ZooKeeper-Client

Aufgabe 3: Clustererstellung überwachen

Die Erstellung des Clusters dauert etwa eine Stunde. Sie können den Fortschritt der Clustererstellung wie folgt überwachen:

Um die Clusterdetails anzuzeigen, wählen Sie in der Spalte Name die Option training-cluster aus, um die Seite Clusterdetails anzuzeigen.
Auf der Registerkarte Clusterinformationen werden die allgemeinen Informationen und das Netzwerk des Clusters angezeigt.
Im Abschnitt Liste der Clusterknoten werden für jeden Knoten im Cluster folgende Informationen angezeigt: Name, Status, Typ, Ausprägung, private IP-Adresse und Erstellungsdatum und -uhruhrzeit.

Note

The name of a node is the concatenation of the first seven letters of the cluster's name, trainin , followed by two letters representing the node type such as mn for a Master node, un for a Utility node, and wn for a Worker node. Der numerische Wert gibt die Knotentyp-Reihenfolge in der Liste an, wie Knoten 0 , 1 und 2 .
Um die Details eines Knotens anzuzeigen, wählen Sie in der Spalte Name den Namenlink des Knotens aus. Beispiel: Wählen Sie den Masterknoten traininmn0 in die Spalte Name, um die Seite Knotendetails anzuzeigen.

Auf der Registerkarte Knoteninformationen werden allgemeine Informationen zum Knoten und die Netzwerkinformationen angezeigt.

Der Abschnitt Knotenmetriken unten auf der Seite Knotendetails wird nach der Bereitstellung des Clusters angezeigt. Die folgenden Diagramme werden angezeigt: CPU-Auslastung, Speicherauslastung, Netzwerkbyte eingehend, Netzwerkbyte ausgehend und Datenträgerauslastung. Sie können mit der Maus auf ein beliebiges Diagramm zeigen, um weitere Details zu erhalten.
über den Link Clusterdetails in den Navigationspfaden am oberen Seitenrand können Sie die Seite Clusterdetails erneut anzeigen.
Wählen Sie links im Abschnitt Ressourcen die Option Arbeitsanforderungen aus.
Im Abschnitt Arbeitsanforderungen auf der Seite werden der Status der Clustererstellung und andere Details wie Vorgang, Status, % abgeschlossen, Akzeptiert, Gestartet und Fertiggestellt angezeigt. Der Name-Link CREATE_BDS in der Spalte Vorgang.
Auf der Seite CREATE_BDS werden die Arbeitsanforderungsinformationen, Logs und etwaige Fehler angezeigt.
den Link Cluster im Navigationspfad am oberen Seitenrand, um die Seite Cluster erneut zu öffnen.
Sobald das Cluster training-cluster erfolgreich erstellt wurde, ändert sich der Status in Aktiv.

Übung 3. Oracle Cloud SQL zum Cluster hinzufügen

Sie fügen Oracle Cloud SQL zu einem Cluster hinzu, damit Sie Ihre Big Data-Quellen mit SQL abfragen können. Wenn Sie Cloud SQL-Unterstützung zu einem Cluster hinzufügen, wird ein Abfrageserverknoten hinzugefügt, und Big-Data-Cell-Server werden auf allen Worker-Knoten erstellt.

Hinweis

Cloud SQL ist nicht in Big Data Service enthalten. Für die Verwendung von Cloud SQL müssen Sie eine zusätzliche Gebühr bezahlen.

Klicken sie auf der Seite Cluster in der Zeile für training-cluster auf die Schaltfläche Aktionen.
Wählen Sie im Kontextmenü die Option Cloud SQL hinzufügen aus.
Im Dialogfeld Cloud SQL hinzufügen geben Sie die folgenden Informationen an:
- Ausprägung des Abfrageserverknoters: Wählen Sie VM.Standard2.4 aus.
- Blockspeicher des Abfrageserverknoters (in GB): Geben Sie 1000 ein.
- Admin-Kennwort des Clusters: Geben Sie das Clusteradministrationskennwort ein, das Sie beim Erstellen des Clusters gewählt haben. Beispiel: Training123 .
Hinzufügen. Die Seite Cluster wird erneut angezeigt. Der Status von training-cluster lautet jetzt Wird aktualisiert, und die Anzahl der Knoten im Cluster wird um 1 erhöht.
Klicken Sie in die Spalte Name auf den Namenslink training-cluster, um die Seite Clusterdetails anzuzeigen. Scrollen Sie nach unten zum Abschnitt Liste der Clusterknoten. Der neu hinzugefügte Cloud SQL-Knoten traininqs0 wird angezeigt.
die Registerkarte Cloud SQL-Informationen, um Informationen zum neuen Cloud SQL-Knoten anzuzeigen.
Arbeitsanforderungen im Abschnitt Ressourcen. Im Abschnitt Arbeitsanforderungen wird der Vorgang ADD_CLOUD_SQL zusammen mit dem Status des Vorgangs und dem Status in Prozent angezeigt. Der Link ADD_CLOUD_SQL.
Auf der Seite Arbeitsanforderungsdetails werden Status, Logs und Fehler (falls vorhanden) beim Hinzufügen des Cloud SQL-Knotens zum Cluster angezeigt.
Über den Link Cluster oben in den Navigationspfaden können Sie die Seite Cluster erneut anzeigen. Sobald der Cloud SQL-Knoten erfolgreich zum Cluster hinzugefügt worden ist, ändert sich der Status der Cluster in Aktiv, und die Anzahl der Knoten im Cluster ist jetzt um 1 erhöht.

Übung 4. Private IP-Adressen öffentlichen IP-Adressen zuordnen

Big Data Service-Knoten werden standardmäßig private IP-Adressen zugewiesen, die über das öffentliche Internet nicht zugänglich sind.

Sie müssen die Knoten im Cluster verfügbar machen, indem Sie Verbindungen zum Knoten herstellen. In diesem Workshop ordnen Sie die privaten IP-Adressen der Knoten im Cluster öffentlichen IP-Adressen zu, um sie im Internet öffentlich verfügbar zu machen. Es wird davon ausgegangen, dass die Veröffentlichung der IP-Adresse ein akzeptables Sicherheitsrisiko darstellt.

Hinweis

VPN Connect und OCI FastConnect stellen mit einem Bastionhost Optionen bereit, die mehr Privatsphäre und Sicherheit bieten als die Offenlegung der IP-Adresse.

In dieser Übung verwenden Sie Oracle Cloud Infrastructure Cloud Shell, ein browserbasiertes Terminal, auf das von der Oracle Cloud-Konsole aus zugegriffen werden kann.

Aufgabe 1: Erforderliche Informationen erfassen

Öffnen Sie das Navigationsmenü, und wählen Sie Analysen und KI aus. Wählen Sie unter Data Lake die Option Big Data Service aus.
Klicken Sie auf der Seite Cluster in der Spalte Name auf den Link training-cluster , um die Seite Clusterdetails anzuzeigen.
Klicken Sie in der Registerkarte Clusterinformationen im Abschnitt Informationen zum Kundennetzwerk neben Subnetz-OCID auf den Link Kopieren. Fügen Sie diese OCID in einen Editor oder eine Datei ein. Sie benötigen sie später in diesem Workshop.
Suchen Sie auf derselben Seite im Abschnitt Liste der Clusterknoten in der Spalte IP-Adresse die privaten IP-Adressen für den Utilityknoten traininun0 , den Masterknoten traininmn0 und den Cloud SQL-Knoten traininqs0 . Speichern Sie die IP-Adressen. Sie benötigen sie bei nachfolgenden Aufgaben erneut.

Aufgabe 2: Private IP-Adresse des Utilityknotens einer öffentlichen IP-Adresse zuordnen

Ein Utilityknoten enthält in der Regel Utilitys für den Zugriff auf das Cluster. Wenn Sie die Utilityknoten im Cluster öffentlich verfügbar machen, werden die auf den Utilityknoten ausgeführten Services im Internet verfügbar.

In dieser Aufgabe legen Sie mit dem Befehl export drei Variablen festgelegt. Diese Variablen werden im Befehl oci network verwendet, mit denen Sie die private IP-Adresse des Utilityknotens einer neuen öffentlichen IP-Adresse zuordnen.

Klicken Sie oben auf der Seite im Banner der Oracle Cloud-Konsole auf Cloud Shell . Das Herstellen der Verbindung und Ihre Authentifizierung kann etwas Zeit in Anspruch nehmen.
Um das Farb-Thema des Cloud Shell-Hintergrunds von dunkel in hell zu ändern, klicken Sie im Cloud Shell-Banner auf Einstellungen , und wählen Sie im Menü Einstellungen die Option "Theme > Hell" aus.
Geben Sie in der Eingabeaufforderung $ den folgenden Befehl an. display-name ist ein optionaler beschreibender Name, der an die reservierte öffentliche IP-Adresse angehängt wird, die für Sie erstellt wird. Drücken Sie die Taste [Enter] , um den Befehl auszuführen.
```
$ export DISPLAY_NAME="traininun0-public-ip"
```
Geben Sie in der Eingabeaufforderung $ den folgenden Befehl an. Ersetzen Sie die subnet-ocid durch Ihre eigene subnet-ocid , die Sie in Aufgabe 1 dieses Schrittes identifiziert haben. Drücken Sie die Taste [Enter] , um den Befehl auszuführen.
```
$ export SUBNET_OCID="subnet-ocid"
```
Geben Sie in der Eingabeaufforderung $ den folgenden Befehl an. Die private IP-Adresse ist die IP-Adresse, die dem zuzuordnenden Knoten zugewiesen ist. In diesem Fall geben Sie die private IP-Adresse des Utilityknotens an, die Sie in Aufgabe 1 identifiziert haben. Drücken Sie die Taste [Enter] , um den Befehl auszuführen.
```
$ export PRIVATE_IP="ip-address"
```

Geben Sie an der Eingabeaufforderung $ den folgenden Befehl genau wie unten gezeigt ohne Zeilenumbrüche ein, oder klicken Sie auf Kopieren, um den Befehl zu kopieren und ihn dann in die Befehlszeile einzufügen. Drücken Sie die Taste [Enter] , um den Befehl auszuführen.

oci network public-ip create --display-name $DISPLAY_NAME --compartment-id `oci network private-ip list --subnet-id $SUBNET_OCID --ip-address $PRIVATE_IP | jq -r '.data[] | ."compartment-id"'` --lifetime "RESERVED" --private-ip-id `oci network private-ip list --subnet-id $SUBNET_OCID --ip-address $PRIVATE_IP | jq -r '.data[] | ."id"'`

Suchen Sie in der zurückgegebenen Ausgabe den Wert für Das Feld ip-address. Hierbei handelt es sich um die neue reservierte öffentliche IP-Adresse, die der privaten IP-Adresse Ihrer Utility zugeordnet wird.
Um die neu erstellte reservierte öffentliche IP-Adresse in der Konsole anzuzeigen, klicken Sie auf das Menü Navigation, und navigieren Sie zu Networking. Klicken Sie im Abschnitt IP-Verwaltung auf Reservierte IPs. Die neue reservierte öffentliche IP-Adresse wird auf der Seite Reservierte öffentliche IP-Adressen angezeigt. Wenn Sie einen beschreibenden Namen angegeben haben, wie bereits erläutert, wird dieser Name in der Spalte Name angezeigt. Andernfalls wird ein Name wie publicipnnnnnnnnnnn generiert.

Aufgabe 3: Private IP-Adresse des Masterknotens einer öffentlichen IP-Adresse zuordnen

In dieser Aufgabe legen Sie mit dem Befehl export zwei Variablen festgelegt. Diese Variablen werden im Befehl oci network verwendet, mit denen Sie die private IP-Adresse des Masterknotens einer neuen öffentlichen IP-Adresse zuordnen. In der vorherigen Aufgabe haben Sie einen ähnlichen Schritt ausgeführt.

Geben Sie in der Eingabeaufforderung $ den folgenden Befehl an. display-name ist ein optionaler beschreibender Name, der an die reservierte öffentliche IP-Adresse angehängt wird, die für Sie erstellt wird. Drücken Sie die Taste [Enter] , um den Befehl auszuführen.
```
$ export DISPLAY_NAME="traininmn0-public-ip"
```
Sie hat bereits die Variable SUBNET_OCID auf Ihren eigenen subnet-ocid -Wert gesetzt, den Sie in Aufgabe 2 dieses Schrittes identifiziert haben. Sie müssen diese Variable nicht erneut festlegen.
Geben Sie in der Eingabeaufforderung $ den folgenden Befehl an. Die private IP-Adresse ist die IP-Adresse, die dem zuzuordnenden Knoten zugewiesen ist. In diesem Fall geben Sie die private IP-Adresse des ersten Masterknotens an, die Sie in Aufgabe 1 identifiziert haben. Drücken Sie die Taste [Enter] , um den Befehl auszuführen.
```
$ export PRIVATE_IP="ip-address"
```

oci network public-ip create --display-name $DISPLAY_NAME --compartment-id `oci network private-ip list --subnet-id $SUBNET_OCID --ip-address $PRIVATE_IP | jq -r '.data[] | ."compartment-id"'` --lifetime "RESERVED" --private-ip-id `oci network private-ip list --subnet-id $SUBNET_OCID --ip-address $PRIVATE_IP | jq -r '.data[] | ."id"'`

Suchen Sie in der zurückgegebenen Ausgabe den Wert für Das Feld ip-address. Dies ist die neue reservierte öffentliche IP-Adresse, die der privaten IP-Adresse Ihres Masterknotens zugeordnet wird.
Um die neu erstellte reservierte öffentliche IP-Adresse in der Konsole anzuzeigen, klicken Sie auf das Menü Navigation, und navigieren Sie zu Networking. Klicken Sie im Abschnitt IP-Verwaltung auf Reservierte IPs. Die neue reservierte öffentliche IP-Adresse wird auf der Seite Reservierte öffentliche IP-Adressen angezeigt. Wenn Sie einen beschreibenden Namen angegeben haben, wie bereits erläutert, wird dieser Name in der Spalte Name angezeigt. Andernfalls wird ein Name wie publicipnnnnnnnnnnn generiert.

Aufgabe 4: Private IP-Adresse des Cloud SQL-Knotens einer reservierten öffentlichen IP-Adresse zuordnen

In dieser Aufgabe legen Sie mit dem Befehl export zwei Variablen festgelegt. Als Nächstes ordnen Sie mit dem Befehl oci network die private IP-Adresse des Cloud SQL-Knotens einer neuen öffentlichen IP-Adresse zu.

Geben Sie in der Cloud Shell an der Eingabeaufforderung $ den folgenden Befehl ein.
```
$ export DISPLAY_NAME="traininqs0"
```
Sie hat bereits die Variable SUBNET_OCID auf Ihren eigenen subnet-ocid -Wert gesetzt, den Sie in Aufgabe 2 dieses Schrittes identifiziert haben. Sie müssen diese Variable nicht erneut festlegen.
Geben Sie in der Eingabeaufforderung $ den folgenden Befehl an. Die private IP-Adresse ist die IP-Adresse, die dem zuzuordnenden Knoten zugewiesen ist. In diesem Fall geben Sie die private IP-Adresse des Cloud SQL-Knotens an, die Sie in Aufgabe 1 identifiziert haben.
```
export PRIVATE_IP="ip-address"
```

oci network public-ip create --display-name $DISPLAY_NAME --compartment-id `oci network private-ip list --subnet-id $SUBNET_OCID --ip-address $PRIVATE_IP | jq -r '.data[] | ."compartment-id"'` --lifetime "RESERVED" --private-ip-id `oci network private-ip list --subnet-id $SUBNET_OCID --ip-address $PRIVATE_IP | jq -r '.data[] | ."id"'`

Suchen Sie in der zurückgegebenen Ausgabe den Wert für Das Feld ip-address. Dies ist die neue reservierte öffentliche IP-Adresse, die der privaten IP-Adresse Ihres Cloud SQL-Knotens zugeordnet wird.
Um die neu erstellte reservierte öffentliche IP-Adresse in der Konsole anzuzeigen, klicken Sie auf das Menü Navigation, und navigieren Sie zu Networking. Klicken Sie im Abschnitt IP-Verwaltung auf Reservierte IPs. Die neue reservierte öffentliche IP-Adresse wird auf der Seite Reservierte öffentliche IP-Adressen angezeigt.

Aufgabe 5: Reservierte öffentliche IP-Adresse umbenennen

In dieser Aufgabe bearbeiten Sie eine öffentliche IP-Adresse sowohl mit der Cloud-Konsole als auch mit der Cloud Shell.

Navigieren Sie im Menü Navigation zu Networking. Klicken Sie im Abschnitt IP-Verwaltung auf Reservierte IPs. Die neuen reservierten öffentlichen IP-Adressen, die Sie in diesem Schritt erstellt haben, werden auf der Seite Reservierte öffentliche IP-Adressen angezeigt.
Ändern Sie den Namen der öffentlichen IP-Adresse, die dem Cloud SQL-Knoten zugeordnet ist, von traininqs0 in traininqs0-public-ip . Klicken Sie in der Zeile für traininqs0 auf die Schaltfläche Aktionen, und wählen Sie im Kontextmenü die Option Umbenennen aus.
Geben Sie im Dialogfeld Umbenennen in das Feld Name reservierte öffentliche IP den Wert traininqs0-public-ip ein, und klicken Sie dann auf Änderungen speichern.
Die umbenannte öffentliche IP-Adresse wird angezeigt.

Sie können öffentliche IP-Adressen auch mit der OCI-CLI bearbeiten. Siehe OCI-CLI-Befehlsreferenz - public-ip.

Wichtig

Löschen Sie keine Ihrer öffentlichen IP-Adressen, denn Sie benötigen sie für dieses Tutorial.

Übung 5. Mit Apache Ambari auf das Cluster zugreifen

In dieser Aufgabe verwenden Sie Apache Ambari für den Zugriff auf das Cluster. In einem Big Data-Cluster wird der Apache Ambari auf dem ersten Utilityknoten, traininun0 , ausgeführt. Sie verwenden die reservierte öffentliche IP-Adresse, die mit traininun0 verknüpft ist, die Sie in Aufgabe 2 von Übung 4 erstellt haben.

Bevor Sie mit einem Webbrowser auf Apache Ambari auf dem Utilityknoten zugreifen können, müssen Sie den mit dem Service verknüpften Port geöffnet und die private IP-Adresse einer öffentlichen IP-Adresse zugeordnet haben.

Öffnen Sie ein Webbrowserfenster, und geben Sie die folgende URL ein. Ersetzen Sie die ip-address durch Ihre eigene ip-address , die mit dem von Ihnen erstellten Utilityknoten traininun0 in Ihrem Cluster verknüpft ist. Um Ihre reservierte öffentliche IP-Adresse in der Konsole anzuzeigen, klicken Sie auf das Menü Navigation, und navigieren Sie zu Networking. Klicken Sie im Abschnitt IP-Verwaltung auf Reservierte IPs. Die reservierte öffentliche IP-Adresse wird auf der Seite Reservierte öffentliche IP-Adressen angezeigt.
```
https://<ip-address>:7183
```
Geben Sie auf dem Anmeldebildschirm die folgenden Informationen ein:
- username : admin
- password: Kennwort, das Sie beim Erstellen des Clusters angegeben hat
Anmelden.
Beachten Sie im Dashboard oben rechts den Namen des Clusters und in der linken Navigation die im Cluster ausgeführten Services.
Hosts. Die Hosts des Clusters werden angezeigt. Hosts werden mit einer oder mehreren Komponenten konfiguriert, die jeweils einem Service entsprechen. Die Komponente gibt an, welcher Daemon (auch als Service bezeichnet) auf dem Host ausgeführt wird. In der Regel führt ein Host mehrere Komponenten zur Unterstützung der verschiedenen Services aus, die im Cluster ausgeführt werden.
Führen Sie ein Drilldown für die Komponenten aus, die mit dem Masterknoten im Cluster traininmn0 verknüpft sind.
Die auf dem Masterknoten ausgeführten Services und Komponenten werden angezeigt, darunter HDFS NameNode, Spark3 History Server, YARN's Registry DNS und Yarn's ResourceManager.
Beenden Sie Apache Ambari. Wählen Sie im Dropdown-Menü Benutzer die OptionSign Out aus.

Übung 6. Hadoop-Administratorbenutzer erstellen

Aufgabe 1: Verbindung zum Masterknoten herstellen

In dieser Aufgabe stellen Sie eine Verbindung zum Masterknoten des Clusters her, indem Sie SSH als Benutzer opc (Standardbenutzer von "Oracle Public Cloud") verwenden.

Bei Erstellen eines Clusters haben Sie den SSH-Public Key verwendet, um die Knoten zu erstellen. In diesem Abschnitt verwenden Sie den entsprechenden Private Key, um eine Verbindung zum Masterknoten herzustellen.

Öffnen des Navigationsmenüs, und wählen Sie Networking aus. Wählen Sie unter IP Management die Option Reservierte IPs aus.
Kopieren Sie die reservierte öffentliche IP trainingmn0-publib-ip . Mit dieser IP-Adresse können Sie eine Verbindung zu Ihrem Masterknoten herstellen.
Öffnen Sie ein Terminalfenster oder eine Eingabeaufforderung mit einer Anwendung wie GitBash.
Wechseln Sie in das Verzeichnis, in dem sich die SSH-Verschlüsselungsschlüssel befinden, die Sie im Tutorial für erste Schritte erstellt haben.
Stellen Sie mit diesem ssh-Befehl eine Verbindung zu Ihrem Knoten her. Ihr Private Key hat keine Erweiterung. Beispiel: big-data-key.
```
ssh -i <your-private-key-file> opc@<public-ip-address>
```
Da Sie den Public Key beim Erstellen der Knoten angegeben haben, werden Sie mit diesem Befehl bei der Instanz angemeldet. Sie können jetzt sudo-Befehle ausgeben, um einen Linux-Administrator zu erstellen.

Aufgabe 2: Linux-BS-Administratorbenutzer erstellen

Erstellen Sie den Linux-Administratorbenutzer training und die BS-Gruppe supergroup . Weisen Sie training die Superuser-Gruppe supergroup als primäre Gruppe und hdfs, hadoop und hive als sekundäre Gruppen zu.

Der Benutzer opc hat sudo -Berechtigungen für das Cluster und kann deshalb zum Benutzer root wechseln und privilegierte Befehle ausführen. Wechseln Sie wie folgt zum Benutzer root:
```
sudo bash
```
Mit dem Utility dcli können Sie den von Ihnen angegebenen Befehl auf allen Knoten des Clusters ausführen. Das Utility dcli hat folgende Syntax:
```
dcli [option] [command]
```
Verwenden Sie die Option -C , um den angegebenen Befehl auf allen Knoten im Cluster auszuführen.

Geben Sie in der Eingabeaufforderung # den folgenden Befehl ein, um die BS-Gruppe supergroup zu erstellen, die als Gruppe superuser in hadoop definiert ist.
```
dcli -C "groupadd supergroup"
```
Geben Sie an der Eingabeaufforderung # den folgenden Befehl an, um den Administratorbenutzer training zu erstellen und den aufgelisteten Gruppen jedes Knotens in training-cluster hinzuzufügen. Der linux-Befehl useradd erstellt den neuen Benutzer training und fügt ihn den angegebenen Gruppen hinzu.
```
dcli -C "useradd -g supergroup -G hdfs,hadoop,hive training"
```
Mit dem vorherigen Befehl wird ein neuer Benutzer mit dem Namen training auf jedem Knoten des Clusters erstellt. Mit dieser Option -g wird die Gruppe supergroup als primäre Gruppe für training zugewiesen. Mit dieser Option -G werden die Gruppen hdfs , hadoop und hive als sekundäre Gruppen für training zugewiesen.

Hinweis

Da der Benutzer training der Gruppe hive angehört, wird es als Administrator für Sentry betrachtet.
Mit dem linux-Befehl id können Sie die Erstellung des neuen Benutzers bestätigen und dessen Gruppenmitgliedschaft auflisten.
```
id training
```
Sie können nun mit dem neuen Administratorbenutzer training auf jedem Knoten im Cluster auf HDFS zugreifen, wie in diesem Beispiel im ersten Masterknoten. Wechseln Sie wie folgt zum Benutzer training:
```
sudo -su training
```
Bestätigen Sie mit dem linux-Befehl id, dass Sie jetzt als Benutzer training angemeldet sind.
```
id
```
Führen Sie als Benutzer training für HDFS eine Dateiauflistung mit dem folgenden Befehl aus:
```
hadoop fs -ls /
```

Aufgabe 3: Kerberos-Principal für Administrator "training" erstellen

In diesem Schritt erstellen Sie einen neuen Kerberos-Principal mit dem Namen training . Identitäten in Kerberos werden als Principals bezeichnet. Jeder Benutzer und Service, der das Kerberos-Authentifizierungsprotokoll verwendet, benötigt einen Principal, um sich eindeutig zu identifizieren. Es gibt Benutzer-Principals und Service-Principals. Benutzer-Principal-Namen oder UPNs stellen normale Benutzer wie training dar.

Der Benutzer opc hat sudo -Berechtigungen für das Cluster und kann deshalb zum Benutzer root wechseln und privilegierte Befehle ausführen. Wechseln Sie wie folgt zum Benutzer root:
```
sudo bash
```
Stellen Sie eineVerbindung zum Kerberos Schlüsselverteilungscenter (KDC) her. Mit dem Utility kadmin.local kann der root-Benutzer des KDC-Servers direkt auf die Kerberos-Datenbank zugreifen und sie ändern. Siehe MIT Kerberos-Dokumentation und Oracle Big Data Appliance sichern.
Geben Sie in der Eingabeaufforderung # den folgenden Befehl an:
```
kadmin.local
```
Geben Sie an der Eingabeaufforderung kadmin.local den Befehl addprinc ein, um einen neuen Kerberos-Principal namens training hinzuzufügen. Wenn Sie zur Angabe eines Kennworts aufgefordert werden, geben Sie Training123 ein, und bestätigen Sie das Kennwort. Sie benötigen das Kennwort später in diesem Schritt. Siehe addprinc in der Kerberos-Dokumentation.
```
kadmin.local: addprinc training
```
Der Kerberos-Principal training@BDACLOUDSERVICE.ORACLE.COM wird der Kerberos-Datenbank hinzugefügt. training ist der Benutzer-Principal, und BDACLOUDSERVICE.ORACLE.COM ist die Realm. Eine Kerberos-Realm ist eine administrative Authentifizierungsdomain. Alle Principals werden einer bestimmten Kerberos-Realm zugewiesen. Geben Sie exit ein, um das KDC zu beenden.
Geben Sie exit an der Befehlszeileneingabeaufforderung kadmin.local ein, um zur Eingabeaufforderung # zurückzukehren.

Aufgabe 4: Mit dem neuen Administratorbenutzer "training" auf HDFS zugreifen

Melden Sie sich bei einer der Big Data Service-Knoten an und wie dem ersten Masterknoten, rufen Sie ein Kerberos-Ticket für den Benutzer training ab, und führen Sie eine Dateiauflistung von HDFS durch.

Sie können mit dem neuen Administratorbenutzer training auf einen beliebigen Knoten im Cluster zugreifen, wie in diesem Beispiel ersten Masterknoten. Wechseln Sie wie folgt zum Benutzer training:
```
sudo -su training
```
Sie sind jetzt als Administratorbenutzer training verbunden.
Führen Sie mit dem folgenden Befehl eine Dateiauflistung für HDFS aus:
```
hadoop fs -ls /
```
Der Befehl wird nicht erfolgreich ausgeführt. Dies ist ein sicheres und hochverfügbarer Cluster. Bevor Sie als Benutzer training auf HDFS zugreifen können, müssen Sie mit dem Tool kinit ein Kerberos-Ticket (Authentifizierungsanforderung) anfordern.
fordern Sie mit dem Tool training ein Kerberos-Ticket für den Benutzer kinit an. Geben Sie Training123 als Kennwort an, wenn Sie dazu aufgefordert werden. Weitere Details finden Sie unter kinit.
```
kinit training
```
Mit dem Utility klist können Sie feststellen, welche Kerberos-Zugangsdaten ggf. in Ihrem Zugangsdatencache vorhanden ist. Der Zugangsdatencache ist der Speicherort in Ihrem lokalen Dateisystem, an dem Kerberos-Tickets nach erfolgreicher Authentifizierung gespeichert werden. Der Standardspeicherort für den Zugangsdatencache ist die Datei /tmp/krb5cc_<uid>, wobei <uid> die numerische Benutzer-ID im lokalen System ist. In unserem Beispiel ist die <uid> 1005. Der Standard-Principal ist das Ticket, das für den Benutzer training erstellt wurde.
```
klist
```
Führen Sie mit dem folgenden Befehl eine Dateiauflistung für HDFS aus:
```
hadoop fs -ls /
```
Der Befehl funktioniert, weil Sie als Benutzer training jetzt ein gültiges Kerberos-Ticket haben.

Übung 7. Daten in HDFS und Object Storage hochladen

In diesem Schritt laden Sie zwei Skripte herunter und führen sie aus.

Erstens laden Sie die Hadoop Distributed File System-(HDFS-)Skripte herunter und führen sie aus, um Daten von Citi Bikes NYC in ein neues lokales Verzeichnis auf Ihrem Masterknoten in Ihrem BDS-Cluster herunterzuladen. Die HDFS-Skripte bearbeiten einige der heruntergeladenen Datendateien und laden sie dann in neue HDFS-Verzeichnisse hoch. Die HDFS-Skripte erstellen auch Hive-Datenbanken und -Tabellen, die Sie mit Hue abfragen.

Zweitens laden Sie die Objektspeicherskripte herunter und führen sie aus, um Daten von Citi Bikes NYC mit OCI Cloud Shell in Ihr lokales Verzeichnis herunterzuladen. Die Objektspeicherskripte laden die Daten in einen neuen Bucket in Object Storage hoch. Informationen zum Citi Bikes NYC-Datenlizenzvertrag finden Sie unter Datenlizenzvertrag.

Aufgabe 1: Details zum Compartment und zur reservierten öffentlichen IP-Adresse erfassen

Öffnen Sie das Navigationsmenü, und wählen Sie Identität und Sicherheit aus. Wählen Sie unter Identität die Option Compartments aus.
Suchen Sie in der Liste der Compartments nach dem training-compartment. In der Zeile für das Compartment bewegen Sie in der Spalte OCID den Mauszeiger über den OCID-Link, und klicken Sie dann auf Kopieren. Fügen Sie diese OCID in einen Editor oder eine Datei ein, damit Sie sie später in diesem Schritt abrufen können.
Navigieren Sie im Menü Navigation zu Networking > Reservierte IPs. Die Seite Reservierte öffentliche IP-Adressen wird angezeigt. Stellen Sie sicher, dass im Listengeltungsbereich im linken Fensterbereich das training-compartment ausgewählt ist.
Kopieren Sie die reservierte öffentliche IP-Adresse in der Zeile für die reservierte IP-Adresse traininmn0-public-ip, die mit dem Masterknoten verknüpft ist, in der Spalte Reservierte öffentliche IP. Fügen Sie diese IP-Adresse in einen Editor oder in eine Datei ein, damit Sie sie später in diesem Schritt abrufen können. Falls Sie Ihre SSH-Verbindung in Schritt 5 nicht gespeichert haben, benötigen Sie diese IP-Adresse für die SSH-Verbindung mit dem Masterknoten.

Aufgabe 2: Verbindung zum Masterknoten als neuer Benutzer herstellen

In dieser Aufgabe stellen Sie mit SSH als Hadoop-Administratorbenutzer training eine Verbindung zum Masterknoten in dem Cluster, den Sie in Schritt 5 erstellt haben.

In dieser Aufgabe stellen Sie als Benutzer training, den Sie in Schritt 5: Hadoop-Administratorbenutzer erstellen erstellt haben, eine Verbindung zu dem Masterknoten ein.

Stellen Sie mit diesem ssh-Befehl eine Verbindung zum Masterknoten her:
```
ssh -i <your-private-key-file> opc@<public-ip-address>
```
Melden sie sich als Hadoop-Administratorbenutzer training an, den Sie in Schritt 5 erstellt haben.
```
sudo -su training
```
Verwenden Sie den Befehl id, um zu bestätigen, dass Sie als Hadoop-Administratorbenutzer training angemeldet sind.
```
id
```
Ändern Sie mit dem Befehl cd das Arbeits Verzeichnis in das Arbeits Verzeichnis des Benutzers training . Bestätigen Sie mit dem Befehl pwd, dass Sie sich im Arbeitsverzeichnis training befinden:
```
cd
```
```
pwd
```

Aufgabe 3: HDFS-Skripte herunterladen und zum Einrichten der HDFS-Daten ausführen

In dieser Aufgabe laden Sie zwei Skripte herunter, die Ihre HDFS-Umgebung einrichten und das HDFS-Dataset aus Citibike System Data herunterladen. Die Skripte und eine randomisierte Wetterdatendatei werden in einem öffentlichen Bucket in Object Storage gespeichert.

Die Citi Bikes-Datendateien mit Fahrtdetails (in komprimiertem Format) werden zuerst in ein neues lokales Verzeichnis heruntergeladen. Anschließend werden die Dateien dekomprimiert, und die Headerzeile wird aus jeder Datei entfernt. Schließlich werden die aktualisierten Dateien in ein neues HDFS-Verzeichnis /data/biketrips hochgeladen. Als Nächstes wird eine neue Hive-Datenbank bikes mit zwei Hive-Tabellen erstellt. bikes.trips_ext ist eine externe Tabelle, die über die Quelldaten definiert wird. Die Tabelle bikes.trips wird aus dieser Quelle erstellt. Dabei handelt es sich um eine partitionierte Tabelle, in der die Daten im Parquet-Format gespeichert sind. Die Tabellen werden mit Daten aus den Dateien .csv im Verzeichnis /data/biketrips aufgefüllt.

Die Stationsdatendatei wird von der Seite station information heruntergeladen (und dann bearbeitet). Die aktualisierte Datei wird dann in ein neues HDFS-Verzeichnis /data/stations hochgeladen.

Die Wetterdaten werden aus einem öffentlichen Bucket in Object Storage heruntergeladen. Als Nächstes wird die Headerzeile aus der Datei entfernt. Die aktualisierte Datei wird dann in ein neues HDFS-Verzeichnis /data/weather hochgeladen. Als Nächstes werden eine neue weather-Hive-Datenbank und die Tabelle weather.weather_ext erstellt und mit Daten aus der Datei weather-newark-airport.csv im Verzeichnis /data/weather aufgefüllt.

Hinweis

Navigieren Sie zur Seite Citibike System Data, um alle verfügbaren Datendateien anzuzeigen. Klicken Sie im Abschnitt Citi Bike Trip Histories auf downloadable files of Citi Bike trip data. Auf der Seite Index of bucket "tripdata" werden die verfügbaren Datendateien angezeigt. In dieser Übung verwenden Sie nur einige der Datendateien auf dieser Seite.

Führen Sie den folgenden Befehlaus, um das Skript env.sh aus einem öffentlichen Bucket in Object Storage im Arbeitsverzeichnis training herunterzuladen. Mit diesem Skript richten Sie Ihre HDFS-Umgebung ein.
```
wget https://objectstorage.us-phoenix-1.oraclecloud.com/n/oraclebigdatadb/b/workshop-data/o/bds-livelabs/env.sh
```
Führen Sie den folgenden Befehlaus, um das Skript download-all-hdfs-data.sh aus einem öffentlichen Bucket in Object Storage im Arbeitsverzeichnis training herunterzuladen. Sie führen dieses Skript aus, um das Dataset in Ihr lokales Arbeitsverzeichnis herunterzuladen. Das Skript lädt diese Daten dann in HDFS hoch.
```
wget https://objectstorage.us-phoenix-1.oraclecloud.com/n/oraclebigdatadb/b/workshop-data/o/bds-livelabs/download-all-hdfs-data.sh
```
Fügen Sie die Berechtigung execute zu den beiden heruntergeladenen .sh-Dateien wie folgt hinzu:
```
chmod +x *.sh
```
Zeigen Sie den Inhalt der Datei env.sh mit dem Befehl cat an. Diese Datei legt das lokale Zielverzeichnis und die HDFS-Zielverzeichnisse fest.
```
cat env.sh
```
Hinweis

Sie laden die Daten aus Citi Bikes NYC in das neue lokale Zielverzeichnis Downloads herunter, wie in der Datei env.sh angegeben. Sie laden die Daten aus dem lokalen Verzeichnis Downloads in die folgenden neuen HDFS-Verzeichnisse unter dem neuen HDFS-Verzeichnis /data hoch, wie in env.sh und den HDFS-Skripten angegeben: biketrips , stations und weather .
Zeigen Sie mit dem Befehl cat den Inhalt des Skripts download-all-hdfs-data.sh an. Dieses Skript lädt die Skripts download-citibikes-hdfs.sh und download-weather-hdfs.sh in das lokale Arbeitsverzeichnis training herunter, fügt die Ausführungsberechtigung für beide Skripts hinzu und führt dann die beiden Skripts aus.
```
cat download-all-hdfs-data.sh
```
Das Skript download-citibikes-hdfs.sh bewirkt Folgendes:
- Führt das Skript env.sh aus, um Ihre lokalen und HDFS-Zielverzeichnisse einzurichten.
- Lädt die Stationsinformationen von der Citi Bike-Website in das lokale Zielverzeichnis Downloads herunter.
- Erstellt ein neues HDFS-Verzeichnis /data/stations und kopiert die Datei stations.json in dieses HDFS-Verzeichnis.
- Lädt die Datendateien zum Fahrradverleih (die komprimierten .csv-Dateien) von Citi Bikes NYC in das lokale Zielverzeichnis Downloads herunter.
- Dekomprimiert die Dateien für den Fahrradverleih und entfernt die Headerzeile aus jeder Datei.
- Erstellt ein neues HDFS-Verzeichnis /data/biketrips und lädt dann die aktualisierten csv-Dateien in dieses HDFS-Verzeichnis hoch. Als Nächstes werden beiden .sh-Dateien Berechtigungen zur Dateiausführung hinzugefügt.
- Erstellt die Hive-Datenbank bikes mit zwei Hive-Tabellen. bikes.trips_ext ist eine externe Tabelle, die über die Quelldaten definiert wird. bikes.trips wird aus dieser Quelle erstellt. Es handelt sich um eine partitionierte Tabelle, in der die Daten im Parquet-Format gespeichert sind. Die Tabellen werden mit Daten aus den Dateien .csv im Verzeichnis /data/biketrips aufgefüllt.
Das Skript download-weather-hdfs.sh stellt einen zufälligisierten Wetterdatensatz für den Newark Liberty Airport in New Jersey bereit. Es umfasst folgende Inhalte:
- Führt das Skript env.sh aus, um Ihr lokales und HDFS-Zielverzeichnis einzurichten.
- Lädt die Datei weather-newark-airport.csv in die Downloads -Stationsinformationen von der Citi Bike-Website in das lokale Downloads -Zielverzeichnis.
- Entfernt die Headerzeile aus der Datei.
- Erstellt ein neues HDFS-Verzeichnis mit dem Namen /data/weather und lädt die Datei weather-newark-airport.csv dann in dieses HDFS-Verzeichnis herunter.
- Erstellt die Hive-Datenbank weather und die Hive-Tabelle weather.weather_ext. Danach wird die Tabelle mit den Wetterdaten aus der Datei weather-newark-airport.csv im lokalen Verzeichnis Downloads aufgefüllt.
Führen Sie das Skript download-all-hdfs-data.sh wie folgtAus:
```
./download-all-hdfs-data.sh
```
Textnachrichten werden auf dem Bildschirm gescrollt. Nach etwa einer Minute werden die Meldungen Weather data geladen und Done auf dem Bildschirm angezeigt.
Navigieren Sie zum lokalen Verzeichnis Downloads , und zeigen Sie mit dem Befehl ls -l die heruntergeladenen Touren, Stationen und Wetterdatendateien an.
```
cd Downloads
```
Zeigen Sie mit dem Befehl head die ersten beiden Datensätze aus der Datei stations.json an.
```
head -2 stations.json | jq
```
Zeigen Sie mit dem Befehl head die ersten 10 Datensätze aus der Datei weather-newark-airport.csv an.
```
head weather-newark-airport.csv
```
Zeigen Sie mit den folgenden Befehlen die erstellten HDFS-Verzeichnisse an, und listen Sie die Inhalte auf.
```
hadoop fs -ls /data
hadoop fs -ls /data/biketrips
hadoop fs -ls /data/stations
hadoop fs -ls /data/weather
```
Drücken Sie die Taste [Enter] auf Ihrer Tastatur, um den letzten der oben aufgeführten Befehle auszuführen.
Zeigen Sie mit dem folgenden Befehl die ersten 5 Zeilen aus der hochgeladenen Datei JC-201901-citibike-tripdata.csv im HDFS-Ordner /data/biketrips an. Denken Sie daran, dass die Headerzeile für diese hochgeladene Datei .csv entfernt wurde, als Sie das Skript download-citibikes-hdfs.sh ausgeführt haben.
```
hadoop fs -cat /data/biketrips/JC-201902-citibike-tripdata.csv | head -5
```

Aufgabe 4: Object Storage-Skripte herunterladen und ausführen, um Object Storage-Daten einzurichten

In dieser Aufgabe laden Sie zwei Skripte herunter. Die Skripte und eine randomisierte Wetterdatendatei werden in einem öffentlichen Bucket in Object Storage gespeichert.

Die Skripte, die Sie für diesen Abschnitt herunterladen, richten Ihre Object Storage-Umgebung ein und laden das Objektspeicher-Dataset aus Citi Bikes NYC herunter.

Klicken Sie oben in der Seite im Banner der Oracle Cloud-Konsole auf Cloud Shell. Das Herstellen der Verbindung und Ihre Authentifizierung kann etwas Zeit in Anspruch nehmen.
Kopieren, um den folgenden Befehl zu kopieren. Klicken Sie mit die rechte Maustaste, wählen Sie Einfügen aus, und fügen Sie den Inhalt in die Befehlszeile hinzu. Mit diesem Skript richten Sie Ihre Umgebung für die Objektspeicherdaten ein. Drücken Sie die [Enter]-Taste, um den Befehl auszuführen.
```
wget https://objectstorage.us-phoenix-1.oraclecloud.com/n/oraclebigdatadb/b/workshop-data/o/bds-livelabs/env.sh
```
Editieren Sie die heruntergeladene Datei env.sh wie folgt mit dem vi-Editor (oder einem Editor Ihrer Wahl):
```
vi env.sh
```
Um Text eingeben und bearbeiten zu können, drücken Sie an der aktuellen Cursorposition die Taste [i] auf der Tastatur (Einfügemodus). Unten in der Datei wird das Schlüsselwort INSERT angezeigt, um anzugeben, dass Sie jetzt Änderungen an dieser Datei vornehmen können. Scrollen Sie nach unten zu der Zeile, die Sie bearbeiten möchten. Kopieren Sie Ihren Wert von training-compartment-OCID, den Sie in Aufgabe 1 identifiziert haben, und fügen sie ihn zwischen den " " im Befehl export COMPARTMENT_OCID="" ein.

Hinweis

Sie laden die Objektspeicherdaten wie in der Datei env.sh angegeben in den Bucket training hoch.
Drücken sie die Taste [Esc] auf der Tastatur, geben Sie :wq ein, und drücken Sie die Taste [Enter] auf der Tastatur, um Ihre Änderungen zu speichern und vi zu beenden.
Um den folgenden Befehl zu kopieren und anschließend in die Befehlszeile einzufügen, klicken Sie in der Eingabeaufforderung $ auf Kopieren. Sie führen dieses Skript aus, um das Dataset in Ihr lokales Arbeitsverzeichnis herunterzuladen. Anschließend laden Sie diese Daten in ein neues Objekt in einem neuen Bucket hoch. Drücken Sie die [Enter]-Taste, um den Befehl auszuführen.
```
wget https://objectstorage.us-phoenix-1.oraclecloud.com/n/oraclebigdatadb/b/workshop-data/o/bds-livelabs/download-all-objstore.sh
```
Fügen Sie die Berechtigung execute zu den beiden heruntergeladenen .sh-Dateien wie folgt hinzu:
```
chmod +x *.sh
```
Mit dem Befehl cat können Sie den Inhalt dieses Skripts anzeigen. Dieses Skript führt das Skript env.sh aus, lädt download-citibikes-objstore.sh und download-weather-objstore.sh herunter, fügt beiden Skripten die Ausführungsberechtigung hinzu und führt dann die beiden Skripten aus.
```
cat download-all-objstore.sh
```
Mit dem Befehl cat können Sie den Inhalt dieses Skripts anzeigen. Das download-all-objstore.sh -Skript führt das Skript env.sh aus, mit dem die Umgebung eingerichtet ist. Das Skript schreibt einige der Daten aus Citi Bikes NYC und zufällige Wetterdaten, die in einem öffentlichen Bucket in Object Storage gespeichert sind. In das lokale Cloud Shell-Verzeichnis und die neuen Objekte in einem neuen Bucket namens training , wie im Skript env.sh angegeben. Der Bucket training enthält die folgenden neuen Objekte:
- Das Objekt weather , in dem die Wetterdaten gespeichert werden.
- Das Objekt stations , in dem die Stationsdaten gespeichert werden.
- Das Objekt biketrips , in dem die Fahrradtourendaten gespeichert werden.
Führen Sie das Skript download-all-objstore.sh wie folgtAus:
```
./download-all-objstore.sh
```
Textnachrichten werden auf dem Bildschirm gescrollt. Nach einer Minute oder so wird die Meldung Fertig zusammen mit dem Speicherort der Daten (Compartment und Bucket) auf dem Bildschirm angezeigt.
Navigieren Sie zum lokalen Verzeichnis Downloads , um die heruntergeladenen Datendateien anzuzeigen.
Sie können im Menü Navigation zu Speicher navigieren. Klicken Sie im Abschnitt Object Storage & Archive Storage auf Buckets. Die Seite Buckets wird angezeigt. Stellen Sie sicher, dass im Listengeltungsbereich im linken Fensterbereich das training-compartment ausgewählt ist. In der Liste der verfügbaren Buckets wird der neu erstellte Training-Bucket in der Spalte Name angezeigt. Der Link Training.
Die Seite Bucket-Details für den Bucket training wird angezeigt. Scrollen Sie nach unten zum Abschnitt Objekte, um die neu erstellten Objekte biketrips, stations und weather anzuzeigen.
Um die Datendateien in einem Objekt wie dem biketrip-Objekt anzuzeigen, klicken Sie auf Einblenden neben dem Objektnamen. Die in diesem Objekt enthaltenen Dateien werden angezeigt. Um die Liste der Dateien auszublenden, klicken Sie neben dem Objektname auf Ausblenden .
Um die ersten 1 KB des Dateiinhalts (im schreibgeschützten Modus) anzuzeigen, klicken Sie in der Zeile für die Datei auf die Schaltfläche Aktionen, und wählen Sie im Kontextmenü die Option Objektdetails anzeigen aus.

Hinweis

Um alle Daten in einer Datei anzuzeigen, wählen Sie im Kontextmenü die Option Herunterladen aus, und doppelklicken Sie auf die heruntergeladene Datei, um sie mit der nativen Anwendung MS-Excel (.csv) in diesem Beispiel zu öffnen.

Übung 8. Cluster verwalten

Aufgabe 1: Cluster warten

Zur Wartung Ihrer Cluster verwenden Sie die Seiten Cluster und Clusterdetails.

Öffnen Sie das Navigationsmenü, und wählen Sie Analysen und KI aus. Wählen Sie unter Data Lake die Option Big Data Service aus.
Wählen Sie auf der Seite Cluster in der Zeile für training-cluster die Schaltfläche Aktionen aus. Über das Kontextmenü können Sie die Clusterdetails anzeigen, Knoten hinzufügen, Blockspeicher hinzufügen, Cloud SQL hinzufügen, das Cluster umbenennen, Cloud SQL entfernen (sofern bereits hinzugefügt) und das Big Data-Cluster beenden.
Alternativ können Sie auch in der Spalte Name auf den Link training-cluster klicken, um die Seite Clusterdetails anzuzeigen. Mit den Schaltflächen am oberen Rand der Seite können Sie:
- Knoten zum Cluster hinzufügen.
- Blockspeicher hinzufügen.
- Cloud SQL hinzufügen.
- Ausprägung ändern.
- In der Dropdown-Liste Weitere Aktionen können Sie das Cluster umbenennen, eine Ressource aus dem aktuellen Compartment in ein anderes Compartment verschieben, Tags hinzufügen, Cloud SQL entfernen (sofern bereits hinzugefügt) und Big-Data-Cluster beenden.

Hinweis

Mit Oracle Cloud Infrastructure Tagging können Sie Ressourcen Metadaten hinzufügen. Auf diese Weise lassen sich Schlüssel und Werte definieren und mit Ressourcen verknüpfen. Mithilfe der Tags können Sie Ressourcen basierend auf Ihren Geschäftsanforderungen organisieren und auflisten.

Aufgabe 2: Cluster- und Knotenmetriken überwachen

Sie können die Metriken des Clusters und aller zugehörigen Knoten überwachen.

Klicken Sie auf der Seite Cluster in die Spalte Name auf training-cluster , um die Seite Clusterdetails anzuzeigen.
Scrollen Sie auf der Seite Clusterdetails nach oben. Klicken Sie im Abschnitt Ressourcen auf der linken Seite auf Clustermetriken.
Im Abschnitt Clustermetriken werden die verschiedenen Metriken angezeigt, wie belegter HDFS-Speicherplatz, freier HDFS-Speicherplatz, abgeschlossene Yarn-Jobs und abgeschlossene Spark-Jobs. Sie können die Felder "Startzeit", "Endzeit", "Intervall", "Statistik" und "Optionen" nach Bedarf anpassen.
Klicken Sie links im Abschnitt Ressourcen auf Knoten (7).
Klicken Sie auf einen beliebigen Knotennamenslink im Abschnitt Liste der Clusterknoten, um die zugehörigen Metriken anzuzeigen. Der Masterknoten traininmn0 in der Spalte Name.
Führen Sie auf der Seite Knotendetails einen Bildlauf zum Abschnitt Knotenmetriken durch. Dieser Abschnitt wird nur nach erfolgreicher Bereitstellung des Clusters unten auf der Seite Knotendetails angezeigt. Die folgenden Diagramme werden angezeigt: CPU-Auslastung, Speicherauslastung, Netzwerkbyte eingehend, Netzwerkbyte ausgehend und Datenträgerauslastung. Sie können mit der Maus auf ein beliebiges Diagramm zeigen, um weitere Details zu erhalten.
über den Link Clusterdetails in den Navigationspfaden am oberen Seitenrand können Sie die Seite Clusterdetails erneut anzeigen.

Übung 9. Tutorialressourcen bereinigen

Sie können die Ressourcen löschen, die Sie in diesem Workshop erstellt haben. Wenn Sie die Übungen in diesem Workshop erneut bearbeiten möchten, führen Sie diese Löschaufgaben aus.

Wenn Sie die Ressourcen in der Datei training-compartment auflisten möchten, können Sie die Seite Mandanten-Explorer verwenden. Navigieren Sie im Menü Navigation zu Governance und Administration. Klicken Sie im Abschnitt Governance auf Mandanten-Explorer. Geben sie auf der Seite Mandanten-Explorer im Feld Compartments suchen training ein, und wählen Sie dann in der Liste der Compartments training-compartment aus. Die Ressourcen in training-compartment werden angezeigt.

Aufgabe 1: Cluster löschen

Öffnen Sie das Navigationsmenü, und wählen Sie Analysen und KI aus. Wählen Sie unter Data Lake die Option Big Data Service aus.
Klicken Sie auf der Seite Cluster in der Zeile für training-cluster auf die Schaltfläche Aktionen, und wählen Sie im Kontextmenü die Option Big Data-Cluster beenden aus.
Eine Bestätigungsmeldung wird angezeigt. Geben Sie den Namen des Clusters an, und klicken Sie auf Beenden. Der Status des Clusters in der Spalte Status lautet Wird gelöscht. Es kann bis zu 30 Minuten dauern, bis das Cluster gelöscht ist.
Der Status des Clusters in der Spalte Status wechselt von Aktiv zu Wird entfernt.
Um den Status des Löschprozesses anzuzeigen, klicken Sie in der Spalte Name auf den Namenslink des Clusters, um die Seite Clusterdetails anzuzeigen. Klicken Sie im Abschnitt Ressourcen unten links auf der Seite auf Arbeitsanforderungen. Im Abschnitt Arbeitsanforderungen sehen Sie die Informationen zum % abgeschlossen.

Um weitere Einzelheiten zum Löschprozess zu erhalten, klicken Sie in der Spalte Vorgang auf CREATE_BDS. Auf der Seite DELETE_BDS werden die Logs und etwaige Fehler angezeigt.
den Link Cluster in den Navigationspfaden, um zur Seite Cluster zurückzukehren. Wenn das Cluster erfolgreich gelöscht wird, wechselt der Status des Clusters in der Spalte Status von Wird entfernt zu Gelöscht.

Aufgabe 6: Compartment löschen

Öffnen Sie das Navigationsmenü, und wählen Sie Identität und Sicherheit aus. Wählen Sie unter Identität die Option Compartments aus.
Suchen Sie in der Liste der verfügbaren Compartments nach Ihrem training-compartment.
Klicken Sie in der Seite Compartments auf die Schaltfläche Aktionen, die mit training-compartment verknüpft ist. Wählen Sie Löschen aus dem Kontextmenü.
Eine Bestätigungsmeldung wird angezeigt. Löschen. Der Status des gelöschten Compartments wechselt von Aktiv zu Wird entfernt, bis das Compartment erfolgreich gelöscht wird. Sie können in der Spalte Name auf den Link für die Compartment-Namen klicken, um den Status dieses Vorgangs anzuzeigen.

Aufgabe 2: IAM-Policys löschen

Öffnen Sie das Navigationsmenü, und wählen Sie Identität und Sicherheit aus. Wählen Sie unter Identität die Option Policys aus.
die Schaltfläche Aktionen, die mit der Policy training-admin-policy verknüpft ist, und wählen Sie im Kontextmenü die Option Löschen aus. Ein Bestätigungsmeldungsfeld wird angezeigt. Klicken Sie auf Löschen.
die Schaltfläche Aktionen, die mit der Policy training-bds-policy verknüpft ist, und wählen Sie im Kontextmenü die Option Löschen aus. Ein Bestätigungsmeldungsfeld wird angezeigt. Klicken Sie auf Löschen.

Aufgabe 4: Reservierte öffentliche IP-Adressen löschen

Navigieren Sie im Menü Navigation zu Networking. Klicken Sie im Abschnitt IP-Verwaltung auf Reservierte IPs. Die Seite Reservierte öffentliche IP-Adressen wird angezeigt.
Stellen Sie sicher, dass im Listengeltungsbereich im linken Fensterbereich das training-compartment ausgewählt ist.
In diesem Workshop haben Sie drei reservierte IP-Adressen erstellt: traininmn0-public-ip, traininqs0-public-ip und traininun0-public-ip.
die Schaltfläche Aktionen, die mit traininmn0-public-ip verknüpft ist. Wählen Sie im Kontextmenü die Option Beenden. Eine Bestätigungsmeldung wird angezeigt. Beenden.
die Schaltfläche Aktionen, die mit traininqs0-public-ip verknüpft ist. Wählen Sie im Kontextmenü die Option Beenden. Eine Bestätigungsmeldung wird angezeigt. Beenden.
die Schaltfläche Aktionen, die mit traininun0-public-ip verknüpft ist. Wählen Sie im Kontextmenü die Option Beenden. Eine Bestätigungsmeldung wird angezeigt. Beenden.

Aufgabe 5: Objektspeicher-Bucket löschen

Damit Sie einen Bucket löschen können, der Objekte enthält, müssen Sie zuerst alle Objekte im Bucket löschen.

Sie können im Menü Navigation zu Speicher navigieren. Klicken Sie im Abschnitt Object Storage & Archive Storage auf Buckets. Die Seite Buckets wird angezeigt. Stellen Sie sicher, dass im Listengeltungsbereich im linken Fensterbereich das training-compartment ausgewählt ist. In der Liste der verfügbaren Buckets wird der neu erstellte Training-Bucket in der Spalte Name angezeigt. Der Link Training.
Die Seite Bucket-Details für den Bucket training wird angezeigt. Scrollen Sie nach unten zum Abschnitt Objekte.
Klicken Sie in der Zeile für das Objekt biketrips auf die Schaltfläche Aktionen, und wählen Sie im Kontextmenü die OptionOrdner löschen aus.
Eine Bestätigungsmeldung wird angezeigt. Geben Sie biketrips in das Textfeld Geben sie den Namen des Ordners, um den Löschvorgang zu bestätigen ein. Klicken Sie dann auf Löschen. Das Objekt wird gelöscht, und die Seite Bucket-Details wird erneut angezeigt.
Klicken Sie in der Zeile für das Objekt stations auf die Schaltfläche Aktionen, und wählen Sie im Kontextmenü die OptionOrdner löschen aus.
Eine Bestätigungsmeldung wird angezeigt. Geben Sie stations in das Textfeld Name des Ordners eingeben, um den Löschvorgang zu bestätigen ein, und klicken Sie dann auf Löschen. Das Objekt wird gelöscht, und die Seite Bucket-Details wird erneut angezeigt.
Klicken Sie in der Zeile für das Objekt weather auf die Schaltfläche Aktionen, und wählen Sie im Kontextmenü die OptionOrdner löschen aus.
Eine Bestätigungsmeldung wird angezeigt. Geben Sie weather in das Textfeld Type the folder name to bestät ein, und klicken Sie dann auf Delete. Das Objekt wird gelöscht, und die Seite Bucket-Details wird erneut angezeigt.
Scrollen Sie nach oben auf der Seite, und klicken Sie auf die Schaltfläche Löschen. Eine Bestätigungsmeldung wird angezeigt. Löschen. Der Bucket wird gelöscht, und die Seite Buckets wird erneut angezeigt.

Aufgabe 3: VCN löschen

Ein VCN kann nur gelöscht werden, wenn es leer ist und auch keine zugehörigen Ressourcen oder angehängten Gateways wie Internetgateway oder dynamisches Routinggateway hat. Auch die Subnetze eines VCN können nur gelöscht werden, wenn sie leer sind.

Öffnen des Navigationsmenüs, und wählen Sie Networking aus. Wählen Sie dann Virtuelle Cloud-Netzwerke aus.
Klicken Sie auf der Liste der verfügbaren VCNs in Ihrem Compartment in der Spalte Name auf den Namenslink training-vcn. Die Seite Details virtuelles Cloud-Netzwerk wird angezeigt.
Klicken Sie im Abschnitt Subnetze auf die Schaltfläche Aktionen, die mit Private Subnetz-training-vcn verknüpft ist. Wählen Sie im Kontextmenü die Option Beenden. Eine Bestätigungsmeldung wird angezeigt. Beenden.
Klicken Sie im Abschnitt Subnetze auf die Schaltfläche Aktionen, die mit Öffentliches Subnetz-training-vcn verknüpft ist. Wählen Sie im Kontextmenü die Option Beenden. Eine Bestätigungsmeldung wird angezeigt. Beenden.
Klicken Sie im Abschnitt Ressourcen im linken Fensterbereich auf Routentabellen.
Klicken Sie im Abschnitt Routentabellen auf die Schaltfläche Aktionen, die mit Routentabelle für privates Subnetz-training-vcn verknüpft ist. Wählen Sie im Kontextmenü die Option Beenden. Eine Bestätigungsmeldung wird angezeigt. Beenden.
Klicken Sie im Abschnitt Routentabellen in der Spalte Name auf den Link Standardroutentabelle für training-vcn. Die Seite Routentabellendetails wird angezeigt. Klicken Sie im Abschnitt Routingregeln auf das Symbol Aktionen, das mit Internetgateway-training-vcn verknüpft ist. Wählen Sie im Kontextmenü die Option Entfernen. Eine Bestätigungsmeldung wird angezeigt. Entfernen: training-vcn in den Navigationspfaden, um zur Seite training-vcn zurückzukehren.
Klicken Sie im Abschnitt Ressourcen im linken Fensterbereich auf Internetgateways. Klicken Sie im Abschnitt Internetgateways auf die Schaltfläche Aktionen, die mit Internetgateway-training-vcn verknüpft ist. Wählen Sie im Kontextmenü die Option Beenden. Eine Bestätigungsmeldung wird angezeigt. Beenden.
Klicken Sie im Abschnitt Ressourcen im linken Fensterbereich auf Sicherheitslisten. Klicken Sie im Abschnitt Sicherheitslisten auf die Schaltfläche Aktionen, die mit Sicherheitsliste für private Subnetz-training-vcn verknüpft ist. Wählen Sie im Kontextmenü die Option Beenden. Eine Bestätigungsmeldung wird angezeigt. Beenden.
Klicken Sie im Abschnitt Ressourcen im linken Fensterbereich auf NAT-Gateways. Klicken Sie im Abschnitt NAT-Gateways auf die Schaltfläche Aktionen, die mit NAT-Gateway-training-vcn verknüpft ist. Wählen Sie im Kontextmenü die Option Beenden. Eine Bestätigungsmeldung wird angezeigt. Beenden.
Klicken Sie im linken Fensterbereich im Abschnitt Ressourcen auf Servicegateways. Klicken Sie im Abschnitt Servicegateways auf die Schaltfläche Aktionen, die mit Servicegateway-training-vcn verknüpft ist. Wählen Sie im Kontextmenü die Option Beenden. Eine Bestätigungsmeldung wird angezeigt. Beenden.
Klicken Sie am oberen Rand der Seite auf Beenden, um das VCN zu beenden. Das Fenster Virtuelles Cloud-Netzwerk beenden wird angezeigt. Nach weniger als einer Minute ist die Schaltfläche Alle beenden aktiviert. Um Ihr VCN zu löschen, klicken Sie auf Alle beenden.
Wenn der Beendigungsvorgang erfolgreich abgeschlossen ist, wird im Fenster eine Meldung Beenden des virtuellen Cloud-Netzwerks ist abgeschlossen angezeigt. Schließen.

Was kommt als Nächstes

Erfahren Sie mehr über Big Data Service, oder probieren Sie andere Workshops aus.

Oracle Cloud Infrastructure - Dokumentation

Erste Schritte mit einem hochverfügbaren ODH Big Data-Cluster

Bevor Sie beginnen

Übung 1. Für Big Data-Cluster erforderliche OCI-Ressourcen einrichten

Übung 2. Hochverfügbares ODH-Cluster erstellen

Übung 3. Oracle Cloud SQL zum Cluster hinzufügen

Übung 4. Private IP-Adressen öffentlichen IP-Adressen zuordnen

Übung 5. Mit Apache Ambari auf das Cluster zugreifen

Übung 6. Hadoop-Administratorbenutzer erstellen

Übung 7. Daten in HDFS und Object Storage hochladen

Übung 8. Cluster verwalten

Übung 9. Tutorialressourcen bereinigen

Was kommt als Nächstes