ODHクラスタの計画と理解

ビッグ・データ・サービス・クラスタを作成する前に、クラスタ、インスタンス・タイプとシェイプ、およびクラスタ・プロファイルを計画し、理解する必要があります。

詳細は、次を参照してください:

クラスタのレイアウト、シェイプおよび記憶域の計画

クラスタを作成するプロセスを開始する前に、クラスタのレイアウト、ノード・シェイプおよびストレージを計画する必要があります。

クラスタ・レイアウト

ノードおよびサービスは、クラスタが高可用性(HA)でセキュアかどうかに基づいて、異なる方法でクラスタに編成されます。

HAクラスタの使用について

本番環境にはHAクラスタを使用します。これらはレジリエンシのため、かつ停止時間を最小限に抑えるために必要です。

このリリースでは、クラスタはHAでセキュアにするか、そのどちらにもしないようにする必要があります。

ノードのタイプ

ノードのタイプは次のとおりです:

  • マスター・ノードまたはユーティリティ・ノードには、クラスタの操作および管理に必要なサービスが含まれています。これらのノードでは、データは格納も処理もされません。
  • ワーカー・ノードは、データを格納および処理します。ワーカー・ノードが失われても、クラスタの操作には影響しませんが、パフォーマンスには影響することがあります。
  • コンピュート専用ワーカー・ノードは、データを処理します。コンピュート専用ワーカー・ノードが失われても、クラスタの操作には影響しませんが、パフォーマンスには影響することがあります。
    ノート

    コンピュート専用ワーカー・ノードは、CDHクラスタではサポートされていません。
  • エッジ・ノードは、クライアントのみがインストールされているクラスタへの拡張ノードです。クラスパスの競合やクラスタ・サービスでのリソースの問題を回避するために、ワーカー/コンピュート/マスター・ノードではなく、追加のパッケージをインストールし、このノードに追加のアプリケーションを実行できます。

高可用性(HA)クラスタ・レイアウト

高可用性クラスタには、2つのマスター・ノード、2つのユーティリティ・ノード、3つ以上のワーカー・ノード、およびゼロ以上のコンピュート専用ワーカー・ノードがあります。

ノードのタイプ ODHのサービス CDHのサービス
最初のマスター・ノード
  • Ambariメトリック・モニター
  • HDFSクライアント
  • HDFS JournalNode
  • HDFS NameNode
  • HDFS ZKFailoverController
  • Hiveクライアント
  • Kerberosクライアント
  • MapReduce2クライアント
  • Spark3クライアント
  • Spark3 History Server
  • YARNクライアント
  • ヤーン ResourceManager
  • ZooKeeperサーバー
  • HDFSフェイルオーバー・コントローラ
  • HDFS JournalNode
  • HDFS NameNode
  • Hiveクライアント
  • Key Trustee KMS Key Management Server Proxy
  • Key Trustee Server Active Database
  • Key Trustee Server Active Key Trustee Server
  • Sparkクライアント
  • Spark History Server
  • YARN (MR2 Included) JobHistory Server
  • YARN (MR2 Included) ResourceManager
  • ZooKeeperサーバー
2番目のマスター・ノード
  • Ambariメトリック・モニター
  • HDFSクライアント
  • HDFS JournalNode
  • HDFS NameNode
  • HDFS ZKFailoverController
  • Kerberosクライアント
  • MapReduce2クライアント
  • MapReduce2 History Server
  • Spark3クライアント
  • Tezクライアント
  • YARNクライアント
  • YARNレジストリDNS
  • ヤーン ResourceManager
  • YARN Timeline Service V1.5
  • ZooKeeperサーバー
  • HDFSバランサ
  • HDFSフェイルオーバー・コントローラ
  • HDFS HttpFS
  • HDFS JournalNode
  • HDFS NameNode
  • Hiveクライアント
  • Hue Load Balancer
  • Hue Server
  • Hue Kerberos Ticket Renewer
  • Key Trustee KMS Key Management Server Proxy
  • Key Trustee Server Passive Database
  • Key Trustee Server Passive Key Trustee Server
  • YARN (MR2 Included) ResourceManager
  • ZooKeeperサーバー
最初のユーティリティ・ノード
  • Ambariメトリック・モニター
  • Ambariサーバー
  • HDFSクライアント
  • HDFS JournalNode
  • Hive Metastore
  • HiveServer2
  • Kerberosクライアント
  • MapReduce2クライアント
  • Oozie Server
  • Spark3クライアント
  • Tezクライアント
  • YARNクライアント
  • ZooKeeperクライアント
  • ZooKeeperサーバー
  • HDFSクライアント
  • HDFS JournalNode
  • Hiveクライアント
  • Cloudera Management Service Alert Publisher
  • Cloudera Management Service Event Server
  • Cloudera Management Service Host Monitor
  • Cloudera Management Service Navigator Audit Server
  • Cloudera Management Service Navigator Metadata Server
  • Cloudera Management Service Reports Manager
  • Cloudera Management Service Monitor
  • Sentry Server
  • Sparkクライアント
  • YARN (MR2 Included)クライアント
  • ZooKeeperサーバー
2番目のユーティリティ・ノード
  • Ambariメトリック・コレクタ
  • Ambariメトリック・モニター
  • HDFSクライアント
  • Hiveクライアント
  • Kerberosクライアント
  • MapReduce2クライアント
  • Spark3クライアント
  • YARNクライアント
  • HDFSクライアント
  • Hiveクライアント
  • Hive Metastore Server
  • HiveServer2
  • Hive WebHCat Server
  • Hue Load Balancer
  • Hue Server
  • Hue Kerberos Ticket Renewer
  • Oozie Server
  • Sentry Server
  • Sparkクライアント
  • YARN (MR2 Included)クライアント
ワーカー・ノード(3つ以上)
  • Ambariメトリック・モニター
  • HDFS DataNode
  • HDFSクライアント
  • Hiveクライアント
  • Kerberosクライアント
  • MapReduce2クライアント
  • Oozieクライアント
  • Spark3クライアント
  • Spark3 Thrift Server
  • Tezクライアント
  • YARNクライアント
  • ヤーン NodeManager
  • ZooKeeperクライアント
  • HDFS DataNode
  • Hiveクライアント
  • Sparkクライアント
  • YARN (MR2 Included) NodeManager
コンピュート専用ワーカー・ノード
  • Ambariメトリック・モニター
  • HDFSクライアント
  • Hiveクライアント
  • Kerberosクライアント
  • MapReduce2クライアント
  • Oozieクライアント
  • Spark3クライアント
  • Tezクライアント
  • YARNクライアント
  • ヤーン NodeManager
  • ZooKeeperクライアント
NA
エッジ・ノード
  • Ambariメトリック・モニター
  • HDFSクライアント
  • Hiveクライアント
  • Kerberosクライアント
  • MapReduce2クライアント
  • Oozieクライアント
  • Spark3クライアント
  • Tezクライアント
  • YARNクライアント
  • ZooKeeperクライアント
NA

最小(nonHA)クラスタ・レイアウト

非高可用性クラスタには、1つのマスター・ノード、1つのユーティリティ・ノード、3つ以上のワーカー・ノード、およびゼロ以上のコンピュート専用ワーカー・ノードがあります。

ノードのタイプ ODHのサービス CDHのサービス
マスター・ノード
  • Ambariメトリック・モニター
  • HDFSクライアント
  • HDFS NameNode
  • Hiveクライアント
  • MapReduce2クライアント
  • Spark3クライアント
  • Spark3 History Server
  • YARNクライアント
  • YARNレジストリDNS
  • ヤーン ResourceManager
  • ZooKeeperサーバー
  • HDFSバランサ
  • HDFS NameNode
  • Hiveクライアント
  • Sparkクライアント
  • Spark History Server
  • YARN (MR2 Included) JobHistory Server
  • YARN (MR2 Included) ResourceManager
  • ZooKeeperサーバー
ユーティリティ・ノード
  • Ambariメトリック・コレクタ
  • Ambariメトリック・モニター
  • Ambariサーバー
  • HDFSクライアント
  • HDFSセカンダリNameNode
  • Hive Metastore
  • HiveServer2
  • MapReduce2クライアント
  • MapReduce2 History Server
  • Oozie Server
  • Spark3クライアント
  • Tezクライアント
  • YARNクライアント
  • YARN Timeline Service V1.5
  • ZooKeeperクライアント
  • ZooKeeperサーバー
  • HDFS HttpFS
  • HDFS SecondaryNameNode
  • Hiveクライアント
  • Hive Metastore Server
  • HiveServer2
  • Hive WebHCat Server
  • Hue Load Balancer
  • Hue Server
  • Cloudera Management Service Alert Publisher
  • Cloudera Management Service Event Server
  • Cloudera Management Service Host Monitor
  • Cloudera Management Service Navigator Audit Server
  • Cloudera Management Service Navigator Metadata Server
  • Cloudera Management Service Reports Manager
  • Cloudera Management Service Monitor
  • Oozie Server
  • Sparkクライアント
  • YARN (MR2 Included)クライアント
  • ZooKeeperサーバー
ワーカー・ノード
  • Ambariメトリック・モニター
  • HDFS DataNode
  • HDFSクライアント
  • Hiveクライアント
  • MapReduce2クライアント
  • Oozieクライアント
  • Spark3クライアント
  • Spark3 Thrift Server
  • Tezクライアント
  • YARNクライアント
  • ヤーン NodeManager
  • ZooKeeperクライアント
  • ZooKeeperサーバー
  • HDFS DataNode
  • Hiveクライアント
  • Sparkクライアント
  • YARN (MR2 Included) NodeManager
  • ZooKeeperサーバー
コンピュート専用ワーカー・ノード
  • Ambariメトリック・モニター
  • HDFSクライアント
  • Hiveクライアント
  • MapReduce2クライアント
  • Oozieクライアント
  • Spark3クライアント
  • Tezクライアント
  • YARNクライアント
  • ヤーン NodeManager
  • ZooKeeperクライアント
NA
エッジ・ノード
  • HDFSクライアント
  • Hiveクライアント
  • MapReduce2クライアント
  • Oozieクライアント
  • Spark3クライアント
  • Tezクライアント
  • YARNクライアント
  • ZooKeeperクライアント
NA
サポートされているノード・シェイプ

ノード・シェイプは、ノードに割り当てられるコンピュート・リソースを表したものです。

マスター/ユーティリティ・ノードとワーカー・ノードに使用されるシェイプは、異なるものにすることができます。ただし、すべてのマスター/ユーティリティ・ノードは同じシェイプにする必要があり、すべてのワーカー・ノードは同じシェイプにする必要があります。

次の表は、ノード・タイプごとにどのようなシェイプを使用できるかを示しています。詳細は、コンピュート・シェイプを参照してください。

各シェイプで提供されるリソースのリストについては、次を参照してください:

ノード・タイプ 使用可能なシェイプ 必要な仮想ネットワーク・インタフェース・カード(VNIC)の数
マスターまたはユーティリティ

VM.Standard2.4

VM.Standard2.8

VM.Standard2.16

VM.Standard2.24

VM.Standard.E5.Flex

VM.Standard.E4。フレックス*

VM.Standard3。フレックス*

VM.Optimized3。フレックス*

VM.DenseIO.E4。フレックス*

VM.DenseIO.E5。フレックス*

VM.DenseIO2.8

VM.DenseIO2.16

VM.DenseIO2.24

BM.Standard2.52

BM.DenseIO2.52

BM.HPC2.36

BM.Standard3.64*

BM.Optimized3.36*

BM.DenseIO.E4.128*

BM.Standard.E4.128*

3以上

クラスタ・サブネット、DPアクセス・サブネットおよびカスタマのサブネットに使用されます

*3つ以上のOCPUおよび32 GBのメモリーを指定する必要があります。

ワーカー

VM.Standard2.1*

VM.Standard2.2*

VM.Standard2.4

VM.Standard2.8

VM.Standard2.16

VM.Standard2.24

VM.Standard.E5.Flex

VM.Standard.E4。フレックス*

VM.Standard3。フレックス*

VM.Optimized3。フレックス*

VM.DenseIO.E4。フレックス*

VM.DenseIO.E5。フレックス*

VM.DenseIO2.8

VM.DenseIO2.16

VM.DenseIO2.24

BM.Standard2.52

BM.DenseI2.52

BM.HPC2.36

BM.Standard3.64*

BM.Optimized3.36*

BM.DenseIO.E4.128*

BM.Standard.E4.128*

2以上

クラスタ・サブネットおよびサブネットに使用されます

コンピュート専用ワーカー

VM.Standard2.1*

VM.Standard2.2*

VM.Standard2.4

VM.Standard2.8

VM.Standard2.16

VM.Standard2.24

VM.Standard.E5.Flex

VM.Standard.E4。フレックス*

VM.Standard3。フレックス*

VM.Optimized3。フレックス*

VM.DenseIO.E4。フレックス*

VM.DenseIO.E5。フレックス*

VM.DenseIO2.8

VM.DenseIO2.16

VM.DenseIO2.24

BM.Standard2.52

BM.DenseI2.52

BM.HPC2.36

BM.Standard3.64*

BM.Optimized3.36*

BM.DenseIO.E4.128*

BM.Standard.E4.128*

2以上

クラスタ・サブネットおよびサブネットに使用されます

コンピュート専用ワーカー・ノードは、CDHクラスタではサポートされていません。

VM.Standard2.1*

VM.Standard2.2*

VM.Standard2.4

VM.Standard2.8

VM.Standard2.16

VM.Standard2.24

VM.Standard.E5.Flex

VM.Standard.E4。フレックス*

VM.Standard3。フレックス*

VM.Optimized3。フレックス*

VM.DenseIO.E4。フレックス*

VM.DenseIO.E5。フレックス*

VM.DenseIO2.8

VM.DenseIO2.16

VM.DenseIO2.24

BM.Standard2.52

BM.DenseI2.52

BM.HPC2.36

BM.Standard3.64*

BM.Optimized3.36*

BM.DenseIO.E4.128*

BM.Standard.E4.128*

2以上

クラスタ・サブネットおよびカスタマのサブネットに使用されます

ノート: エッジ・ノードはクライアント・アプリケーション・ユースケースに固有であるため、アプリケーションの必要に応じてシェイプを選択します。

エッジ・ノードはCDHクラスタではサポートされていません。

* VM.Standard2.1およびVM.Standard2.2は、小さなシェイプであるため、大規模なワークロードの実行をサポートしないことに注意してください。VM.Standard.E4の場合。フレックス、VM.Standard3。フレックス、VM.Standard.E5。FlexおよびVM.Optimized3。フレックスでは、1つ以上のOCPUおよび16GBのメモリーを指定する必要があります。

ノート

ノート: 次のシェイプはCDHクラスタではサポートされていません。これらはODHクラスタでのみサポートされます。

VM.Standard.E4.Flex

VM.Standard.E5.Flex

VM.Standard3.Flex

VM.Optimized3.Flex

VM.DenseIO.E4.Flex

VM.DenseIO.E5。フレックス*

BM.Standard3.64

BM.Optimized3.36

BM.DenseIO.E4.128

すべてのシェイプがデフォルトで使用可能になっているわけではありません。デフォルトで使用可能なシェイプをクラウド・コンソールで確認するには、テナンシ制限の検索を参照してください。サービス制限の引上げのリクエストを送信するには、サービス制限の引上げのリクエストを参照してください。

ブロック・ストレージ・ノードのシェイプ

標準のVMシェイプに基づくノードでは、ネットワーク接続されたブロック・ストレージが使用されます。

ノート

ブロック・ストレージは、DenseIOおよびHPCシェイプに基づくノードではサポートされていません。

すべてのノードに150 GBのブート・ボリュームがあります。

オプション 制限/ガイドライン
最小初期ブロック・ストレージ 150 GB
デフォルトの初期ブロック・ストレージ* 150 GB
最小の追加のブロック・ストレージ 150 GB
デフォルトの追加のブロック・ストレージ* 1 TB
(初期および追加の)ブロック・ストレージに対する増分ステップ 50GB
単一ノードの最大ブロック・ストレージ

48 TB

12個のボリュームがそれぞれ4 TBであるため、合計48 TBになります。

ブロック・ストレージを複数回追加した場合、最大値は48 TBのままですが、12個を超えるボリュームにまたがる可能性があります。

最大ブロック・ボリューム・サイズ

4 TB

最大値48 TBを指定した場合は、12個のドライブがそれぞれ4 TBで作成されます。

指定する数を小さくすると、その量に十分な4 TBのデバイスが作成され、ストレージを追加すると、それにあわせてさらにデバイスが作成されます。

マスター・ノードまたはユーティリティ・ノードにブロック・ストレージを追加することはできません。したがって、次の図は初期サイズのみを示しています。

オプション 制限/ガイドライン
最小初期ブロック・ストレージ 150 GB
デフォルトの初期ブロック・ストレージ 1 TB
最小の追加のブロック・ストレージ 150 GB
デフォルトの追加のブロック・ストレージ 1 TB
(初期および追加の)ブロック・ストレージに対する増分ステップ 50GB
単一ノードの最大ブロック・ストレージ 32 TB
最大ブロック・ボリューム・サイズ 32 TB
MySQL配置 ユーティリティ・ノードの場合、/var/lib/mysql/u01に移動し、シンボリック・リンクを作成します。これにより、ブート・ボリュームがいっぱいになるのを防ぐことができます。
オプション ガイドライン
デフォルトの初期ブロック・ストレージ 2 TB
最小初期ブロック・ストレージ 150 GB

問合せサーバー・ストレージは、負荷が大きいJOIN操作およびGROUP BY操作を実行するための一時表領域に使用されます。通常の処理には2 TBをお薦めします。小規模な環境(たとえば、開発)の場合、この数は少なくする方向で調整できます。

最高のパフォーマンスを得るため、次の要因を考慮してください:

  • I/Oスループット
  • コンピュート・デバイスとブロック・ストレージ・デバイス間のネットワーキング。

Oracle Cloud Infrastructureドキュメントのブロック・ボリュームのパフォーマンスを参照してください。

次の表では、ビッグ・データ・サービスが様々なサイズのノードにブロック・ボリューム・ストレージを割り当てる方法について説明します。

内容 合計
マスター・ノードおよびユーティリティ・ノードに対する初期ボリューム割当て 1つの大量ボリューム
マスター・ノードおよびユーティリティ・ノードに対する追加のブロック・ストレージのボリューム割当て 1つの大量ボリューム
ワーカー・ノードに対する初期ボリューム割当て。
  • ストレージ: 12 TB未満。

    ボリュームサイズ: 1Tバイト 最後のボリュームは1Tバイトより小さくなる可能性があります。

  • ストレージ: 12 TBから48 TB。

    ボリューム・サイズ: 12個のボリュームに均等に分割され、それぞれが1TB以上になります。

  • ストレージ: 48 TB超。

    ボリューム・サイズ: 許可されません。

ワーカー・ノードに対する追加のブロック・ストレージのボリューム割当て

ストレージ・サイズに対応できる最小ボリューム数で、ボリューム当たりの最大ボリューム・サイズは4 TBです。(最後のボリュームは、4 TBより小さくなる場合があります。)

ステージングにはエッジ・ノードを使用することをお薦めします。

インスタンス・タイプおよびシェイプの理解

ビッグ・データ・サービス・クラスタ・ノードは、Oracle Cloud Infrastructureコンピュート・インスタンス(サーバー)で実行されます。

クラスタを作成するときには、インスタンス・タイプを選択します。このタイプによって、インスタンスがハードウェアのベア・メタル・インスタンスと仮想環境のいずれで直接実行されるかが決まります。また、シェイプも選択します。これは、インスタンスに割り当てられるリソースを構成します。

インスタンス・タイプについて
  • ベア・メタル:ベア・メタル・コンピュート・インスタンスでは、ノードに専用の物理サーバーを使用して、最大のパフォーマンスと最強の分離を実現します。

  • 仮想マシン(VM): 仮想化によって、VMコンピュート・インスタンスは単一の物理ベア・メタル・マシンで実行される複数の分離されたノードをホストできます。VMインスタンスは、ベア・メタル・インスタンスよりコストが低く、ノードごとに物理マシン全体のパフォーマンスおよびリソース(CPU、メモリー、ネットワーク帯域幅、ストレージ)を必要としない、要求の少ないクラスタの作成に便利です。

VMインスタンスは、ベア・メタル・インスタンスと同じハードウェア上で、同じファームウェア、ソフトウェア・スタックおよびネットワーキング・インフラストラクチャを使用して実行されます。

コンピュート・インスタンスの詳細は、コンピュート・サービスの概要を参照してください。

シェイプについて

シェイプによって、クラスタ・ノードをホストするコンピュート・インスタンスに割り当てられるCPUの数、メモリーの容量およびその他のリソースが決まります。使用可能なシェイプについては、Oracle Cloud Infrastructureドキュメントのクラスタのレイアウト、シェイプおよびストレージの計画を参照してください。

ビッグ・データ・サービス・マスター・ノードとワーカー・ノードのシェイプは、一致する必要がありません。ただし、すべてのマスター・ノードのシェイプは相互に一致する必要があり、すべてのワーカー・ノードのシェイプは相互に一致する必要があります。

クラスタ・プロファイルの理解

クラスタ・プロファイルを使用すると、特定のワークロードまたはテクノロジに最適なクラスタを作成できます。特定のクラスタ・プロファイルでクラスタを作成した後、さらに多くのHadoopサービスをクラスタに追加できます。

クラスタ・プロファイル・タイプ

Oracle Big Data Serviceでは、多数のクラスタ・プロファイル・タイプのクラスタを作成できます。

クラスタ・プロファイル コンポーネント(セキュアで高可用性) コンポーネント
HADOOP_EXTENDED1 Hive、 Spark、 HDFS、 Yarn、 ZooKeeper、 MapReduce2、 Ambariメトリック、レンジャー、色相、 Oozie、 Tez Hive、 Spark、 HDFS、 Yarn、 ZooKeeper、 MapReduce2、 Ambariメトリック、 Hue、 Oozie、 Tez
ハドップ HDFS、Yarn、ZooKeeper、MapReduce2、Ambariメトリック、Ranger、Hue HDFS、Yarn、ZooKeeper、MapReduce2、Ambariメトリック、Hue
ハイブ Hive、 HDFS、 Yarn、 ZooKeeper、 MapReduce2、 Ambariメトリック、レンジャー、色相、 Tez Hive、 HDFS、 Yarn、 ZooKeeper、 MapReduce2、 Ambariメトリック、色相、 Tez
スパーク Spark、Hive2、HDFS、Yarn、ZooKeeper、MapReduce2、Ambariメトリック、Ranger、Hue Spark、Hive2、HDFS、Yarn、ZooKeeper、MapReduce2、Ambariメトリック、色相 2
HBASE HBase、HDFS、Yarn、ZooKeeper、MapReduce2、Ambariメトリック、Ranger、Hue HBase、HDFS、Yarn、ZooKeeper、MapReduce2、Ambariメトリック、Hue
トピックス Trino、 Hive3、 HDFS、 ZooKeeper、 Ambariメトリック、レンジャー、色相 Trino、 Hive3、 HDFS、 ZooKeeper、 Ambariメトリック、 Hue
カフカ Kafka Broker、 HDFS、 ZooKeeper、 Ambariメトリック、 Ranger、 Hue Kafka Broker、 HDFS、 ZooKeeper、 Ambariメトリック、 Hue

1 HADOOP_EXTENDEDは、クラスタ・プロファイルが使用可能になる前にクラスタを作成したコンポーネントで構成されます。

2HiveサービスのHiveメタストア・コンポーネントは、Sparkでメタデータを管理するために使用されます。

3HiveサービスのHiveメタストア・コンポーネントは、TrinoでHiveメタデータ・エンティティを管理するために使用されます。

クラスタ・プロファイルのApache Hadoopバージョン

次の表に、ODHバージョンに対応するクラスタ・プロファイルに含まれるHadoopコンポーネント・バージョンを示します。

ODH 1.x

クラスタ・プロファイル バージョン
HADOOP_EXTENDED HDFS 3.1、Hive 3.1、Spark 3.0.2
ハドップ HDFS 3.1
ハイブ Hive 3.1
スパーク Spark 3.0.2
HBASE HBase 2.2
トピックス Trino 360
カフカ Kafka 2.1.0

ODH 2.x

クラスタ・プロファイル バージョン
HADOOP_EXTENDED HDFS 3.3、Hive 3.1、Spark 3.2
ハドップ HDFS 3.3
ハイブ Hive 3.1
スパーク Spark 3.2
HBASE HBase 2.2
トピックス Trino 389