ODHクラスタの計画と理解

ビッグ・データ・サービス・クラスタを作成する前に、クラスタ、インスタンス・タイプとシェイプ、およびクラスタ・プロファイルを計画し、理解する必要があります。

詳細は、次を参照してください:

クラスタのレイアウト、シェイプおよび記憶域の計画

クラスタを作成するプロセスを開始する前に、クラスタのレイアウト、ノード・シェイプおよびストレージを計画する必要があります。

クラスタ・レイアウト

ノードおよびサービスは、クラスタが高可用性(HA)でセキュアかどうかに基づいて、異なる方法でクラスタに編成されます。

HAクラスタの使用について

本番環境にはHAクラスタを使用します。これらはレジリエンシのため、かつ停止時間を最小限に抑えるために必要です。

このリリースでは、クラスタはHAでセキュアにするか、そのどちらにもしないようにする必要があります。

ノードのタイプ

ノードのタイプは次のとおりです:

マスター・ノードまたはユーティリティ・ノードには、クラスタの操作および管理に必要なサービスが含まれています。これらのノードでは、データは格納も処理もされません。
ワーカー・ノードは、データを格納および処理します。ワーカー・ノードが失われても、クラスタの操作には影響しませんが、パフォーマンスには影響することがあります。
コンピュート専用ワーカー・ノードは、データを処理します。コンピュート専用ワーカー・ノードが失われても、クラスタの操作には影響しませんが、パフォーマンスには影響することがあります。
ノート

コンピュート専用ワーカー・ノードは、CDHクラスタではサポートされていません。
エッジ・ノードは、クライアントのみがインストールされているクラスタへの拡張ノードです。クラスパスの競合やクラスタ・サービスでのリソースの問題を回避するために、ワーカー/コンピュート/マスター・ノードではなく、追加のパッケージをインストールし、このノードに追加のアプリケーションを実行できます。

高可用性(HA)クラスタ・レイアウト

高可用性クラスタには、2つのマスター・ノード、2つのユーティリティ・ノード、3つ以上のワーカー・ノード、およびゼロ以上のコンピュート専用ワーカー・ノードがあります。


ノードのタイプ	ODHのサービス	CDHのサービス
最初のマスター・ノード	Ambariメトリック・モニター HDFSクライアント HDFS JournalNode HDFS NameNode HDFS ZKFailoverController Hiveクライアント Kerberosクライアント MapReduce2クライアント Spark3クライアント Spark3 History Server YARNクライアントヤーン ResourceManager ZooKeeperサーバー	HDFSフェイルオーバー・コントローラ HDFS JournalNode HDFS NameNode Hiveクライアント Key Trustee KMS Key Management Server Proxy Key Trustee Server Active Database Key Trustee Server Active Key Trustee Server Sparkクライアント Spark History Server YARN (MR2 Included) JobHistory Server YARN (MR2 Included) ResourceManager ZooKeeperサーバー
2番目のマスター・ノード	Ambariメトリック・モニター HDFSクライアント HDFS JournalNode HDFS NameNode HDFS ZKFailoverController Kerberosクライアント MapReduce2クライアント MapReduce2 History Server Spark3クライアント Tezクライアント YARNクライアント YARNレジストリDNS ヤーン ResourceManager YARN Timeline Service V1.5 ZooKeeperサーバー	HDFSバランサ HDFSフェイルオーバー・コントローラ HDFS HttpFS HDFS JournalNode HDFS NameNode Hiveクライアント Hue Load Balancer Hue Server Hue Kerberos Ticket Renewer Key Trustee KMS Key Management Server Proxy Key Trustee Server Passive Database Key Trustee Server Passive Key Trustee Server YARN (MR2 Included) ResourceManager ZooKeeperサーバー
最初のユーティリティ・ノード	Ambariメトリック・モニター Ambariサーバー HDFSクライアント HDFS JournalNode Hive Metastore HiveServer2 Kerberosクライアント MapReduce2クライアント Oozie Server Spark3クライアント Tezクライアント YARNクライアント ZooKeeperクライアント ZooKeeperサーバー	HDFSクライアント HDFS JournalNode Hiveクライアント Cloudera Management Service Alert Publisher Cloudera Management Service Event Server Cloudera Management Service Host Monitor Cloudera Management Service Navigator Audit Server Cloudera Management Service Navigator Metadata Server Cloudera Management Service Reports Manager Cloudera Management Service Monitor Sentry Server Sparkクライアント YARN (MR2 Included)クライアント ZooKeeperサーバー
2番目のユーティリティ・ノード	Ambariメトリック・コレクタ Ambariメトリック・モニター HDFSクライアント Hiveクライアント Kerberosクライアント MapReduce2クライアント Spark3クライアント YARNクライアント	HDFSクライアント Hiveクライアント Hive Metastore Server HiveServer2 Hive WebHCat Server Hue Load Balancer Hue Server Hue Kerberos Ticket Renewer Oozie Server Sentry Server Sparkクライアント YARN (MR2 Included)クライアント
ワーカー・ノード(3つ以上)	Ambariメトリック・モニター HDFS DataNode HDFSクライアント Hiveクライアント Kerberosクライアント MapReduce2クライアント Oozieクライアント Spark3クライアント Spark3 Thrift Server Tezクライアント YARNクライアントヤーン NodeManager ZooKeeperクライアント	HDFS DataNode Hiveクライアント Sparkクライアント YARN (MR2 Included) NodeManager
コンピュート専用ワーカー・ノード	Ambariメトリック・モニター HDFSクライアント Hiveクライアント Kerberosクライアント MapReduce2クライアント Oozieクライアント Spark3クライアント Tezクライアント YARNクライアントヤーン NodeManager ZooKeeperクライアント	NA
エッジ・ノード	Ambariメトリック・モニター HDFSクライアント Hiveクライアント Kerberosクライアント MapReduce2クライアント Oozieクライアント Spark3クライアント Tezクライアント YARNクライアント ZooKeeperクライアント	NA

最小(nonHA)クラスタ・レイアウト

非高可用性クラスタには、1つのマスター・ノード、1つのユーティリティ・ノード、3つ以上のワーカー・ノード、およびゼロ以上のコンピュート専用ワーカー・ノードがあります。


ノードのタイプ	ODHのサービス	CDHのサービス
マスター・ノード	Ambariメトリック・モニター HDFSクライアント HDFS NameNode Hiveクライアント MapReduce2クライアント Spark3クライアント Spark3 History Server YARNクライアント YARNレジストリDNS ヤーン ResourceManager ZooKeeperサーバー	HDFSバランサ HDFS NameNode Hiveクライアント Sparkクライアント Spark History Server YARN (MR2 Included) JobHistory Server YARN (MR2 Included) ResourceManager ZooKeeperサーバー
ユーティリティ・ノード	Ambariメトリック・コレクタ Ambariメトリック・モニター Ambariサーバー HDFSクライアント HDFSセカンダリNameNode Hive Metastore HiveServer2 MapReduce2クライアント MapReduce2 History Server Oozie Server Spark3クライアント Tezクライアント YARNクライアント YARN Timeline Service V1.5 ZooKeeperクライアント ZooKeeperサーバー	HDFS HttpFS HDFS SecondaryNameNode Hiveクライアント Hive Metastore Server HiveServer2 Hive WebHCat Server Hue Load Balancer Hue Server Cloudera Management Service Alert Publisher Cloudera Management Service Event Server Cloudera Management Service Host Monitor Cloudera Management Service Navigator Audit Server Cloudera Management Service Navigator Metadata Server Cloudera Management Service Reports Manager Cloudera Management Service Monitor Oozie Server Sparkクライアント YARN (MR2 Included)クライアント ZooKeeperサーバー
ワーカー・ノード	Ambariメトリック・モニター HDFS DataNode HDFSクライアント Hiveクライアント MapReduce2クライアント Oozieクライアント Spark3クライアント Spark3 Thrift Server Tezクライアント YARNクライアントヤーン NodeManager ZooKeeperクライアント ZooKeeperサーバー	HDFS DataNode Hiveクライアント Sparkクライアント YARN (MR2 Included) NodeManager ZooKeeperサーバー
コンピュート専用ワーカー・ノード	Ambariメトリック・モニター HDFSクライアント Hiveクライアント MapReduce2クライアント Oozieクライアント Spark3クライアント Tezクライアント YARNクライアントヤーン NodeManager ZooKeeperクライアント	NA
エッジ・ノード	HDFSクライアント Hiveクライアント MapReduce2クライアント Oozieクライアント Spark3クライアント Tezクライアント YARNクライアント ZooKeeperクライアント	NA

サポートされているノード・シェイプ

ノード・シェイプは、ノードに割り当てられるコンピュート・リソースを表したものです。

マスター/ユーティリティ・ノードとワーカー・ノードに使用されるシェイプは、異なるものにすることができます。ただし、すべてのマスター/ユーティリティ・ノードは同じシェイプにする必要があり、すべてのワーカー・ノードは同じシェイプにする必要があります。

次の表は、ノード・タイプごとにどのようなシェイプを使用できるかを示しています。詳細は、コンピュート・シェイプを参照してください。

各シェイプで提供されるリソースのリストについては、次を参照してください:


ノード・タイプ	使用可能なシェイプ	必要な仮想ネットワーク・インタフェース・カード(VNIC)の数
マスターまたはユーティリティ	VM.Standard2.4 VM.Standard2.8 VM.Standard2.16 VM.Standard2.24 VM.Standard.E5.Flex VM.Standard.E4。フレックス* VM.Standard3。フレックス* VM.Optimized3。フレックス* VM.DenseIO.E4。フレックス* VM.DenseIO.E5。フレックス* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseIO2.52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128*	3以上クラスタ・サブネット、DPアクセス・サブネットおよびカスタマのサブネットに使用されます ^*3つ以上のOCPUおよび32 GBのメモリーを指定する必要があります。
ワーカー	VM.Standard2.1^* VM.Standard2.2^* VM.Standard2.4 VM.Standard2.8 VM.Standard2.16 VM.Standard2.24 VM.Standard.E5.Flex VM.Standard.E4。フレックス* VM.Standard3。フレックス* VM.Optimized3。フレックス* VM.DenseIO.E4。フレックス* VM.DenseIO.E5。フレックス* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseI2.52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128*	2以上クラスタ・サブネットおよびサブネットに使用されます
コンピュート専用ワーカー	VM.Standard2.1^* VM.Standard2.2^* VM.Standard2.4 VM.Standard2.8 VM.Standard2.16 VM.Standard2.24 VM.Standard.E5.Flex VM.Standard.E4。フレックス* VM.Standard3。フレックス* VM.Optimized3。フレックス* VM.DenseIO.E4。フレックス* VM.DenseIO.E5。フレックス* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseI2.52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128*	2以上クラスタ・サブネットおよびサブネットに使用されますコンピュート専用ワーカー・ノードは、CDHクラスタではサポートされていません。
辺	VM.Standard2.1^* VM.Standard2.2^* VM.Standard2.4 VM.Standard2.8 VM.Standard2.16 VM.Standard2.24 VM.Standard.E5.Flex VM.Standard.E4。フレックス* VM.Standard3。フレックス* VM.Optimized3。フレックス* VM.DenseIO.E4。フレックス* VM.DenseIO.E5。フレックス* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseI2.52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128*	2以上クラスタ・サブネットおよびカスタマのサブネットに使用されますノート: エッジ・ノードはクライアント・アプリケーション・ユースケースに固有であるため、アプリケーションの必要に応じてシェイプを選択します。エッジ・ノードはCDHクラスタではサポートされていません。

^*VM.Standard2.1およびVM.Standard2.2は、小さなシェイプであるため、大規模なワークロードの実行をサポートしないことに注意してください。VM.Standard.E4の場合。フレックス、VM.Standard3。フレックス、VM.Standard.E5。FlexおよびVM.Optimized3。フレックスでは、1つ以上のOCPUおよび16GBのメモリーを指定する必要があります。

ノート

ノート: 次のシェイプはCDHクラスタではサポートされていません。これらはODHクラスタでのみサポートされます。

VM.Standard.E4.Flex

VM.Standard.E5.Flex

VM.Standard3.Flex

VM.Optimized3.Flex

VM.DenseIO.E4.Flex

VM.DenseIO.E5。フレックス*

BM.Standard3.64

BM.Optimized3.36

BM.DenseIO.E4.128

すべてのシェイプがデフォルトで使用可能になっているわけではありません。デフォルトで使用可能なシェイプをクラウド・コンソールで確認するには、テナンシ制限の検索を参照してください。サービス制限の引上げのリクエストを送信するには、サービス制限の引上げのリクエストを参照してください。

ブロック・ストレージ・ノードのシェイプ

標準のVMシェイプに基づくノードでは、ネットワーク接続されたブロック・ストレージが使用されます。

ノート

ブロック・ストレージは、DenseIOおよびHPCシェイプに基づくノードではサポートされていません。

すべてのノードに150 GBのブート・ボリュームがあります。


オプション	制限/ガイドライン
最小初期ブロック・ストレージ	150 GB
デフォルトの初期ブロック・ストレージ*	150 GB
最小の追加のブロック・ストレージ	150 GB
デフォルトの追加のブロック・ストレージ*	1 TB
(初期および追加の)ブロック・ストレージに対する増分ステップ	50GB
単一ノードの最大ブロック・ストレージ	48 TB 12個のボリュームがそれぞれ4 TBであるため、合計48 TBになります。ブロック・ストレージを複数回追加した場合、最大値は48 TBのままですが、12個を超えるボリュームにまたがる可能性があります。
最大ブロック・ボリューム・サイズ	4 TB 最大値48 TBを指定した場合は、12個のドライブがそれぞれ4 TBで作成されます。指定する数を小さくすると、その量に十分な4 TBのデバイスが作成され、ストレージを追加すると、それにあわせてさらにデバイスが作成されます。

マスター・ノードまたはユーティリティ・ノードにブロック・ストレージを追加することはできません。したがって、次の図は初期サイズのみを示しています。


オプション	制限/ガイドライン
最小初期ブロック・ストレージ	150 GB
デフォルトの初期ブロック・ストレージ	1 TB
最小の追加のブロック・ストレージ	150 GB
デフォルトの追加のブロック・ストレージ	1 TB
(初期および追加の)ブロック・ストレージに対する増分ステップ	50GB
単一ノードの最大ブロック・ストレージ	32 TB
最大ブロック・ボリューム・サイズ	32 TB
MySQL配置	ユーティリティ・ノードの場合、`/var/lib/mysql`を`/u01`に移動し、シンボリック・リンクを作成します。これにより、ブート・ボリュームがいっぱいになるのを防ぐことができます。


オプション	ガイドライン
デフォルトの初期ブロック・ストレージ	2 TB
最小初期ブロック・ストレージ	150 GB

問合せサーバー・ストレージは、負荷が大きいJOIN操作およびGROUP BY操作を実行するための一時表領域に使用されます。通常の処理には2 TBをお薦めします。小規模な環境(たとえば、開発)の場合、この数は少なくする方向で調整できます。

最高のパフォーマンスを得るため、次の要因を考慮してください:

I/Oスループット
コンピュート・デバイスとブロック・ストレージ・デバイス間のネットワーキング。

Oracle Cloud Infrastructureドキュメントのブロック・ボリュームのパフォーマンスを参照してください。

次の表では、ビッグ・データ・サービスが様々なサイズのノードにブロック・ボリューム・ストレージを割り当てる方法について説明します。


内容	合計
マスター・ノードおよびユーティリティ・ノードに対する初期ボリューム割当て	1つの大量ボリューム
マスター・ノードおよびユーティリティ・ノードに対する追加のブロック・ストレージのボリューム割当て	1つの大量ボリューム
ワーカー・ノードに対する初期ボリューム割当て。	ストレージ: 12 TB未満。ボリュームサイズ: 1Tバイト最後のボリュームは1Tバイトより小さくなる可能性があります。ストレージ: 12 TBから48 TB。ボリューム・サイズ: 12個のボリュームに均等に分割され、それぞれが1TB以上になります。ストレージ: 48 TB超。ボリューム・サイズ: 許可されません。
ワーカー・ノードに対する追加のブロック・ストレージのボリューム割当て	ストレージ・サイズに対応できる最小ボリューム数で、ボリューム当たりの最大ボリューム・サイズは4 TBです。(最後のボリュームは、4 TBより小さくなる場合があります。)

ステージングにはエッジ・ノードを使用することをお薦めします。

インスタンス・タイプおよびシェイプの理解

ビッグ・データ・サービス・クラスタ・ノードは、Oracle Cloud Infrastructureコンピュート・インスタンス(サーバー)で実行されます。

クラスタを作成するときには、インスタンス・タイプを選択します。このタイプによって、インスタンスがハードウェアのベア・メタル・インスタンスと仮想環境のいずれで直接実行されるかが決まります。また、シェイプも選択します。これは、インスタンスに割り当てられるリソースを構成します。

インスタンス・タイプについて

ベア・メタル:ベア・メタル・コンピュート・インスタンスでは、ノードに専用の物理サーバーを使用して、最大のパフォーマンスと最強の分離を実現します。
仮想マシン(VM): 仮想化によって、VMコンピュート・インスタンスは単一の物理ベア・メタル・マシンで実行される複数の分離されたノードをホストできます。VMインスタンスは、ベア・メタル・インスタンスよりコストが低く、ノードごとに物理マシン全体のパフォーマンスおよびリソース(CPU、メモリー、ネットワーク帯域幅、ストレージ)を必要としない、要求の少ないクラスタの作成に便利です。

VMインスタンスは、ベア・メタル・インスタンスと同じハードウェア上で、同じファームウェア、ソフトウェア・スタックおよびネットワーキング・インフラストラクチャを使用して実行されます。

コンピュート・インスタンスの詳細は、コンピュート・サービスの概要を参照してください。

シェイプについて

シェイプによって、クラスタ・ノードをホストするコンピュート・インスタンスに割り当てられるCPUの数、メモリーの容量およびその他のリソースが決まります。使用可能なシェイプについては、Oracle Cloud Infrastructureドキュメントのクラスタのレイアウト、シェイプおよびストレージの計画を参照してください。

ビッグ・データ・サービス・マスター・ノードとワーカー・ノードのシェイプは、一致する必要がありません。ただし、すべてのマスター・ノードのシェイプは相互に一致する必要があり、すべてのワーカー・ノードのシェイプは相互に一致する必要があります。

クラスタ・プロファイルの理解

クラスタ・プロファイルを使用すると、特定のワークロードまたはテクノロジに最適なクラスタを作成できます。特定のクラスタ・プロファイルでクラスタを作成した後、さらに多くのHadoopサービスをクラスタに追加できます。

クラスタ・プロファイル・タイプ

Oracle Big Data Serviceでは、多数のクラスタ・プロファイル・タイプのクラスタを作成できます。


クラスタ・プロファイル	コンポーネント(セキュアで高可用性)	コンポーネント
HADOOP_EXTENDED¹	Hive、 Spark、 HDFS、 Yarn、 ZooKeeper、 MapReduce2、 Ambariメトリック、レンジャー、色相、 Oozie、 Tez	Hive、 Spark、 HDFS、 Yarn、 ZooKeeper、 MapReduce2、 Ambariメトリック、 Hue、 Oozie、 Tez
ハドップ	HDFS、Yarn、ZooKeeper、MapReduce2、Ambariメトリック、Ranger、Hue	HDFS、Yarn、ZooKeeper、MapReduce2、Ambariメトリック、Hue
ハイブ	Hive、 HDFS、 Yarn、 ZooKeeper、 MapReduce2、 Ambariメトリック、レンジャー、色相、 Tez	Hive、 HDFS、 Yarn、 ZooKeeper、 MapReduce2、 Ambariメトリック、色相、 Tez
スパーク	Spark、Hive²、HDFS、Yarn、ZooKeeper、MapReduce2、Ambariメトリック、Ranger、Hue	Spark、Hive²、HDFS、Yarn、ZooKeeper、MapReduce2、Ambariメトリック、色相 ²
HBASE	HBase、HDFS、Yarn、ZooKeeper、MapReduce2、Ambariメトリック、Ranger、Hue	HBase、HDFS、Yarn、ZooKeeper、MapReduce2、Ambariメトリック、Hue
トピックス	Trino、 Hive³、 HDFS、 ZooKeeper、 Ambariメトリック、レンジャー、色相	Trino、 Hive³、 HDFS、 ZooKeeper、 Ambariメトリック、 Hue
カフカ	Kafka Broker、 HDFS、 ZooKeeper、 Ambariメトリック、 Ranger、 Hue	Kafka Broker、 HDFS、 ZooKeeper、 Ambariメトリック、 Hue

¹ HADOOP_EXTENDEDは、クラスタ・プロファイルが使用可能になる前にクラスタを作成したコンポーネントで構成されます。

²HiveサービスのHiveメタストア・コンポーネントは、Sparkでメタデータを管理するために使用されます。

³HiveサービスのHiveメタストア・コンポーネントは、TrinoでHiveメタデータ・エンティティを管理するために使用されます。

クラスタ・プロファイルのApache Hadoopバージョン

次の表に、ODHバージョンに対応するクラスタ・プロファイルに含まれるHadoopコンポーネント・バージョンを示します。

ODH 1.x


クラスタ・プロファイル	バージョン
HADOOP_EXTENDED	HDFS 3.1、Hive 3.1、Spark 3.0.2
ハドップ	HDFS 3.1
ハイブ	Hive 3.1
スパーク	Spark 3.0.2
HBASE	HBase 2.2
トピックス	Trino 360
カフカ	Kafka 2.1.0

ODH 2.x


クラスタ・プロファイル	バージョン
HADOOP_EXTENDED	HDFS 3.3、Hive 3.1、Spark 3.2
ハドップ	HDFS 3.3
ハイブ	Hive 3.1
スパーク	Spark 3.2
HBASE	HBase 2.2
トピックス	Trino 389