クラウド・ストレージ内のオブジェクトへのリンク

Oracle Autonomousデータベースからクラウド・ストア・バケット内のファイルへのリンクを作成する場合は、クラウド・ストア内のファイルにリンクする外部表を作成します。

AVRO、CSV、JSON、GeoJSON、Parquet、ORC、デリミタ付きTXTのファイル形式のファイルにリンクできます。サポートされているファイル形式の詳細は、JSON、AVROおよびXMLファイルの形式の仕様を参照してください。

「クラウド・オブジェクトのリンク」ページからのデータ・リンク・ジョブの構成および実行。このページを開くには:

  1. データベース・アクションの起動パッドを開き、「Data Studio」タブをクリックして、「データ・ロード」メニューを選択します。「「データ・ロード」ページ」を参照してください。
  2. 「LINK DATA」および「CLOUD STORE」を選択します。

ページの左側にはナビゲータ・ペインがあり、クラウド・ストア接続およびデータを含むフォルダまたはファイルを選択します。ページの右側には、データ・リンク・ジョブのファイルおよびフォルダをステージングするデータ・ロード・カートがあります。データ・リンク・ジョブを実行する前に、そのオプションを設定できます。Autonomous Databaseには、様々なコンシューマ・グループに割り当てられた事前定義済CPU/IOシェアが付属しています。ワークロードに応じて、データ・ロード・ジョブの実行中にコンシューマ・グループを低、中または高に設定できます。

データ・リンク・ジョブのクラウド・ストレージ・リンクの管理

クラウド・ストアのデータにリンクする前に、使用するクラウド・ストアへの接続を確立する必要があります。

「クラウド・オブジェクトのリンク」ページで:

  1. クラウド・ストアの場所を入力するフィールドの横にある「クラウド・ストアの管理」アイコンをクリックします。「+ Create Cloud Store Location」を選択します。

  2. 「クラウド・ストアの場所の追加」フィールドに情報を入力します。「クラウド・ストレージの場所の追加」を参照してください。

「接続の管理」を参照してください。

「クラウド・オブジェクトのリンク」ページに戻るには、ページ上部のブレッドクラムで「データ・ロード」をクリックし、ページに戻ります。

データ・リンク・ジョブの準備

ソース・データが外部ターゲット表に正しくリンクされるように、ソース・データまたはターゲット表を調整する必要がある場合があります。考慮事項

  • 複数のファイルにリンクする場合は、次のことを確認する必要があります:

    • すべてのソース・ファイルが同じタイプ(CSV、JSONなど)です。

    • すべてのソース・ファイルの列の数、順序およびデータ型が一致します。

  • 日付でパーティション化する場合:

    • ソース・ファイルに、データ型が日付またはタイムスタンプであるデータが含まれている必要があります。

    • 2つ以上のデータ・ソースを含むフォルダをロードする必要があります。

    • フォルダ内のファイルの名前には、MAR-1999.csv2017-04-21.xlsxなどの日付(1つ以上)を指定する必要があります。

データ・リンク・ジョブのファイルまたはフォルダの追加

クラウド・ストアからのファイルをデータ・リンク・カートに追加し、そこでデータ・リンク・ジョブの詳細を編集できます。ファイルを追加するには:

  1. 左側のナビゲータ・ペインの上部にあるリストから、ソース・データを含むバケットを選択します。

    リストには、「クラウド・ストレージの管理」ページで確立されたリンクが表示されます。使用するクラウド・ストアをまだ登録していない場合は、Data Studioツール・スイートの「データ・ロード」メニューの下にある「接続」ボタンをクリックし、接続を登録します。

  2. 左側のファイル・ナビゲータから1つ以上のアイテムをドラッグし、右側のカートにドロップします。

    • ファイル、フォルダ、またはその両方を追加できます。ドラッグするファイルまたはフォルダごとに、カードがカートに追加されます。カードには、ソース・ファイルまたはフォルダの名前と、ターゲット表に対して提案される名前がリストされます。

    • 複数のファイルを含むフォルダを追加する場合、すべてのファイルは同じタイプ(CSV、TXTなど)である必要があります。

      フォルダをカートに追加すると、複数のソース・ファイルから単一のターゲット表にすべてのオブジェクトをロードするかどうかを尋ねるプロンプトが表示されます。「はい」をクリックして続行するか、「いいえ」をクリックして取り消します。

    • 複数の個別ファイルまたは複数のフォルダをカートに追加すると、各カードで表されるデータが個別の表にロードされますが、カート内のすべてのアイテムが同じデータ・ロード・ジョブの一部として処理されます。

    • 別のバケットからファイルやフォルダを追加できますが、追加する場合は、続行する前に、カート内のすべてのファイルを削除するように求められます。別のバケットからファイルを選択するには、前述のように、左側のナビゲータ・ペインのドロップダウン・リストからバケットを選択し、ファイルを追加します。

    • ファイルまたはフォルダをデータ・ロード・カートにドロップし、「データ・リンク・オブジェクト」ページから移動できます。ページに戻ると、これらのアイテムはページに残りますが、「すべてのデータ・リンク・アイテムを削除します。別のクラウド・ストレージの場所に変更するには、すべてのアイテムをデータ・ロード・ジョブから削除する必要があります。続行しますか?」カートからアイテムを削除するには、「はい」をクリックします。カート内のアイテムを保持するには、「いいえ」をクリックします。その後、作業を続行できます。

データ・リンク・ジョブを実行する前にカートからアイテムを削除できます:

  • カートからアイテムを削除するには、ペインの上部にあるアイテム「データ・リンク」カート・メニュー・バーのカードで「削除」を選択します。

  • カートからすべてのアイテムを削除するには、ペインの上部にあるデータ・リンク・カートのメニュー・バーで「すべて削除」をクリックします。

データ・リンク・ジョブの詳細の入力

クラウド・ストレージからのデータのリンク・ペインで、データ・リンク・ジョブの詳細を入力します。

データ・リンク・カートのカードで、「設定」をクリックして、そのジョブのクラウド・ストレージからのデータのリンク・ペインを開きます。ペインの内容:

「設定」タブ- 「表」セクション

「表」セクションで、ターゲット表の詳細を設定します。

  • 名前:ターゲット表の名前。
  • パーティション列:

    リスト・パーティションと日付ベースのパーティションは、データ・リンクで使用できる異なるタイプのパーティションです。

    リスト・パーティション化は、特に離散値に基づいて行をパーティションにマップする場合に必要です。

    特定の列に従ってパーティション化するには、「パーティション列」ドロップダウン・リストをクリックし、パーティション化に使用する列を選択します。

    パーティション値ごとにNつのファイルがあり、選択したパーティション列ですべてパーティション化されます。

    ノート

    • (外部表からの)リンクされたファイルの場合、ファイルごとに、リスト・パーティション化列には、すべての行にわたって単一の個別値のみを含めるという要件もあります。
    • ファイルがリスト・パーティションの場合、パーティション化キーに使用できるのは表の1列のみです。

    日付ベースのパーティション化は、日付またはタイムスタンプ・データを含む列がある2つ以上のデータ・ソースを含むフォルダをリンクする場合に使用できます。

    To partition according to date, click the Partition Column drop-down list and select the DATE or TIMESTAMP column you want to use for the partitioning.

  • 検証タイプ:検証では、指定した書式オプションに一致しないソース・ファイル、オプションのパーティション化情報、およびレポート行を調べます。検証しない場合は「None」を選択します。データのサンプルに基づいて検証を実行するには「Sample」を選択します。すべてのデータに基づいて検証を実行するには「Full」を選択します。

  • ワイルドカードの使用:このチェック・ボックスを使用すると、検索条件にワイルドカード文字を使用して、フィルタ基準に一致する特定のファイル・グループを取得できます。

    アスタリスク(*)などのワイルドカード文字を使用して、新しいファイルを検出して外部表に追加するファイルのグループを検索、フィルタおよび指定できます。

    たとえば、file*と入力すると、file01、file02、file03などがキーワードと一致するとみなされます。アスタリスク(*)は、ゼロ個以上の可能性のある文字をキーワードに一致させます。

    ノート

    ワイルドカードのサポートはパーティション化と互換性がありません。パーティション化されたデータでワイルドカードを使用した場合、ソース・ファイルの検証に失敗しました。

「設定」タブ- 「プロパティ」セクション

ソース・データの解釈、プレビューおよび処理の方法を制御します。これらのオプションは、ソース・データ・タイプによって異なります。

  • エンコーディング: リストから文字エンコーディング・タイプを選択します。このオプションは、リンクされたファイルがプレーン・テキスト形式(CSV、TSVまたはTXT)である場合に使用できます。デフォルトのエンコーディング・タイプはUTF-8です。

  • テキスト囲み:テキストを囲む文字として、「"」(二重引用符)、「'」(一重引用符)または「なし」を選択します。このオプションは、選択したファイルがプレーン・テキスト形式(CSV、TSVまたはTXT)である場合にのみ表示されます。

  • フィールド・デリミタ:ソース内の列を分離するために使用するデリミタ文字を選択します。たとえば、ソース・ファイルで列の区切りにセミコロンを使用する場合は、このリストから「セミコロン」を選択します。デフォルトは「カンマ」です。このオプションは、選択したファイルがプレーン・テキスト形式(CSV、TSVまたはTXT)である場合にのみ表示されます。

  • 行でデータの処理を開始:ソース・データをターゲット外部表にリンクするときにスキップする行数を指定します:

    • 「ソース列名」(次を参照)で「列ヘッダー行」オプションを選択し、「行でデータの処理を開始」フィールドに0より大きい数値を入力した場合、最初の行より後のその行数がターゲットにリンクされません。

    • 「Source column name」「Column header row」オプションを選択解除し、「Start processing data at row」フィールドに0より大きい数値を入力した場合、最初の行を含むその行数がターゲットにリンクされません。

  • ソース列名:ターゲット表でソース表の列名を使用するには、「列ヘッダー行」チェック・ボックスを選択します。

    • このオプションを選択すると、ファイルの最初の行が列名として処理されます。下の「マッピング」セクションの行には、これらの名前(および変更しないかぎり既存のデータ型)が入力されています。

    • このオプションの選択を解除すると、最初の行はデータとして処理されます。手動で列名を指定するには、「マッピング」セクションに各ターゲット列の名前を入力します。(データ型も入力する必要があります。)

  • 数値列: 無効な数値列の値をNULL値に変換するには、「無効なデータをNULLに変換」チェック・ボックスを選択します。

  • データ値に改行を含む: データ・フィールドに改行文字がある場合、または現在の行の先頭に戻る場合は、このオプションを選択します。このオプションを選択すると、ロードの処理にかかる時間が長くなります。データのロード時にこのオプションを選択しない場合、フィールドの改行を含む行は拒否されます。「ジョブ・レポート」パネルで否認された行を表示できます。

「設定」タブ- 「マッピング」セクション

「マッピング」セクションの設定によって、ソース・ファイルのデータがターゲット外部表の行にどのようにリンクされるかを制御します。各行について、「ソース列」にリストされている列のデータは、「ターゲット列」にリストされている列にリンクされます。

  • ソース列: ソース・ファイルの列がリストされます。

    「プロパティ」「列ヘッダー行」オプションが選択されている場合、「ソース列」にはソース・ファイル内の列の名前が表示されます。「列ヘッダー行」オプションが選択されていない場合は、COLUMN_1COLUMN_2などの汎用名が使用されます。このフィールドは常に読取り専用です。

    2つのソース列FILE$NAMEおよびSYSTIMESTAMPを表示できます。FILE$NAME列を使用すると、特定のデータ・レコードを含むソース・ファイルを検索できます。たとえば、ファイルのリストを含むソース・ファイルをロードします。ファイル・リストのファイルは、組織全体の部門名を参照します。たとえば、finance.txtファイルには、財務部門のデータが含まれます。マッピングでは、文字列データ型を使用して、ファイル名列の出力から部門名を抽出できます。抽出した部門名を使用して、部門ごとに異なる方法でデータを処理できます。

    SYSTIMESTAMP列を使用すると、データベースの現在のタイムスタンプを表示できます。

    ノート

    • デフォルトでは、FILE$NAMEおよびSYSTIMESTAMPソース列は含まれません。これらの2つの列を表示するには、「含む」チェック・ボックスを選択し、ターゲット表のロードを実行する必要があります。
    • ライブフィードを作成すると、デフォルトでFILE$NAMEおよびSYSTIMESTAMPソース列がマッピング表に表示されます。
  • ターゲット列:ターゲット表の列がリストされます。

    • 「列ヘッダー行」オプションが選択されている場合「ターゲット列」ではソース・ファイル内の列の名前が使用されます。提示された名前を新しい名前に置き換えることで、ターゲット列の名前を変更できます。ターゲット列が空でないことを確認する必要があります。ターゲットカラム名は、別のターゲットカラムと重複できません。ターゲットカラム名を別のターゲットカラムと重複させることはできません。ターゲット列の長さは128バイトを超えることはできません。128バイトの制限はデータベース制限です。

    • 「列ヘッダー行」オプションが選択されていない場合、COLUMN_1COLUMN_2などの汎用名が使用されます。提示された名前を新しい名前に置き換えることで、ターゲット列の名前を変更できます。

    ノート

    1つのデータ・リンク・ジョブでフォルダから複数のファイルをリンクする場合、最初のファイルのみが「マッピング」セクションに表示されます。ただし、列名とデータ型が一致するかぎり、すべてのソース・ファイルのデータがリンクされます。

  • データ型:その列のデータに使用するデータ型をリストします。内容は、「ファイル・ヘッダーから取得」オプションが選択されているかどうかによって異なります。

    • 「列ヘッダー行」オプションが選択されている場合は、「データ型」にソース・ファイル内の列のデータ型を示します。ターゲットのデータ型を変更する場合は、名前をクリックしてリストから別のデータ型を選択します。

    • 「列ヘッダー行」オプションが選択されていない場合、「データ型」には使用可能なすべてのデータ型が表示されます。ターゲット列に使用するデータ型をリストから選択します。

  • 長さ/精度(オプション: データ型NUMBERの列には、列内の数値の長さ/精度を入力します。精度とは、数値の有効桁数を指します。精度の範囲は1から38です。

    データ型がVARCHAR2の列の場合、「長さ/精度」フィールドの「自動」値により、自動サイズ調整機能が有効になります。

    「列の幅の自動調整」機能を使用すると、列内の最大値に適合するように列のサイズを自動的に調整できます。「長さ/精度」ドロップダウン値から「自動」を選択するか、ドロップダウン・リストから値を選択します。

  • 位取り(オプション: 「データ型」「NUMBER」の列には、列内の番号の位取りを入力します。位取りとは、小数点の右(正)または左(負)の数字のことです。位取りの範囲は-84から127です。

  • フォーマット: 「データ型」列のデータ型がDATEまたはいずれかのTIMESTAMP型の場合、「フォーマット」ドロップダウン・リストからその型のフォーマットを選択します。

「プレビュー」タブ

「プレビュー」タブの「ロード・プレビュー」メニューには、ソース・データが表形式で表示されます。表示には「プロパティ」セクションで選択した設定が表示されます。「ファイル」メニューには、ソース・データが列名とともに表示されます。

複数のファイルを含むフォルダをデータ・リンク・カートにドラッグし、そのカードの設定 「設定」をクリックすると、「プレビュー」ペインには、フォルダ内のすべてのファイルがリストされている「オブジェクト(ファイル)のプレビュー」ドロップダウン・リストがペインの上部にあります。プレビューするソース・ファイルをリストから選択します。

「表」タブ

「表」タブには、データがリンクされた後のターゲット表の予想される外観が表示されます。

「SQL」タブ

「SQL」タブには、このデータ・リンク・ジョブを完了するために実行されるSQLコマンドが表示されます。

ノート

SQLコードは、表が作成されるまで確認できます。

「閉じる」ボタン- ペインを保存して閉じる

データ・リンク・ジョブの詳細をすべて入力した後、ページの下部にある「閉じる」をクリックします。これにより、入力した詳細が保存され、クラウド・ストレージからのデータのリンク・ペインに戻ります。

データ・リンク・ジョブの実行

データ・リンク・カートにデータ・ソースを追加し、データ・リンク・ジョブに関する詳細を入力したら、ジョブを実行できます。

ジョブを実行するには:

  1. まだ行っていない場合は、「クラウド・ストレージからのデータのリンク」ペインで「閉じる」ボタンをクリックして設定を保存します。いずれかの設定が無効な場合、エラー・メッセージで問題がレポートされます。問題を解決し、「閉じる」をクリックします。
  2. データ・リンク・カートのメニュー・バーで起動「開始」をクリックします。データ・リンク・ジョブを停止するには、停止 「停止」をクリックします。

    データ・リンク・ジョブが完了すると、「データ・ロード・ダッシュボード」ページに、「表およびビュー・ロード」セクションの下にジョブの結果が表示されます。

    データ・リンク・ジョブが開始されると、「データ・ロード」ダッシュボードでジョブの進捗を表示できます。

実行後のデータ・リンク・ジョブに関する詳細の表示

「データ・ロード」ダッシュボードでジョブの進捗を表示できます。

データ・ロード・ジョブが完了すると、「データ・ロード」ダッシュボード・ページにジョブの結果が表示されます。表ロードのヘッダーの上部に、表の名前と表に存在する合計列を表示できます。

「ジョブ・レポート」をクリックして、正常に処理された行の合計数および拒否された行の数を表示します。開始時間を表示することもできます。ジョブ・レポートの「SQL」ペインには、ジョブと同等のSQLコードが表示されます。

ジョブ内のアイテムに関する情報を表示するには、表ロードの「アクション」アイコンをクリックします。

ロード操作のログを表示するには、「ロギング」アイコンをクリックします。ログを保存、クリアまたはリフレッシュできます。「OK」をクリックしてログを閉じます。

データ・リンク・ジョブから生成された表の表示

データ・リンク・ジョブの実行後、「データ・ロード」ダッシュボードでデータ・リンク・ジョブによって作成された表を表示できます。

データ・ロード・ジョブを修正します。データ・ロード・ジョブの後、修正が必要なエラーが表示される場合や、検査時に、列の名前を変更する必要があることに気づく場合があります。このような場合は、選択した表ロードの「再ロード」オプションをクリックして最近のカートからカードを再ロードし、最初の試行前に行ったように編集します。「再ロード」アイコンは、ツールで提示された修正を使用してソース・データをリロードします。表ヘッダーの「アクション」アイコンをクリックし、「表」をクリックして「編集」を選択し、データ・ロード・ジョブに変更を加えます(列名を変更するなど)。