AWS Glue から API のデータに接続
Amazon AWS Glue は、ストレージや分析向けのデータの準備とロードを簡素化するために設計された ETL サービスです。Glue Studio と CData Connect AI を組み合わせることで、コーディング不要、または最小限のコーディングで ETL ジョブを構築できます。これらのジョブは、CData Glue Connector を通じてデータを操作できます。本記事では、CData Connect AI 経由で your API に接続し、CData Glue Connector を使用してリアルタイムのAPI のデータを操作する AWS Glue ジョブを作成・実行する方法をステップごとにご紹介します。
CData Connect AI は、your API 向けのシームレスなクラウド間インターフェースを提供し、AWS Glue ジョブ内でリアルタイムのAPI のデータに直接アクセスできます。必要な操作は、AWS Glue Connector を使用してテーブルを選択する(またはカスタム SQL クエリを作成する)だけです。最適化されたデータ処理機能を備えた CData Connect AI は、フィルタや JOIN などのサポート対象のクエリ操作を効率的に your API へ直接送信します。サーバーサイド処理を活用することで、ETL ジョブ用のAPI のデータを迅速に取得できます。
このセットアップには CData Connect AI インスタンスと CData AWS Glue Connector が必要です。まずは Connect AI の無料トライアルにサインアップし、Connect AI 用の無料 Glue Connector をサブスクライブしてください。
AWS Glue 用の your API 接続を設定
AWS Glue から your API への接続は、CData Connect AI を通じて実現できます。AWS Glue からAPI のデータを操作するには、まず your API への接続を作成・設定します。
- Connect AI にログインして「Sources」をクリック、次に「 Add Connection」をクリック
- 接続を追加パネルから「API」を選択
-
your API に接続するために必要な認証プロパティを入力します。
To connect to your API, configure the following properties on the Global Settings page:
- In Authentication, select the Type and fill in the required properties
- In Headers, add the required HTTP headers for your API
- In Pagination, select the Type and fill in the required properties
After the configuring the global settings, navigate to the Tables to add tables. For each table you wish to add:
- Click "+ Add"
- Set the Name for the table
- Set Request URL to the API endpoint you wish to work with
- (Optional) In Parameters, add the required URL Parameters for your API endpoint
- (Optional) In Headers, add the required HTTP headers for the API endpoint
- In Table Data click " Configure"
- Review the response from the API and click "Next"
- Select which element to use as the Repeated Elements and which elements to use as Columns and click "Next"
- Preview the tabular model of the API response and click "Confirm"
- 「Save & Test」をクリック
-
your API 接続の追加ページで「Permissions」タブに移動し、ユーザーベースの権限を更新します。
パーソナルアクセストークンの追加
REST API、OData API、または仮想 SQL Server を通じて Connect AI に接続する場合、パーソナルアクセストークン(PAT)を使用して Connect AI への接続を認証します。アクセスを細かく管理するため、サービスごとに個別の PAT を作成することをお勧めします。
- Connect AI アプリの右上にある歯車アイコン()をクリックして設定ページを開きます。
- 設定ページで「Access Tokens」セクションに移動し、「 Create PAT」をクリックします。
-
PAT に名前を付けて「Create」をクリックします。
- パーソナルアクセストークンは作成時にのみ表示されるため、必ずコピーして今後の使用に備えて安全に保管してください。
接続が設定され PAT が生成されたので、AWS Glue からAPI のデータに接続する準備が整いました。
IAM ロールの権限を更新
AWS Glue ジョブを作成する際、ジョブで使用する AWS Identity and Access Management(IAM)ロールを指定します。このロールは、Amazon S3(ソース、ターゲット、スクリプト、一時ディレクトリ用)、AWS Glue Data Catalog オブジェクトなど、ジョブで使用するすべてのリソースへのアクセスを許可する必要があります。また、AWS Glue Marketplace の your API 用 CData Glue Connector へのアクセスも許可する必要があります。
AWS Glue ジョブの IAM ロールには、少なくとも以下のポリシーを追加する必要があります:
- AWSGlueServiceRole(Glue Studio と Glue Jobs へのアクセス用)
- AmazonEC2ContainerRegistryReadOnly(your API 用 CData AWS Glue Connector へのアクセス用)
Amazon S3 のデータにアクセスする場合は、以下を追加してください:
- AmazonS3FullAccess(Amazon S3 への読み書き用)
また、AWS Secrets Manager を使用して機密性の高い接続プロパティを保存する場合(詳細は後述)、以下のようなインラインポリシーを追加し、Glue Job に必要な特定のシークレットへのアクセスを許可する必要があります:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"secretsmanager:GetResourcePolicy",
"secretsmanager:GetSecretValue",
"secretsmanager:DescribeSecret",
"secretsmanager:ListSecretVersionIds"
],
"Resource": [
"arn:aws:secretsmanager:us-west-2:111122223333:secret:aes128-1a2b3c",
"arn:aws:secretsmanager:us-west-2:111122223333:secret:aes192-4D5e6F",
"arn:aws:secretsmanager:us-west-2:111122223333:secret:aes256-7g8H9i"
]
}
]
}
AWS Glue Studio および Glue Jobs へのアクセス許可の設定について詳しくは、AWS Glue ドキュメントの「AWS Glue の IAM アクセス権限の設定」を参照してください。
Amazon S3 バケットへのアクセス許可について詳しくは、Amazon Simple Storage Service 開発者ガイドの「ID およびアクセス管理」を参照してください。
シークレットへのアクセス制御の設定について詳しくは、AWS Secrets Manager ドキュメントの「AWS Secrets Manager の認証とアクセスコントロール」および AWS Secrets Manager ユーザーガイドの「特定のシークレットへのアクセスを制限する」を参照してください。AWS Secrets Manager から取得した認証情報(キーと値のペアの文字列)は、上記のように CData Glue Connector がデータソースに接続する際に使用する JDBC URL で使用されます。
(オプション)your API 接続プロパティを AWS Secrets Manager に保存
接続プロパティを安全に保存・使用するために、AWS Secrets Manager に保存できます。
注意: AWS Glue ETL ジョブとシークレットは同じリージョンでホストする必要があります。現在、リージョン間でのシークレット取得はサポートされていません。
- AWS Secrets Manager コンソールにサインインします。
- サービス紹介ページまたはシークレット一覧ページで「新しいシークレットを保存」を選択します。
- 「新しいシークレットを保存」ページで「その他のタイプのシークレット」を選択します。このオプションでは、シークレットの構造と詳細を自分で指定します。
- your API への接続に必要なプロパティについては、以下の「アクティベート」セクションをご確認ください。保存するプロパティが決まったら、各プロパティに対してキーと値のペアを作成します。例:
- Username: CData Connect AI ユーザー(例:[email protected])
- Password: CData Connect AI ユーザーの PAT
シークレットの作成について詳しくは、AWS Secrets Manager ユーザーガイドの AWS Secrets Manager でのシークレットの作成と管理を参照してください。
- シークレット名を記録しておきます。これは AWS Glue Studio で接続を設定する際に使用します。
CData Glue Connector for your API をサブスクライブ
AWS Glue Studio で your API 用の CData Glue Connector を使用するには、AWS Marketplace から Connector をサブスクライブする必要があります。すでに your API 用の CData Glue Connector をサブスクライブしている場合は、次のセクションに進んでください。
- CData AWS Glue Connector for Connect AI の AWS Marketplace リストに移動します
- 「Continue to Subscribe」をクリックします
- Connector の規約に同意し、リクエストが処理されるまで待ちます
- 「Continue to Configuration」をクリックします
Glue Studio で CData Glue Connector for Connect AI をアクティベート
AWS Glue で your API 用の CData Glue Connector を使用するには、AWS Glue Studio でサブスクライブした Connector をアクティベートする必要があります。アクティベート処理により、AWS アカウントにコネクタオブジェクトと接続が作成されます。
- Connector をサブスクライブすると、AWS Marketplace のコネクタページに新しい「Configure」タブが表示されます。
- 配信オプションを選択し、「Continue to Launch」ボタンをクリックします。
- Launch タブで「Usage Instructions」をクリックし、表示されるリンクをクリックして接続を作成・設定します。
Connection access で JDBC URL フォーマットを選択し、接続を設定します。以下に、your API で使用可能な JDBC URL フォーマットのサンプル接続文字列を示します。your API での認証について詳しくは、Connector のヘルプドキュメントをご参照ください。
AWS Secrets Manager にプロパティを保存する場合は、プレースホルダー値(例:${Property1})をそのままにしておきます。そうでない場合、AWS Glue 接続インターフェースで入力した値は、プロパティの下の(読み取り専用の)JDBC URL に表示されます。
Connect AI
jdbc:cdata:Connect:AuthScheme=Basic;User=${Username};Password=${Password};defaultCatalog=${defaultCatalog}- ${Username}: Connect AI ユーザーを指定します
- ${Password}: Connect AI の PAT を指定します
- ${defaultCatalog}: 設定した接続名を指定します(例:API1)
- (オプション): Connector のロギングを有効にします。
your API 用の CData Glue Connector の機能をログに記録する場合は、JDBC URL に 2 つのプロパティを追加する必要があります:
- Logfile: 「STDOUT://」に設定します
- Verbosity: 整数(1-5)に設定します。1 がデフォルトで、ほとんどのデバッグシナリオでは 3 を推奨します。
- ネットワークオプションを設定し、「Create Connection」をクリックします。
Amazon Glue ジョブの設定
接続を設定したら、Glue ジョブを構築できます。
接続を使用するジョブを作成
- Glue Studio で「Your connections」から作成した接続を選択します
- 「Create job」をクリックします
ビジュアルジョブエディタが表示されます。接続から派生した新しい Source ノードがジョブグラフに表示されます。右側のノード詳細パネルでは、ユーザー入力用に「Source Properties」タブが選択されています。
Source ノードプロパティの設定:
「Source properties」タブで、データソースへの接続のアクセスオプションを設定できます。詳細については、AWS Glue Studio ドキュメントを参照してください。ここでは簡単な手順をご紹介します。
- ビジュアルジョブエディタで、コネクタの Source ノードが選択されていることを確認します。まだ選択されていない場合は、右側のノード詳細パネルで「Source properties」タブを選択します。
- Connection フィールドには、マーケットプレイスコネクタに関連付けられた接続名が自動的に入力されます。
- データソース内のデータの場所に関する情報を入力します。データソースからデータを取得するためのソーステーブル名またはクエリを指定します。例:
SELECT title, body FROM API1.API.posts WHERE userId = 12345
注意: ソーステーブルには完全修飾ドメイン名を使用します。CData Connect AI での接続名がカタログ名、データソース名がスキーマとなります。例:API1.API.posts
- データソースから変換ノードに情報を渡すには、AWS Glue Studio がデータのスキーマを把握する必要があります。「Use Schema Builder」を選択して、スキーマをインタラクティブに指定します。
- 必要に応じて残りのオプションフィールドを設定します。以下を設定できます:
- パーティショニング情報 - データソースからの読み取り操作を並列化するため
- データ型マッピング - ソースデータで使用されるデータ型を AWS Glue でサポートされるデータ型に変換するため
- フィルター述語 - データソースからデータのサブセットを選択するため
これらのオプションについて詳しくは、「Use the Connection in a Glue job using Glue Studio」を参照してください。
- ノードプロパティパネルの「Output schema」タブを選択すると、このノードで生成されるスキーマを確認できます。
ジョブの編集、保存、実行
ジョブグラフでノードを追加・編集してジョブを編集します。詳細については、「AWS Glue Studio での ETL ジョブの編集」を参照してください。
ジョブの編集が完了したら、ジョブプロパティを入力します。
- ビジュアルグラフエディタの上にある「Job properties」タブを選択します。
- カスタムコネクタを使用する場合は、以下のジョブプロパティを設定します:
- Name: ジョブ名を入力します。
- IAM Role: 前述の必要な権限を持つ IAM ロールを選択(または作成)します。
- Type: 「Spark」を選択します。
- Glue version: 「Glue 3.0 - Supports spark 3.1, Scala 2, Python 3」を選択します。
- Language: 「Python 3」を選択します。
- その他のパラメータにはデフォルト値を使用します。ジョブパラメータについて詳しくは、AWS Glue 開発者ガイドの「ジョブプロパティの定義」を参照してください。
- ページ上部の「Save」を選択します。
- 「Successfully created Job」というメッセージが緑色のバナーで表示されます。
- ジョブの保存に成功したら、「Run」を選択してジョブを実行できます。
- ジョブの生成されたスクリプトを表示するには、ビジュアルエディタ上部の「Script」タブを選択します。「Job runs」タブにはジョブの実行履歴が表示されます。ジョブ実行の詳細については、「最近のジョブ実行の情報を表示」を参照してください。
生成されたスクリプトの確認
ジョブ作成の任意の時点で、「Script」タブをクリックして Glue Studio が作成しているスクリプトを確認できます。API のデータを Amazon S3 バケットに書き込む単純なジョブを作成した場合、スクリプトは以下のようになります:
サンプルスクリプト
import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
args = getResolvedOptions(sys.argv, ["JOB_NAME"])
sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args["JOB_NAME"], args)
# Script generated for node CData AWS Glue Connector for CData Connect
CDataAWSGlueConnectorforCDataConnect_node1 = (
glueContext.create_dynamic_frame.from_options(
connection_type="marketplace.jdbc",
connection_options={
"tableName": "API1.API.posts",
"dbTable": "API1.API.posts",
"connectionName": "cdata-cloud-connector",
},
transformation_ctx="CDataAWSGlueConnectorforCDataConnect_node1",
)
)
job.commit()
CData Connect AI と AWS Glue Studio の AWS Glue Connector for Connect AI を使用すると、API のデータを S3 バケットやその他の宛先にロードする ETL ジョブを簡単に作成できます。また、Glue Connector を使用して、Glue Jobs でAPI のデータを追加、更新、削除することもできます。
300 以上の SaaS、ビッグデータ、NoSQL ソースへのリアルタイムデータアクセスをクラウドアプリケーションから直接取得するには、CData Connect AI を今すぐお試しください!