AWS Glue から Amazon Athena のデータに接続
Amazon AWS Glue は、ストレージや分析向けのデータの準備とロードを簡素化するために設計された ETL サービスです。Glue Studio と CData Connect AI を組み合わせることで、コーディング不要、または最小限のコーディングで ETL ジョブを構築できます。これらのジョブは、CData Glue Connector を通じてデータを操作できます。本記事では、CData Connect AI 経由で Amazon Athena に接続し、CData Glue Connector を使用してリアルタイムのAmazon Athena のデータを操作する AWS Glue ジョブを作成・実行する方法をステップごとにご紹介します。
CData Connect AI は、Amazon Athena 向けのシームレスなクラウド間インターフェースを提供し、AWS Glue ジョブ内でリアルタイムのAmazon Athena のデータに直接アクセスできます。必要な操作は、AWS Glue Connector を使用してテーブルを選択する(またはカスタム SQL クエリを作成する)だけです。最適化されたデータ処理機能を備えた CData Connect AI は、フィルタや JOIN などのサポート対象のクエリ操作を効率的に Amazon Athena へ直接送信します。サーバーサイド処理を活用することで、ETL ジョブ用のAmazon Athena のデータを迅速に取得できます。
Amazon Athena データ連携について
CData は、Amazon Athena のライブデータにアクセスし、統合するための最も簡単な方法を提供します。お客様は CData の接続機能を以下の目的で使用しています:
- IAM 認証情報、アクセスキー、インスタンスプロファイルなど、さまざまな方法で安全に認証できます。多様なセキュリティニーズに対応し、認証プロセスを簡素化します。
- 詳細なエラーメッセージにより、セットアップを効率化し、問題を迅速に解決できます。
- サーバーサイドでのクエリ実行により、パフォーマンスを向上させ、クライアントリソースへの負荷を最小限に抑えます。
ユーザーは、Tableau、Power BI、Excel などの分析ツールと Athena を統合し、お気に入りのツールから詳細な分析を行うことができます。
CData を使用した Amazon Athena のユニークなユースケースについては、ブログ記事をご覧ください:https://jp.cdata.com/blog/amazon-athena-use-cases
はじめに
このセットアップには CData Connect AI インスタンスと CData AWS Glue Connector が必要です。まずは Connect AI の無料トライアルにサインアップし、Connect AI 用の無料 Glue Connector をサブスクライブしてください。
AWS Glue 用の Amazon Athena 接続を設定
AWS Glue から Amazon Athena への接続は、CData Connect AI を通じて実現できます。AWS Glue からAmazon Athena のデータを操作するには、まず Amazon Athena への接続を作成・設定します。
- Connect AI にログインして「Sources」をクリック、次に「 Add Connection」をクリック
- 接続を追加パネルから「Amazon Athena」を選択
-
Amazon Athena に接続するために必要な認証プロパティを入力します。
Amazon Athena 接続プロパティの取得・設定方法
それでは、早速Athena に接続していきましょう。
データに接続するには、以下の接続パラメータを指定します。
- DataSource:接続するAmazon Athena データソース。
- Database:接続するAmazon Athena データベース。
- AWSRegion:Amazon Athena データがホストされているリージョン。
- S3StagingDirectory:クエリの結果を保存するS3 フォルダ。
Database またはDataSource が設定されていない場合、CData 製品はAmazon Athena の利用可能なデータソースからすべてのデータベースのリスト化を試みます。そのため、両方のプロパティを設定することでCData 製品のパフォーマンスが向上します。
Amazon Athena の認証設定
CData 製品は幅広い認証オプションに対応しています。詳しくはヘルプドキュメントの「はじめに」を参照してみてください。
AWS キーを取得
IAM ユーザーの認証情報を取得するには、以下のステップお試しください。
- IAM コンソールにサインインします。
- ナビゲーションペインでユーザーを選択します。
- ユーザーのアクセスキーを作成または管理するには、ユーザーを選択してからセキュリティ認証情報タブに移動します。
AWS ルートアカウントの資格情報を取得するには、以下のステップをお試しください。
- ルートアカウントの認証情報を使用してAWS 管理コンソールにサインインします。
- アカウント名または番号を選択します。
- 表示されたメニューでMy Security Credentials を選択します。
- ルートアカウントのアクセスキーを管理または作成するには、Continue to Security Credentials をクリックし、[Access Keys]セクションを展開します。
その他の認証オプションについては、ヘルプドキュメントの「Amazon Athena への認証」を参照してください。
- 「Save & Test」をクリック
-
Amazon Athena 接続の追加ページで「Permissions」タブに移動し、ユーザーベースの権限を更新します。
パーソナルアクセストークンの追加
REST API、OData API、または仮想 SQL Server を通じて Connect AI に接続する場合、パーソナルアクセストークン(PAT)を使用して Connect AI への接続を認証します。アクセスを細かく管理するため、サービスごとに個別の PAT を作成することをお勧めします。
- Connect AI アプリの右上にある歯車アイコン()をクリックして設定ページを開きます。
- 設定ページで「Access Tokens」セクションに移動し、「 Create PAT」をクリックします。
-
PAT に名前を付けて「Create」をクリックします。
- パーソナルアクセストークンは作成時にのみ表示されるため、必ずコピーして今後の使用に備えて安全に保管してください。
接続が設定され PAT が生成されたので、AWS Glue からAmazon Athena のデータに接続する準備が整いました。
IAM ロールの権限を更新
AWS Glue ジョブを作成する際、ジョブで使用する AWS Identity and Access Management(IAM)ロールを指定します。このロールは、Amazon S3(ソース、ターゲット、スクリプト、一時ディレクトリ用)、AWS Glue Data Catalog オブジェクトなど、ジョブで使用するすべてのリソースへのアクセスを許可する必要があります。また、AWS Glue Marketplace の Amazon Athena 用 CData Glue Connector へのアクセスも許可する必要があります。
AWS Glue ジョブの IAM ロールには、少なくとも以下のポリシーを追加する必要があります:
- AWSGlueServiceRole(Glue Studio と Glue Jobs へのアクセス用)
- AmazonEC2ContainerRegistryReadOnly(Amazon Athena 用 CData AWS Glue Connector へのアクセス用)
Amazon S3 のデータにアクセスする場合は、以下を追加してください:
- AmazonS3FullAccess(Amazon S3 への読み書き用)
また、AWS Secrets Manager を使用して機密性の高い接続プロパティを保存する場合(詳細は後述)、以下のようなインラインポリシーを追加し、Glue Job に必要な特定のシークレットへのアクセスを許可する必要があります:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"secretsmanager:GetResourcePolicy",
"secretsmanager:GetSecretValue",
"secretsmanager:DescribeSecret",
"secretsmanager:ListSecretVersionIds"
],
"Resource": [
"arn:aws:secretsmanager:us-west-2:111122223333:secret:aes128-1a2b3c",
"arn:aws:secretsmanager:us-west-2:111122223333:secret:aes192-4D5e6F",
"arn:aws:secretsmanager:us-west-2:111122223333:secret:aes256-7g8H9i"
]
}
]
}
AWS Glue Studio および Glue Jobs へのアクセス許可の設定について詳しくは、AWS Glue ドキュメントの「AWS Glue の IAM アクセス権限の設定」を参照してください。
Amazon S3 バケットへのアクセス許可について詳しくは、Amazon Simple Storage Service 開発者ガイドの「ID およびアクセス管理」を参照してください。
シークレットへのアクセス制御の設定について詳しくは、AWS Secrets Manager ドキュメントの「AWS Secrets Manager の認証とアクセスコントロール」および AWS Secrets Manager ユーザーガイドの「特定のシークレットへのアクセスを制限する」を参照してください。AWS Secrets Manager から取得した認証情報(キーと値のペアの文字列)は、上記のように CData Glue Connector がデータソースに接続する際に使用する JDBC URL で使用されます。
(オプション)Amazon Athena 接続プロパティを AWS Secrets Manager に保存
接続プロパティを安全に保存・使用するために、AWS Secrets Manager に保存できます。
注意: AWS Glue ETL ジョブとシークレットは同じリージョンでホストする必要があります。現在、リージョン間でのシークレット取得はサポートされていません。
- AWS Secrets Manager コンソールにサインインします。
- サービス紹介ページまたはシークレット一覧ページで「新しいシークレットを保存」を選択します。
- 「新しいシークレットを保存」ページで「その他のタイプのシークレット」を選択します。このオプションでは、シークレットの構造と詳細を自分で指定します。
- Amazon Athena への接続に必要なプロパティについては、以下の「アクティベート」セクションをご確認ください。保存するプロパティが決まったら、各プロパティに対してキーと値のペアを作成します。例:
- Username: CData Connect AI ユーザー(例:[email protected])
- Password: CData Connect AI ユーザーの PAT
シークレットの作成について詳しくは、AWS Secrets Manager ユーザーガイドの AWS Secrets Manager でのシークレットの作成と管理を参照してください。
- シークレット名を記録しておきます。これは AWS Glue Studio で接続を設定する際に使用します。
CData Glue Connector for Amazon Athena をサブスクライブ
AWS Glue Studio で Amazon Athena 用の CData Glue Connector を使用するには、AWS Marketplace から Connector をサブスクライブする必要があります。すでに Amazon Athena 用の CData Glue Connector をサブスクライブしている場合は、次のセクションに進んでください。
- CData AWS Glue Connector for Connect AI の AWS Marketplace リストに移動します
- 「Continue to Subscribe」をクリックします
- Connector の規約に同意し、リクエストが処理されるまで待ちます
- 「Continue to Configuration」をクリックします
Glue Studio で CData Glue Connector for Connect AI をアクティベート
AWS Glue で Amazon Athena 用の CData Glue Connector を使用するには、AWS Glue Studio でサブスクライブした Connector をアクティベートする必要があります。アクティベート処理により、AWS アカウントにコネクタオブジェクトと接続が作成されます。
- Connector をサブスクライブすると、AWS Marketplace のコネクタページに新しい「Configure」タブが表示されます。
- 配信オプションを選択し、「Continue to Launch」ボタンをクリックします。
- Launch タブで「Usage Instructions」をクリックし、表示されるリンクをクリックして接続を作成・設定します。
Connection access で JDBC URL フォーマットを選択し、接続を設定します。以下に、Amazon Athena で使用可能な JDBC URL フォーマットのサンプル接続文字列を示します。Amazon Athena での認証について詳しくは、Connector のヘルプドキュメントをご参照ください。
AWS Secrets Manager にプロパティを保存する場合は、プレースホルダー値(例:${Property1})をそのままにしておきます。そうでない場合、AWS Glue 接続インターフェースで入力した値は、プロパティの下の(読み取り専用の)JDBC URL に表示されます。
Connect AI
jdbc:cdata:Connect:AuthScheme=Basic;User=${Username};Password=${Password};defaultCatalog=${defaultCatalog}- ${Username}: Connect AI ユーザーを指定します
- ${Password}: Connect AI の PAT を指定します
- ${defaultCatalog}: 設定した接続名を指定します(例:AmazonAthena1)
- (オプション): Connector のロギングを有効にします。
Amazon Athena 用の CData Glue Connector の機能をログに記録する場合は、JDBC URL に 2 つのプロパティを追加する必要があります:
- Logfile: 「STDOUT://」に設定します
- Verbosity: 整数(1-5)に設定します。1 がデフォルトで、ほとんどのデバッグシナリオでは 3 を推奨します。
- ネットワークオプションを設定し、「Create Connection」をクリックします。
Amazon Glue ジョブの設定
接続を設定したら、Glue ジョブを構築できます。
接続を使用するジョブを作成
- Glue Studio で「Your connections」から作成した接続を選択します
- 「Create job」をクリックします
ビジュアルジョブエディタが表示されます。接続から派生した新しい Source ノードがジョブグラフに表示されます。右側のノード詳細パネルでは、ユーザー入力用に「Source Properties」タブが選択されています。
Source ノードプロパティの設定:
「Source properties」タブで、データソースへの接続のアクセスオプションを設定できます。詳細については、AWS Glue Studio ドキュメントを参照してください。ここでは簡単な手順をご紹介します。
- ビジュアルジョブエディタで、コネクタの Source ノードが選択されていることを確認します。まだ選択されていない場合は、右側のノード詳細パネルで「Source properties」タブを選択します。
- Connection フィールドには、マーケットプレイスコネクタに関連付けられた接続名が自動的に入力されます。
- データソース内のデータの場所に関する情報を入力します。データソースからデータを取得するためのソーステーブル名またはクエリを指定します。例:
SELECT Name, TotalDue FROM AmazonAthena1.AmazonAthena.Customers WHERE CustomerId = 12345
注意: ソーステーブルには完全修飾ドメイン名を使用します。CData Connect AI での接続名がカタログ名、データソース名がスキーマとなります。例:AmazonAthena1.AmazonAthena.Customers
- データソースから変換ノードに情報を渡すには、AWS Glue Studio がデータのスキーマを把握する必要があります。「Use Schema Builder」を選択して、スキーマをインタラクティブに指定します。
- 必要に応じて残りのオプションフィールドを設定します。以下を設定できます:
- パーティショニング情報 - データソースからの読み取り操作を並列化するため
- データ型マッピング - ソースデータで使用されるデータ型を AWS Glue でサポートされるデータ型に変換するため
- フィルター述語 - データソースからデータのサブセットを選択するため
これらのオプションについて詳しくは、「Use the Connection in a Glue job using Glue Studio」を参照してください。
- ノードプロパティパネルの「Output schema」タブを選択すると、このノードで生成されるスキーマを確認できます。
ジョブの編集、保存、実行
ジョブグラフでノードを追加・編集してジョブを編集します。詳細については、「AWS Glue Studio での ETL ジョブの編集」を参照してください。
ジョブの編集が完了したら、ジョブプロパティを入力します。
- ビジュアルグラフエディタの上にある「Job properties」タブを選択します。
- カスタムコネクタを使用する場合は、以下のジョブプロパティを設定します:
- Name: ジョブ名を入力します。
- IAM Role: 前述の必要な権限を持つ IAM ロールを選択(または作成)します。
- Type: 「Spark」を選択します。
- Glue version: 「Glue 3.0 - Supports spark 3.1, Scala 2, Python 3」を選択します。
- Language: 「Python 3」を選択します。
- その他のパラメータにはデフォルト値を使用します。ジョブパラメータについて詳しくは、AWS Glue 開発者ガイドの「ジョブプロパティの定義」を参照してください。
- ページ上部の「Save」を選択します。
- 「Successfully created Job」というメッセージが緑色のバナーで表示されます。
- ジョブの保存に成功したら、「Run」を選択してジョブを実行できます。
- ジョブの生成されたスクリプトを表示するには、ビジュアルエディタ上部の「Script」タブを選択します。「Job runs」タブにはジョブの実行履歴が表示されます。ジョブ実行の詳細については、「最近のジョブ実行の情報を表示」を参照してください。
生成されたスクリプトの確認
ジョブ作成の任意の時点で、「Script」タブをクリックして Glue Studio が作成しているスクリプトを確認できます。Amazon Athena のデータを Amazon S3 バケットに書き込む単純なジョブを作成した場合、スクリプトは以下のようになります:
サンプルスクリプト
import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
args = getResolvedOptions(sys.argv, ["JOB_NAME"])
sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args["JOB_NAME"], args)
# Script generated for node CData AWS Glue Connector for CData Connect
CDataAWSGlueConnectorforCDataConnect_node1 = (
glueContext.create_dynamic_frame.from_options(
connection_type="marketplace.jdbc",
connection_options={
"tableName": "AmazonAthena1.AmazonAthena.Customers",
"dbTable": "AmazonAthena1.AmazonAthena.Customers",
"connectionName": "cdata-cloud-connector",
},
transformation_ctx="CDataAWSGlueConnectorforCDataConnect_node1",
)
)
job.commit()
CData Connect AI と AWS Glue Studio の AWS Glue Connector for Connect AI を使用すると、Amazon Athena のデータを S3 バケットやその他の宛先にロードする ETL ジョブを簡単に作成できます。また、Glue Connector を使用して、Glue Jobs でAmazon Athena のデータを追加、更新、削除することもできます。
300 以上の SaaS、ビッグデータ、NoSQL ソースへのリアルタイムデータアクセスをクラウドアプリケーションから直接取得するには、CData Connect AI を今すぐお試しください!