AWS Glue から MongoDB のデータに接続
Amazon AWS Glue は、ストレージや分析向けのデータの準備とロードを簡素化するために設計された ETL サービスです。Glue Studio と CData Connect AI を組み合わせることで、コーディング不要、または最小限のコーディングで ETL ジョブを構築できます。これらのジョブは、CData Glue Connector を通じてデータを操作できます。本記事では、CData Connect AI 経由で MongoDB に接続し、CData Glue Connector を使用してリアルタイムのMongoDB のデータを操作する AWS Glue ジョブを作成・実行する方法をステップごとにご紹介します。
CData Connect AI は、MongoDB 向けのシームレスなクラウド間インターフェースを提供し、AWS Glue ジョブ内でリアルタイムのMongoDB のデータに直接アクセスできます。必要な操作は、AWS Glue Connector を使用してテーブルを選択する(またはカスタム SQL クエリを作成する)だけです。最適化されたデータ処理機能を備えた CData Connect AI は、フィルタや JOIN などのサポート対象のクエリ操作を効率的に MongoDB へ直接送信します。サーバーサイド処理を活用することで、ETL ジョブ用のMongoDB のデータを迅速に取得できます。
MongoDB データ連携について
CData を使用すれば、MongoDB のライブデータへのアクセスと統合がこれまでになく簡単になります。お客様は CData の接続機能を以下の目的で利用しています:
- MongoDB 2.6 以降のデータにアクセスでき、さまざまな MongoDB バージョンで幅広く使用できます。
- 柔軟な NoSQL により、非構造化データを簡単に管理できます(詳細はこちら:NoSQL 統合のための最先端ドライバー)。
- 他の NoSQL ドライバーに対する機能的な優位性を活用し、MongoDB データを扱う際の機能的なメリットを実現できます(詳細はこちら:NoSQL 向けドライバーの機能比較)。
MongoDB の柔軟性により、トランザクション、オペレーション、または分析データベースとして使用できます。つまり、CData のお客様は、ビジネスデータを MongoDB に統合したり、MongoDB データをデータウェアハウスに統合したり(またはその両方)するために当社のソリューションを使用しています。また、Power BI や Tableau などのお気に入りのツールから MongoDB を直接分析・レポートするために、当社のライブ接続オプションを活用しているお客様もいます。
MongoDB のユースケースと CData が MongoDB 体験をどのように向上させるかについての詳細は、ブログ記事をご覧ください:The Top 10 Real-World MongoDB Use Cases You Should Know in 2024
はじめに
このセットアップには CData Connect AI インスタンスと CData AWS Glue Connector が必要です。まずは Connect AI の無料トライアルにサインアップし、Connect AI 用の無料 Glue Connector をサブスクライブしてください。
AWS Glue 用の MongoDB 接続を設定
AWS Glue から MongoDB への接続は、CData Connect AI を通じて実現できます。AWS Glue からMongoDB のデータを操作するには、まず MongoDB への接続を作成・設定します。
- Connect AI にログインして「Sources」をクリック、次に「 Add Connection」をクリック
- 接続を追加パネルから「MongoDB」を選択
-
MongoDB に接続するために必要な認証プロパティを入力します。
MongoDB への接続には、Server、Database、User、Password プロパティを設定します。MongoDB コレクションにテーブルとしてアクセスするには、自動スキーマ検出を使用することができます。もちろんスキーマ定義の.rsd ファイルを編集して自分でスキーマ定義を書くことも可能です。スキーマに縛られないフリーフォーマットクエリを投げることもできます。
- 「Save & Test」をクリック
-
MongoDB 接続の追加ページで「Permissions」タブに移動し、ユーザーベースの権限を更新します。
パーソナルアクセストークンの追加
REST API、OData API、または仮想 SQL Server を通じて Connect AI に接続する場合、パーソナルアクセストークン(PAT)を使用して Connect AI への接続を認証します。アクセスを細かく管理するため、サービスごとに個別の PAT を作成することをお勧めします。
- Connect AI アプリの右上にある歯車アイコン()をクリックして設定ページを開きます。
- 設定ページで「Access Tokens」セクションに移動し、「 Create PAT」をクリックします。
-
PAT に名前を付けて「Create」をクリックします。
- パーソナルアクセストークンは作成時にのみ表示されるため、必ずコピーして今後の使用に備えて安全に保管してください。
接続が設定され PAT が生成されたので、AWS Glue からMongoDB のデータに接続する準備が整いました。
IAM ロールの権限を更新
AWS Glue ジョブを作成する際、ジョブで使用する AWS Identity and Access Management(IAM)ロールを指定します。このロールは、Amazon S3(ソース、ターゲット、スクリプト、一時ディレクトリ用)、AWS Glue Data Catalog オブジェクトなど、ジョブで使用するすべてのリソースへのアクセスを許可する必要があります。また、AWS Glue Marketplace の MongoDB 用 CData Glue Connector へのアクセスも許可する必要があります。
AWS Glue ジョブの IAM ロールには、少なくとも以下のポリシーを追加する必要があります:
- AWSGlueServiceRole(Glue Studio と Glue Jobs へのアクセス用)
- AmazonEC2ContainerRegistryReadOnly(MongoDB 用 CData AWS Glue Connector へのアクセス用)
Amazon S3 のデータにアクセスする場合は、以下を追加してください:
- AmazonS3FullAccess(Amazon S3 への読み書き用)
また、AWS Secrets Manager を使用して機密性の高い接続プロパティを保存する場合(詳細は後述)、以下のようなインラインポリシーを追加し、Glue Job に必要な特定のシークレットへのアクセスを許可する必要があります:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"secretsmanager:GetResourcePolicy",
"secretsmanager:GetSecretValue",
"secretsmanager:DescribeSecret",
"secretsmanager:ListSecretVersionIds"
],
"Resource": [
"arn:aws:secretsmanager:us-west-2:111122223333:secret:aes128-1a2b3c",
"arn:aws:secretsmanager:us-west-2:111122223333:secret:aes192-4D5e6F",
"arn:aws:secretsmanager:us-west-2:111122223333:secret:aes256-7g8H9i"
]
}
]
}
AWS Glue Studio および Glue Jobs へのアクセス許可の設定について詳しくは、AWS Glue ドキュメントの「AWS Glue の IAM アクセス権限の設定」を参照してください。
Amazon S3 バケットへのアクセス許可について詳しくは、Amazon Simple Storage Service 開発者ガイドの「ID およびアクセス管理」を参照してください。
シークレットへのアクセス制御の設定について詳しくは、AWS Secrets Manager ドキュメントの「AWS Secrets Manager の認証とアクセスコントロール」および AWS Secrets Manager ユーザーガイドの「特定のシークレットへのアクセスを制限する」を参照してください。AWS Secrets Manager から取得した認証情報(キーと値のペアの文字列)は、上記のように CData Glue Connector がデータソースに接続する際に使用する JDBC URL で使用されます。
(オプション)MongoDB 接続プロパティを AWS Secrets Manager に保存
接続プロパティを安全に保存・使用するために、AWS Secrets Manager に保存できます。
注意: AWS Glue ETL ジョブとシークレットは同じリージョンでホストする必要があります。現在、リージョン間でのシークレット取得はサポートされていません。
- AWS Secrets Manager コンソールにサインインします。
- サービス紹介ページまたはシークレット一覧ページで「新しいシークレットを保存」を選択します。
- 「新しいシークレットを保存」ページで「その他のタイプのシークレット」を選択します。このオプションでは、シークレットの構造と詳細を自分で指定します。
- MongoDB への接続に必要なプロパティについては、以下の「アクティベート」セクションをご確認ください。保存するプロパティが決まったら、各プロパティに対してキーと値のペアを作成します。例:
- Username: CData Connect AI ユーザー(例:[email protected])
- Password: CData Connect AI ユーザーの PAT
シークレットの作成について詳しくは、AWS Secrets Manager ユーザーガイドの AWS Secrets Manager でのシークレットの作成と管理を参照してください。
- シークレット名を記録しておきます。これは AWS Glue Studio で接続を設定する際に使用します。
CData Glue Connector for MongoDB をサブスクライブ
AWS Glue Studio で MongoDB 用の CData Glue Connector を使用するには、AWS Marketplace から Connector をサブスクライブする必要があります。すでに MongoDB 用の CData Glue Connector をサブスクライブしている場合は、次のセクションに進んでください。
- CData AWS Glue Connector for Connect AI の AWS Marketplace リストに移動します
- 「Continue to Subscribe」をクリックします
- Connector の規約に同意し、リクエストが処理されるまで待ちます
- 「Continue to Configuration」をクリックします
Glue Studio で CData Glue Connector for Connect AI をアクティベート
AWS Glue で MongoDB 用の CData Glue Connector を使用するには、AWS Glue Studio でサブスクライブした Connector をアクティベートする必要があります。アクティベート処理により、AWS アカウントにコネクタオブジェクトと接続が作成されます。
- Connector をサブスクライブすると、AWS Marketplace のコネクタページに新しい「Configure」タブが表示されます。
- 配信オプションを選択し、「Continue to Launch」ボタンをクリックします。
- Launch タブで「Usage Instructions」をクリックし、表示されるリンクをクリックして接続を作成・設定します。
Connection access で JDBC URL フォーマットを選択し、接続を設定します。以下に、MongoDB で使用可能な JDBC URL フォーマットのサンプル接続文字列を示します。MongoDB での認証について詳しくは、Connector のヘルプドキュメントをご参照ください。
AWS Secrets Manager にプロパティを保存する場合は、プレースホルダー値(例:${Property1})をそのままにしておきます。そうでない場合、AWS Glue 接続インターフェースで入力した値は、プロパティの下の(読み取り専用の)JDBC URL に表示されます。
Connect AI
jdbc:cdata:Connect:AuthScheme=Basic;User=${Username};Password=${Password};defaultCatalog=${defaultCatalog}- ${Username}: Connect AI ユーザーを指定します
- ${Password}: Connect AI の PAT を指定します
- ${defaultCatalog}: 設定した接続名を指定します(例:MongoDB1)
- (オプション): Connector のロギングを有効にします。
MongoDB 用の CData Glue Connector の機能をログに記録する場合は、JDBC URL に 2 つのプロパティを追加する必要があります:
- Logfile: 「STDOUT://」に設定します
- Verbosity: 整数(1-5)に設定します。1 がデフォルトで、ほとんどのデバッグシナリオでは 3 を推奨します。
- ネットワークオプションを設定し、「Create Connection」をクリックします。
Amazon Glue ジョブの設定
接続を設定したら、Glue ジョブを構築できます。
接続を使用するジョブを作成
- Glue Studio で「Your connections」から作成した接続を選択します
- 「Create job」をクリックします
ビジュアルジョブエディタが表示されます。接続から派生した新しい Source ノードがジョブグラフに表示されます。右側のノード詳細パネルでは、ユーザー入力用に「Source Properties」タブが選択されています。
Source ノードプロパティの設定:
「Source properties」タブで、データソースへの接続のアクセスオプションを設定できます。詳細については、AWS Glue Studio ドキュメントを参照してください。ここでは簡単な手順をご紹介します。
- ビジュアルジョブエディタで、コネクタの Source ノードが選択されていることを確認します。まだ選択されていない場合は、右側のノード詳細パネルで「Source properties」タブを選択します。
- Connection フィールドには、マーケットプレイスコネクタに関連付けられた接続名が自動的に入力されます。
- データソース内のデータの場所に関する情報を入力します。データソースからデータを取得するためのソーステーブル名またはクエリを指定します。例:
SELECT borough, cuisine FROM MongoDB1.MongoDB.restaurants WHERE Name = Morris Park Bake Shop
注意: ソーステーブルには完全修飾ドメイン名を使用します。CData Connect AI での接続名がカタログ名、データソース名がスキーマとなります。例:MongoDB1.MongoDB.restaurants
- データソースから変換ノードに情報を渡すには、AWS Glue Studio がデータのスキーマを把握する必要があります。「Use Schema Builder」を選択して、スキーマをインタラクティブに指定します。
- 必要に応じて残りのオプションフィールドを設定します。以下を設定できます:
- パーティショニング情報 - データソースからの読み取り操作を並列化するため
- データ型マッピング - ソースデータで使用されるデータ型を AWS Glue でサポートされるデータ型に変換するため
- フィルター述語 - データソースからデータのサブセットを選択するため
これらのオプションについて詳しくは、「Use the Connection in a Glue job using Glue Studio」を参照してください。
- ノードプロパティパネルの「Output schema」タブを選択すると、このノードで生成されるスキーマを確認できます。
ジョブの編集、保存、実行
ジョブグラフでノードを追加・編集してジョブを編集します。詳細については、「AWS Glue Studio での ETL ジョブの編集」を参照してください。
ジョブの編集が完了したら、ジョブプロパティを入力します。
- ビジュアルグラフエディタの上にある「Job properties」タブを選択します。
- カスタムコネクタを使用する場合は、以下のジョブプロパティを設定します:
- Name: ジョブ名を入力します。
- IAM Role: 前述の必要な権限を持つ IAM ロールを選択(または作成)します。
- Type: 「Spark」を選択します。
- Glue version: 「Glue 3.0 - Supports spark 3.1, Scala 2, Python 3」を選択します。
- Language: 「Python 3」を選択します。
- その他のパラメータにはデフォルト値を使用します。ジョブパラメータについて詳しくは、AWS Glue 開発者ガイドの「ジョブプロパティの定義」を参照してください。
- ページ上部の「Save」を選択します。
- 「Successfully created Job」というメッセージが緑色のバナーで表示されます。
- ジョブの保存に成功したら、「Run」を選択してジョブを実行できます。
- ジョブの生成されたスクリプトを表示するには、ビジュアルエディタ上部の「Script」タブを選択します。「Job runs」タブにはジョブの実行履歴が表示されます。ジョブ実行の詳細については、「最近のジョブ実行の情報を表示」を参照してください。
生成されたスクリプトの確認
ジョブ作成の任意の時点で、「Script」タブをクリックして Glue Studio が作成しているスクリプトを確認できます。MongoDB のデータを Amazon S3 バケットに書き込む単純なジョブを作成した場合、スクリプトは以下のようになります:
サンプルスクリプト
import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
args = getResolvedOptions(sys.argv, ["JOB_NAME"])
sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args["JOB_NAME"], args)
# Script generated for node CData AWS Glue Connector for CData Connect
CDataAWSGlueConnectorforCDataConnect_node1 = (
glueContext.create_dynamic_frame.from_options(
connection_type="marketplace.jdbc",
connection_options={
"tableName": "MongoDB1.MongoDB.restaurants",
"dbTable": "MongoDB1.MongoDB.restaurants",
"connectionName": "cdata-cloud-connector",
},
transformation_ctx="CDataAWSGlueConnectorforCDataConnect_node1",
)
)
job.commit()
CData Connect AI と AWS Glue Studio の AWS Glue Connector for Connect AI を使用すると、MongoDB のデータを S3 バケットやその他の宛先にロードする ETL ジョブを簡単に作成できます。また、Glue Connector を使用して、Glue Jobs でMongoDB のデータを追加、更新、削除することもできます。
300 以上の SaaS、ビッグデータ、NoSQL ソースへのリアルタイムデータアクセスをクラウドアプリケーションから直接取得するには、CData Connect AI を今すぐお試しください!