AWS Glue から Workday のデータに接続
Amazon AWS Glue は、ストレージや分析向けのデータの準備とロードを簡素化するために設計された ETL サービスです。Glue Studio と CData Connect AI を組み合わせることで、コーディング不要、または最小限のコーディングで ETL ジョブを構築できます。これらのジョブは、CData Glue Connector を通じてデータを操作できます。本記事では、CData Connect AI 経由で Workday に接続し、CData Glue Connector を使用してリアルタイムのWorkday のデータを操作する AWS Glue ジョブを作成・実行する方法をステップごとにご紹介します。
CData Connect AI は、Workday 向けのシームレスなクラウド間インターフェースを提供し、AWS Glue ジョブ内でリアルタイムのWorkday のデータに直接アクセスできます。必要な操作は、AWS Glue Connector を使用してテーブルを選択する(またはカスタム SQL クエリを作成する)だけです。最適化されたデータ処理機能を備えた CData Connect AI は、フィルタや JOIN などのサポート対象のクエリ操作を効率的に Workday へ直接送信します。サーバーサイド処理を活用することで、ETL ジョブ用のWorkday のデータを迅速に取得できます。
Workday データ連携について
CData は、Workday のライブデータにアクセスし、統合するための最も簡単な方法を提供します。お客様は CData の接続機能を以下の目的で使用しています:
- Prism Analytics Data Catalog で作成したテーブルやデータセットにアクセスでき、Workday システムの忠実性を損なうことなく、ネイティブの Workday データハブを操作できます。
- Workday Reports-as-a-Service にアクセスして、Prism から利用できない部門データセットや、Prism の許容サイズを超えるデータセットのデータを表示できます。
- WQL、REST、または SOAP でベースデータオブジェクトにアクセスし、より詳細で細かいアクセスを実現できます(ただし、クエリの作成には Workday 管理者や IT の支援が必要な場合があります)。
ユーザーは、Tableau、Power BI、Excel などの分析ツールと Workday を統合し、当社のツールを活用して Workday データをデータベースやデータウェアハウスにレプリケートしています。アクセスは、認証されたユーザーの ID とロールに基づいて、ユーザーレベルで保護されます。
Workday を CData と連携させるための設定についての詳細は、ナレッジベース記事をご覧ください:Comprehensive Workday Connectivity through Workday WQL および Reports-as-a-Service & Workday + CData: Connection & Integration Best Practices
はじめに
このセットアップには CData Connect AI インスタンスと CData AWS Glue Connector が必要です。まずは Connect AI の無料トライアルにサインアップし、Connect AI 用の無料 Glue Connector をサブスクライブしてください。
AWS Glue 用の Workday 接続を設定
AWS Glue から Workday への接続は、CData Connect AI を通じて実現できます。AWS Glue からWorkday のデータを操作するには、まず Workday への接続を作成・設定します。
- Connect AI にログインして「Sources」をクリック、次に「 Add Connection」をクリック
- 接続を追加パネルから「Workday」を選択
-
Workday に接続するために必要な認証プロパティを入力します。
Workday 接続プロパティの取得・設定方法
ここでは、4つのWorkday API の接続パラメータを設定する方法、およびTenant とBaseURL を取得する方法について説明します。必要なAPI のパラメータが設定され、カスタムOAuth および / またはAzure AD API クライアントを作成したら、接続の準備は完了です。
接続の前提条件
API / 前提条件 / 接続パラメータ
WQL / WQL サービスを有効化(下記参照) / ConnectionType: WQL
Reports as a Service / カタログレポートの設定(ヘルプドキュメントの「データアクセスのファインチューニング」参照) / ConnectionType: Reports
REST / 自動で有効化 / ConnectionType: REST
SOAP / 自動で有効化 / ヘルプドキュメントのWorkday SOAP API への認証を参照BaseURL およびTenant の取得
BaseURL およびTenant プロパティを取得するため、Workday にログインしてView API Clients を検索します。 この画面では、Workday はBaseURL とTenant の両方を含むURL であるWorkday REST API Endpoint を表示します。
REST API Endpoint のフォーマットは、 https://domain.com/
/mycompany です。ここで、
- https://domain.com(URL のサブディレクトリと会社名の前の部分)はBaseURL です。
- mycompany(URL の最後のスラッシュの後の部分)はTenant です。
例えば、REST API エンドポイントがhttps://wd3-impl-services1.workday.com/ccx/api/v1/mycompany の場合、 BaseURL はhttps://wd3-impl-services1.workday.com であり、Tenant はmycompany です。
WQL サービスを有効化
Workday WQL API を介して接続するには、はじめにWQL Service を有効にする必要があります。- Workday を開きます。
- 検索バーにView Domain と入力します。
- プロンプトにWorkday Query Language と入力します。
- Allowed Security Group Types のいずれかに、接続するユーザーが含まれていることを確認します。
Workday への認証
Basic 認証以外のほとんどのWorkday 接続では、認証のためにOAuth ベースのカスタムAPI クライアントアプリケーションを作成する必要があります。これには、ユーザーがAzure AD 資格情報を介して接続するエンタープライズインストールも含まれます。 Workday への認証につての詳細は、ヘルプドキュメントの「Workday への認証」セクションを参照してください。
- 「Save & Test」をクリック
-
Workday 接続の追加ページで「Permissions」タブに移動し、ユーザーベースの権限を更新します。
パーソナルアクセストークンの追加
REST API、OData API、または仮想 SQL Server を通じて Connect AI に接続する場合、パーソナルアクセストークン(PAT)を使用して Connect AI への接続を認証します。アクセスを細かく管理するため、サービスごとに個別の PAT を作成することをお勧めします。
- Connect AI アプリの右上にある歯車アイコン()をクリックして設定ページを開きます。
- 設定ページで「Access Tokens」セクションに移動し、「 Create PAT」をクリックします。
-
PAT に名前を付けて「Create」をクリックします。
- パーソナルアクセストークンは作成時にのみ表示されるため、必ずコピーして今後の使用に備えて安全に保管してください。
接続が設定され PAT が生成されたので、AWS Glue からWorkday のデータに接続する準備が整いました。
IAM ロールの権限を更新
AWS Glue ジョブを作成する際、ジョブで使用する AWS Identity and Access Management(IAM)ロールを指定します。このロールは、Amazon S3(ソース、ターゲット、スクリプト、一時ディレクトリ用)、AWS Glue Data Catalog オブジェクトなど、ジョブで使用するすべてのリソースへのアクセスを許可する必要があります。また、AWS Glue Marketplace の Workday 用 CData Glue Connector へのアクセスも許可する必要があります。
AWS Glue ジョブの IAM ロールには、少なくとも以下のポリシーを追加する必要があります:
- AWSGlueServiceRole(Glue Studio と Glue Jobs へのアクセス用)
- AmazonEC2ContainerRegistryReadOnly(Workday 用 CData AWS Glue Connector へのアクセス用)
Amazon S3 のデータにアクセスする場合は、以下を追加してください:
- AmazonS3FullAccess(Amazon S3 への読み書き用)
また、AWS Secrets Manager を使用して機密性の高い接続プロパティを保存する場合(詳細は後述)、以下のようなインラインポリシーを追加し、Glue Job に必要な特定のシークレットへのアクセスを許可する必要があります:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"secretsmanager:GetResourcePolicy",
"secretsmanager:GetSecretValue",
"secretsmanager:DescribeSecret",
"secretsmanager:ListSecretVersionIds"
],
"Resource": [
"arn:aws:secretsmanager:us-west-2:111122223333:secret:aes128-1a2b3c",
"arn:aws:secretsmanager:us-west-2:111122223333:secret:aes192-4D5e6F",
"arn:aws:secretsmanager:us-west-2:111122223333:secret:aes256-7g8H9i"
]
}
]
}
AWS Glue Studio および Glue Jobs へのアクセス許可の設定について詳しくは、AWS Glue ドキュメントの「AWS Glue の IAM アクセス権限の設定」を参照してください。
Amazon S3 バケットへのアクセス許可について詳しくは、Amazon Simple Storage Service 開発者ガイドの「ID およびアクセス管理」を参照してください。
シークレットへのアクセス制御の設定について詳しくは、AWS Secrets Manager ドキュメントの「AWS Secrets Manager の認証とアクセスコントロール」および AWS Secrets Manager ユーザーガイドの「特定のシークレットへのアクセスを制限する」を参照してください。AWS Secrets Manager から取得した認証情報(キーと値のペアの文字列)は、上記のように CData Glue Connector がデータソースに接続する際に使用する JDBC URL で使用されます。
(オプション)Workday 接続プロパティを AWS Secrets Manager に保存
接続プロパティを安全に保存・使用するために、AWS Secrets Manager に保存できます。
注意: AWS Glue ETL ジョブとシークレットは同じリージョンでホストする必要があります。現在、リージョン間でのシークレット取得はサポートされていません。
- AWS Secrets Manager コンソールにサインインします。
- サービス紹介ページまたはシークレット一覧ページで「新しいシークレットを保存」を選択します。
- 「新しいシークレットを保存」ページで「その他のタイプのシークレット」を選択します。このオプションでは、シークレットの構造と詳細を自分で指定します。
- Workday への接続に必要なプロパティについては、以下の「アクティベート」セクションをご確認ください。保存するプロパティが決まったら、各プロパティに対してキーと値のペアを作成します。例:
- Username: CData Connect AI ユーザー(例:[email protected])
- Password: CData Connect AI ユーザーの PAT
シークレットの作成について詳しくは、AWS Secrets Manager ユーザーガイドの AWS Secrets Manager でのシークレットの作成と管理を参照してください。
- シークレット名を記録しておきます。これは AWS Glue Studio で接続を設定する際に使用します。
CData Glue Connector for Workday をサブスクライブ
AWS Glue Studio で Workday 用の CData Glue Connector を使用するには、AWS Marketplace から Connector をサブスクライブする必要があります。すでに Workday 用の CData Glue Connector をサブスクライブしている場合は、次のセクションに進んでください。
- CData AWS Glue Connector for Connect AI の AWS Marketplace リストに移動します
- 「Continue to Subscribe」をクリックします
- Connector の規約に同意し、リクエストが処理されるまで待ちます
- 「Continue to Configuration」をクリックします
Glue Studio で CData Glue Connector for Connect AI をアクティベート
AWS Glue で Workday 用の CData Glue Connector を使用するには、AWS Glue Studio でサブスクライブした Connector をアクティベートする必要があります。アクティベート処理により、AWS アカウントにコネクタオブジェクトと接続が作成されます。
- Connector をサブスクライブすると、AWS Marketplace のコネクタページに新しい「Configure」タブが表示されます。
- 配信オプションを選択し、「Continue to Launch」ボタンをクリックします。
- Launch タブで「Usage Instructions」をクリックし、表示されるリンクをクリックして接続を作成・設定します。
Connection access で JDBC URL フォーマットを選択し、接続を設定します。以下に、Workday で使用可能な JDBC URL フォーマットのサンプル接続文字列を示します。Workday での認証について詳しくは、Connector のヘルプドキュメントをご参照ください。
AWS Secrets Manager にプロパティを保存する場合は、プレースホルダー値(例:${Property1})をそのままにしておきます。そうでない場合、AWS Glue 接続インターフェースで入力した値は、プロパティの下の(読み取り専用の)JDBC URL に表示されます。
Connect AI
jdbc:cdata:Connect:AuthScheme=Basic;User=${Username};Password=${Password};defaultCatalog=${defaultCatalog}- ${Username}: Connect AI ユーザーを指定します
- ${Password}: Connect AI の PAT を指定します
- ${defaultCatalog}: 設定した接続名を指定します(例:Workday1)
- (オプション): Connector のロギングを有効にします。
Workday 用の CData Glue Connector の機能をログに記録する場合は、JDBC URL に 2 つのプロパティを追加する必要があります:
- Logfile: 「STDOUT://」に設定します
- Verbosity: 整数(1-5)に設定します。1 がデフォルトで、ほとんどのデバッグシナリオでは 3 を推奨します。
- ネットワークオプションを設定し、「Create Connection」をクリックします。
Amazon Glue ジョブの設定
接続を設定したら、Glue ジョブを構築できます。
接続を使用するジョブを作成
- Glue Studio で「Your connections」から作成した接続を選択します
- 「Create job」をクリックします
ビジュアルジョブエディタが表示されます。接続から派生した新しい Source ノードがジョブグラフに表示されます。右側のノード詳細パネルでは、ユーザー入力用に「Source Properties」タブが選択されています。
Source ノードプロパティの設定:
「Source properties」タブで、データソースへの接続のアクセスオプションを設定できます。詳細については、AWS Glue Studio ドキュメントを参照してください。ここでは簡単な手順をご紹介します。
- ビジュアルジョブエディタで、コネクタの Source ノードが選択されていることを確認します。まだ選択されていない場合は、右側のノード詳細パネルで「Source properties」タブを選択します。
- Connection フィールドには、マーケットプレイスコネクタに関連付けられた接続名が自動的に入力されます。
- データソース内のデータの場所に関する情報を入力します。データソースからデータを取得するためのソーステーブル名またはクエリを指定します。例:
SELECT Worker_Reference_WID, Legal_Name_Last_Name FROM Workday1.Workday.Workers WHERE Legal_Name_Last_Name = Morgan
注意: ソーステーブルには完全修飾ドメイン名を使用します。CData Connect AI での接続名がカタログ名、データソース名がスキーマとなります。例:Workday1.Workday.Workers
- データソースから変換ノードに情報を渡すには、AWS Glue Studio がデータのスキーマを把握する必要があります。「Use Schema Builder」を選択して、スキーマをインタラクティブに指定します。
- 必要に応じて残りのオプションフィールドを設定します。以下を設定できます:
- パーティショニング情報 - データソースからの読み取り操作を並列化するため
- データ型マッピング - ソースデータで使用されるデータ型を AWS Glue でサポートされるデータ型に変換するため
- フィルター述語 - データソースからデータのサブセットを選択するため
これらのオプションについて詳しくは、「Use the Connection in a Glue job using Glue Studio」を参照してください。
- ノードプロパティパネルの「Output schema」タブを選択すると、このノードで生成されるスキーマを確認できます。
ジョブの編集、保存、実行
ジョブグラフでノードを追加・編集してジョブを編集します。詳細については、「AWS Glue Studio での ETL ジョブの編集」を参照してください。
ジョブの編集が完了したら、ジョブプロパティを入力します。
- ビジュアルグラフエディタの上にある「Job properties」タブを選択します。
- カスタムコネクタを使用する場合は、以下のジョブプロパティを設定します:
- Name: ジョブ名を入力します。
- IAM Role: 前述の必要な権限を持つ IAM ロールを選択(または作成)します。
- Type: 「Spark」を選択します。
- Glue version: 「Glue 3.0 - Supports spark 3.1, Scala 2, Python 3」を選択します。
- Language: 「Python 3」を選択します。
- その他のパラメータにはデフォルト値を使用します。ジョブパラメータについて詳しくは、AWS Glue 開発者ガイドの「ジョブプロパティの定義」を参照してください。
- ページ上部の「Save」を選択します。
- 「Successfully created Job」というメッセージが緑色のバナーで表示されます。
- ジョブの保存に成功したら、「Run」を選択してジョブを実行できます。
- ジョブの生成されたスクリプトを表示するには、ビジュアルエディタ上部の「Script」タブを選択します。「Job runs」タブにはジョブの実行履歴が表示されます。ジョブ実行の詳細については、「最近のジョブ実行の情報を表示」を参照してください。
生成されたスクリプトの確認
ジョブ作成の任意の時点で、「Script」タブをクリックして Glue Studio が作成しているスクリプトを確認できます。Workday のデータを Amazon S3 バケットに書き込む単純なジョブを作成した場合、スクリプトは以下のようになります:
サンプルスクリプト
import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
args = getResolvedOptions(sys.argv, ["JOB_NAME"])
sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args["JOB_NAME"], args)
# Script generated for node CData AWS Glue Connector for CData Connect
CDataAWSGlueConnectorforCDataConnect_node1 = (
glueContext.create_dynamic_frame.from_options(
connection_type="marketplace.jdbc",
connection_options={
"tableName": "Workday1.Workday.Workers",
"dbTable": "Workday1.Workday.Workers",
"connectionName": "cdata-cloud-connector",
},
transformation_ctx="CDataAWSGlueConnectorforCDataConnect_node1",
)
)
job.commit()
CData Connect AI と AWS Glue Studio の AWS Glue Connector for Connect AI を使用すると、Workday のデータを S3 バケットやその他の宛先にロードする ETL ジョブを簡単に作成できます。また、Glue Connector を使用して、Glue Jobs でWorkday のデータを追加、更新、削除することもできます。
300 以上の SaaS、ビッグデータ、NoSQL ソースへのリアルタイムデータアクセスをクラウドアプリケーションから直接取得するには、CData Connect AI を今すぐお試しください!