JayDeBeApi を使って Python からAmazon S3 のデータにアクセス
Python と Java がインストールされている環境であれば、Python スクリプトと標準 SQL を使ってAmazon S3 のデータにアクセスできます。CData JDBC Driver for Amazon S3 と JayDeBeApi モジュールを組み合わせることで、Python からリモートのAmazon S3 のデータを操作できます。CData ドライバーを使用することで、業界標準に準拠した実績のあるドライバーを Python という人気の高い言語で活用できます。この記事では、ドライバーを使って Amazon S3 に SQL クエリを実行し、標準的な Python でAmazon S3 のデータを可視化する方法を説明します。
JayDeBeApi モジュールを使用
JayDeBeApi は、JDBC(Java Database Connectivity)のブリッジとして機能する Python ライブラリで、Python プログラムから CData JDBC ドライバーを含む Java データベースとやり取りできるようになります。pip install コマンドでモジュールをインストールします。
pip install JayDeBeApi
JDBC URL を作成
JayDeBeApi をインストールしたら、SQL を使って Python からAmazon S3 のデータを操作する準備が整います。
Amazon S3 リクエストを認可するには、管理者アカウントまたはカスタム権限を持つIAM ユーザーの認証情報を入力します。AccessKey をアクセスキーID に設定します。SecretKey をシークレットアクセスキーに設定します。
Note: AWS アカウント管理者として接続できますが、AWS サービスにアクセスするにはIAM ユーザー認証情報を使用することをお勧めします。
尚、CData 製品はAmazon S3 のファイルの一覧表示やユーザー管理情報の取得用です。S3 に保管されているExcel、CSV、JSON などのファイル内のデータを読み込みたい場合には、Excel Driver、CSV Driver、JSON Driver をご利用ください。
アクセスキーの取得
IAM ユーザーの資格情報を取得するには:
- IAM コンソールにサインインします。
- ナビゲーションペインで「ユーザー」を選択します。
- ユーザーのアクセスキーを作成または管理するには、ユーザーを選択してから「セキュリティ認証情報」タブを選択します。
AWS ルートアカウントの資格情報を取得するには:
- ルートアカウントの資格情報を使用してAWS 管理コンソールにサインインします。
- アカウント名または番号を選択し、表示されたメニューで「My Security Credentials」を選択します。
- 「Continue to Security Credentials」をクリックし、「Access Keys」セクションを展開して、ルートアカウントのアクセスキーを管理または作成します。
AWS ロールとして認証
多くの場合、認証にはAWS ルートユーザーのダイレクトなセキュリティ認証情報ではなく、IAM ロールを使用することをお勧めします。RoleARN を指定することでAWS ロールを代わりに使用できます。これにより、CData 製品は指定されたロールの資格情報を取得しようと試みます。
(すでにEC2 インスタンスなどで接続されているのではなく)AWS に接続している場合は、ロールを引き受けるIAM ユーザーのAccessKey とSecretKey を追加で指定する必要があります。AWS ルートユーザーのAccessKey および SecretKey を指定する場合、ロールは使用できません。
SSO 認証
SSO 認証を必要とするユーザーおよびロールには、RoleARN およびPrincipalArn 接続プロパティを指定してください。各Identity Provider に固有のSSOProperties を指定し、AccessKey とSecretKey を空のままにする必要があります。これにより、CData 製品は一時的な認証資格情報を取得するために、リクエストでSSO 認証情報を送信します。
ビルトイン接続文字列デザイナー
JDBC URL の作成には、Amazon S3 JDBC Driver に組み込まれている接続文字列デザイナーを使用してください。JAR ファイルをダブルクリックするか、コマンドラインから実行します。
java -jar cdata.jdbc.amazons3.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
以下は、一般的な JDBC 接続文字列を含む変数の例です。
jdbc_url = "jdbc:amazons3:AccessKey=a123;SecretKey=s123;"
Python からAmazon S3 のデータにアクセス
JDBC URL を設定したら、あとは JDBC ドライバーの JAR ファイルへの絶対パスだけが必要です。これはインストールディレクトリの "lib" フォルダにあります(Windows では "C:\Program Files\CData[product_name] 20XX\lib\cdata.jdbc.amazons3.jar")。
注意: まだ設定していない場合は、JAVA_HOME 環境変数を Java のインストールディレクトリに設定してください。
以下のようなコードで Amazon S3 からデータを読み取り、表示できます。
import jaydebeapi
#The JDBC connection string
jdbc_url = "jdbc:amazons3:AccessKey=a123;SecretKey=s123;"
username = "****"
password = "****"
#The absolute Path to the JDBC driver JAR file, typically:
jdbc_driver_jar = "C:\Program Files\CData[product_name] 20XX\lib\cdata.jdbc.amazons3.jar"
conn = jaydebeapi.connect(
"cdata.jdbc.amazons3.AmazonS3Driver",
jdbc_url,
[username, password],
jdbc_driver_jar,
)
cursor = conn.cursor()
cursor.execute("SELECT * FROM ObjectsACL;")
results = cursor.fetchall()
for row in results:
print(row)
cursor.close()
conn.close()
無料トライアルと詳細情報
CData JDBC Driver for Amazon S3 の 30 日間無料トライアルをダウンロードして、Python でリアルタイムのAmazon S3 のデータを操作してみてください。ご不明な点がございましたら、サポートチームまでお問い合わせください。