Databricks（AWS）でBitbucket のデータを処理・分析

Jerod Johnson
Senior Technology Evangelist

CData、AWS、Databricks を使用して、リアルタイムBitbucket のデータに対してデータエンジニアリングとデータサイエンスを実行。

Databricks は、Apache Spark を通じたデータ処理機能を提供するクラウドベースのサービスです。CData JDBC Driver と組み合わせることで、Databricks を使用してリアルタイムBitbucket のデータに対してデータエンジニアリングとデータサイエンスを実行できます。この記事では、AWS でCData JDBC Driver をホストし、Databricks でリアルタイムBitbucket のデータに接続して処理する方法を説明します。

最適化されたデータ処理が組み込まれたCData JDBC Driver は、リアルタイムBitbucket のデータを扱う上で比類のないパフォーマンスを提供します。Bitbucket に複雑なSQL クエリを発行すると、ドライバーはフィルタや集計などのサポートされているSQL 操作をBitbucket に直接プッシュし、サポートされていない操作（主にSQL 関数やJOIN 操作）は組み込みSQL エンジンを利用してクライアント側で処理します。組み込みの動的メタデータクエリを使用すると、ネイティブデータ型を使ってBitbucket のデータを操作・分析できます。

CData JDBC Driver をDatabricks にインストール

Databricks でリアルタイムBitbucket のデータを操作するには、Databricks クラスターにドライバーをインストールします。

Databricks の管理画面に移動し、対象のクラスターを選択します。
Libraries タブで「Install New」をクリックします。
Library Source として「Upload」を選択し、Library Type として「Jar」を選択します。
インストール場所（通常はC:\Program Files\CData[product_name]\lib）からJDBC JAR ファイル（cdata.jdbc.bitbucket.jar）をアップロードします。

ノートブックでBitbucket のデータにアクセス：Python

JAR ファイルをインストールしたら、Databricks でリアルタイムBitbucket のデータを操作する準備が整いました。ワークスペースに新しいノートブックを作成します。ノートブックに名前を付け、言語としてPython を選択し（Scala も利用可能）、JDBC ドライバーをインストールしたクラスターを選択します。ノートブックが起動したら、接続を設定し、Bitbucket をクエリして、基本的なレポートを作成できます。

Bitbucket への接続を設定

JDBC Driver クラスを参照し、JDBC URL で使用する接続文字列を構築してBitbucket に接続します。また、JDBC URL でRTK プロパティを設定する必要があります（Beta ドライバーを使用している場合を除く）。このプロパティの設定方法については、インストールに含まれるライセンスファイルを参照してください。

ステップ1：接続情報

driver = "cdata.jdbc.bitbucket.BitbucketDriver"
url = "jdbc:bitbucket:RTK=5246...;Workspace=myworkspaceslug;Schema=Information"

組み込みの接続文字列デザイナー

JDBC URL の作成をサポートするために、Bitbucket JDBC Driver に組み込まれている接続文字列デザイナーが使用できます。JAR ファイルをダブルクリックするか、コマンドラインからJAR ファイルを実行します。

java -jar cdata.jdbc.bitbucket.jar

接続プロパティを入力し、接続文字列をクリップボードにコピーします。

ほとんどのクエリでは、ワークスペースを設定する必要があります。唯一の例外は、Workspacesテーブルです。このテーブルはこのプロパティの設定を必要とせず、クエリを実行すると、Workspaceの設定に使用できるワークスペーススラッグのリストが提供されます。このテーブルにクエリを実行するには、スキーマを'Information'に設定し、SELECT * FROM Workspacesクエリを実行する必要があります。

Schemaを'Information'に設定すると、一般的な情報が表示されます。Bitbucketに接続するには、以下のパラメータを設定してください。

Schema: ワークスペースのユーザー、リポジトリ、プロジェクトなどの一般的な情報を表示するには、これを'Information'に設定します。それ以外の場合は、クエリを実行するリポジトリまたはプロジェクトのスキーマに設定します。利用可能なスキーマの完全なセットを取得するには、sys_schemasテーブルにクエリを実行してください。
Workspace: Workspacesテーブルにクエリを実行する場合を除き、必須です。Workspacesテーブルへのクエリにはこのプロパティは必要ありません。そのクエリはWorkspaceの設定に使用できるワークスペーススラッグのリストのみを返すためです。

Bitbucketでの認証

BitbucketはOAuth認証のみをサポートしています。すべてのOAuthフローからこの認証を有効にするには、カスタムOAuthアプリケーションを作成し、AuthSchemeをOAuthに設定する必要があります。

特定の認証ニーズ（デスクトップアプリケーション、Webアプリケーション、ヘッドレスマシン）に必要な接続プロパティについては、ヘルプドキュメントを必ず確認してください。

カスタムOAuthアプリケーションの作成

Bitbucketアカウントから、以下のステップを実行します。

設定（歯車アイコン）に移動し、ワークスペース設定を選択します。
アプリと機能セクションで、OAuthコンシューマーを選択します。
コンシューマーを追加をクリックします。
カスタムアプリケーションの名前と説明を入力します。
コールバックURLを設定します。
- デスクトップアプリケーションとヘッドレスマシンの場合、http://localhost:33333または任意のポート番号を使用します。ここで設定するURIがCallbackURLプロパティになります。
- Webアプリケーションの場合、信頼できるリダイレクトURLにコールバックURLを設定します。このURLは、ユーザーがアプリケーションにアクセスが許可されたことを確認するトークンを持って戻るWebの場所です。
クライアント認証情報を使用して認証する予定の場合、これはプライベートコンシューマーですを選択する必要があります。ドライバーでは、AuthSchemeをclientに設定する必要があります。
OAuthアプリケーションに与える権限を選択します。これにより、読み取りおよび書き込みできるデータが決まります。
新しいカスタムアプリケーションを保存するには、保存をクリックします。
アプリケーションが保存された後、それを選択して設定を表示できます。アプリケーションのKeyとSecretが表示されます。これらを将来の使用のために記録してください。Keyを使用してOAuthClientIdを設定し、Secretを使用してOAuthClientSecretを設定します。

組み込みの接続文字列デザイナーを使ってJDBC URL を生成（Salesforce の場合）

Bitbucket のデータをロード

接続を設定したら、CData JDBC Driver と接続情報を使用して、Bitbucket のデータをDataFrame としてロードできます。

ステップ2：データの読み取り

remote_table = spark.read.format ( "jdbc" ) \
	.option ( "driver" , driver) \
	.option ( "url" , url) \
	.option ( "dbtable" , "Issues") \
	.load ()

Bitbucket のデータを表示

ロードしたBitbucket のデータをdisplay 関数を呼び出して確認します。

ステップ3：結果の確認

display (remote_table.select ("Title"))

Databricks でBitbucket のデータを分析

Databricks SparkSQL でデータを処理するには、ロードしたデータをTemp View として登録します。

ステップ4：ビューまたはテーブルを作成

remote_table.createOrReplaceTempView ( "SAMPLE_VIEW" )

Temp View を作成したら、SparkSQL を使用してBitbucket のデータをレポート、ビジュアライゼーション、分析用に取得できます。

% sql

SELECT Title, ContentRaw FROM SAMPLE_VIEW ORDER BY ContentRaw DESC LIMIT 5

Bitbucket からのデータは、対象のノートブックでのみ利用可能です。他のユーザーと共有したい場合は、テーブルとして保存します。

remote_table.write.format ( "parquet" ) .saveAsTable ( "SAMPLE_TABLE" )

CData JDBC Driver for Bitbucket の30日間無償トライアルをダウンロードして、Databricks でリアルタイムBitbucket のデータの操作をはじめましょう。ご不明な点があれば、サポートチームにお問い合わせください。

はじめる準備はできましたか？

Bitbucket Driver の無料トライアルをダウンロードしてお試しください：

ダウンロード

詳細：

Bitbucket JDBC Driver お問い合わせ

Bitbucket データと連携するパワフルなJava アプリケーションを短時間・低コストで作成して配布できます。