Python でSpotify のデータを変換・出力するETL 処理を作る方法
Pythonエコシステムには多くのモジュールがあり、システム構築を素早く効率的に行うことができます。本記事では、CData Python Connector for API とpetl フレームワークを使って、Spotify のデータにPython から接続してデータを変換、CSV に出力するETL 変換を実装してみます。
CData Python Connector は効率的なデータ処理によりSpotify のデータ にPython から接続し、高いパフォーマンスを発揮します。Spotify にデータをクエリする際、ドライバーはフィルタリング、集計などがサポートされている場合SQL 処理を直接Spotify 側に行わせ、サポートされていないSQL 処理については、組み込みのSQL エンジンによりクライアント側で処理を行います(JOIN やSQL 関数など)。
必要なモジュールのインストール
pip で必要なモジュールおよびフレームワークをインストールします:
pip install petl pip install pandas
Python でSpotify のデータをETL 処理するアプリを構築
モジュールとフレームワークをインストールしたら、ETL アプリケーションを組んでいきます。コードのスニペットは以下の通りです。フルコードは記事の末尾に付いています。
CData Connector を含むモジュールをインポートします。
import petl as etl import pandas as pd import cdata.api as mod
接続文字列で接続を確立します。connect 関数を使って、CData Spotify Connector からSpotify への接続を行います
cnxn = mod.connect("Profile=C:\profiles\Spotify.apip;AuthScheme=OAuth;InitiateOAuth=GETANDREFRESH;OAuthClientId=your_client_id;OAuthClientSecret=your_client_secret;CallbackURL=http://localhost:33333;")
OAuth 認証の設定
Spotify は認証に OAuth 2.0 を使用します。クライアント認証情報を取得するには、Spotify Developer Dashboard でアプリケーションを作成する必要があります。
Spotify アプリケーションのセットアップ
- Spotify Developer Dashboard にアクセスします。
- Spotify アカウントでログインして Create app をクリックします。
- アプリ名、説明を入力し、Redirect URI を設定します(デスクトップアプリケーションの場合は
http://localhost:33333
など)。 - アプリ設定から Client ID と Client Secret をコピーします。
接続プロパティ
以下の接続プロパティを設定して接続を確立してください:
- AuthScheme:OAuth に設定します。
- InitiateOAuth:GETANDREFRESH に設定します。InitiateOAuth を使うと、OAuthAccessToken を取得するプロセスを管理できます。
- OAuthClientId:Spotify アプリケーションの Client ID に設定します。
- OAuthClientSecret:Spotify アプリケーションの Client Secret に設定します。
- Scope:必要な OAuth スコープ(スペース区切り)に設定します。デフォルトには、このプロファイルのテーブルに必要なすべての読み取りスコープが含まれます。
- CallbackURL:Spotify アプリケーションで設定したリダイレクト URI に設定します(例:http://localhost:33333)。
接続文字列の例
Profile=C:\profiles\Spotify.apip;AuthScheme=OAuth;InitiateOAuth=GETANDREFRESH;OAuthClientId=your_client_id;OAuthClientSecret=your_client_secret;CallbackURL=http://localhost:33333;
利用可能な OAuth スコープ
- user-read-private:ユーザーのサブスクリプション詳細と露骨なコンテンツ設定への読み取りアクセス。
- user-read-email:ユーザーのメールアドレスへの読み取りアクセス。
- user-library-read:ユーザーが保存したトラック、アルバム、エピソード、ショー、オーディオブックへの読み取りアクセス。
- playlist-read-private:ユーザーの非公開プレイリストへの読み取りアクセス。
- playlist-read-collaborative:ユーザーがフォローしているコラボレーティブプレイリストへの読み取りアクセス。
- user-follow-read:現在のユーザーがフォローしているアーティストの一覧への読み取りアクセス。
- user-read-playback-state:ユーザーのプレーヤー状態(デバイス、現在のトラック、再生位置)への読み取りアクセス。
- user-read-currently-playing:ユーザーが現在再生中のコンテンツへの読み取りアクセス。
- user-read-playback-history:ユーザーが最近再生したトラックへの読み取りアクセス。
- user-top-read:ユーザーのトップアーティストとトラックへの読み取りアクセス。
Spotify をクエリするSQL 文の作成
Spotify にはSQL でデータアクセスが可能です。Albums エンティティからのデータを読み出します。
sql = "SELECT , FROM Albums WHERE Id = '4aawyAB9vmqN3uQ7FjRGTy'"
Spotify データのETL 処理
DataFrame に格納されたクエリ結果を使って、petl でETL(抽出・変換・ロード)パイプラインを組みます。この例では、Spotify のデータ を取得して、 カラムでデータをソートして、CSV ファイルにデータをロードします。
table1 = etl.fromdb(cnxn,sql) table2 = etl.sort(table1,'') etl.tocsv(table2,'albums_data.csv')
CData Python Connector for API を使えば、データベースを扱う場合と同感覚で、Spotify のデータ を扱うことができ、petl のようなETL パッケージから直接データにアクセスが可能になります。
おわりに
Spotify Python Connector の30日の無償トライアル をぜひダウンロードして、Spotify のデータ への接続をPython アプリやスクリプトから簡単に作成しましょう。
フルソースコード
import petl as etl
import pandas as pd
import cdata.api as mod
cnxn = mod.connect("Profile=C:\profiles\Spotify.apip;AuthScheme=OAuth;InitiateOAuth=GETANDREFRESH;OAuthClientId=your_client_id;OAuthClientSecret=your_client_secret;CallbackURL=http://localhost:33333;")
sql = "SELECT , FROM Albums WHERE Id = '4aawyAB9vmqN3uQ7FjRGTy'"
table1 = etl.fromdb(cnxn,sql)
table2 = etl.sort(table1,'')
etl.tocsv(table2,'albums_data.csv')