CloverDX(旧CloverETL)で Hugging Face のデータ に接続
CData JDBC Driver for Hugging Face を使用すると、CloverDX(旧CloverETL)のデータ変換コンポーネントで Hugging Face をソースとして扱えます。この記事では、JDBC Driver for Hugging Face を使用して、フラットファイルへのシンプルな転送を設定する方法を説明します。
JDBC データソースとして Hugging Face に接続
- Hugging Face のデータ への接続を作成します。新規のCloverDX グラフで、Outline ペインの「Connections」ノードを右クリックし、「Connections」->「Create Connection」をクリックします。Database Connection ウィザードが表示されます。
- プラスアイコンをクリックし、JAR からドライバーをロードします。インストールディレクトリのlib サブフォルダを参照し、cdata.jdbc.api.jar ファイルを選択します。
- JDBC URL を入力します。
HuggingFace Hub は、API へのアクセスを可能にするためにトークンベースの認証を使用します。この API では、HuggingFace Hub プラットフォーム上の機械学習モデル、データセット、スペース、論文、その他のリソースにアクセスできます。
API キー認証の設定
HuggingFace Hub への認証には、API Key(アクセストークン)を指定する必要があります。アクセストークンを取得するには、以下のステップで進めます:
- https://huggingface.co で HuggingFace アカウントにログインします
- Settings > Access Tokens に移動します
- 「New token」をクリックして新しいアクセストークンを作成します
- 適切な権限(read または write)を選択します
- トークンの値をコピーします
アクセストークンを取得したら、以下の接続プロパティを設定します:
- AuthScheme:APIKey に設定します。
- APIKey:HuggingFace のアクセストークンに設定します。
接続文字列の例
Profile=C:\profiles\HuggingFace.apip;ProfileSettings='APIKey=hf_xxxxxxxxxxxxxxxxxxxx';
組み込みの接続文字列デザイナー
JDBC URL の構築には、Hugging Face JDBC Driver に組み込まれている接続文字列デザイナーを使用してください。JAR ファイルをダブルクリックするか、コマンドラインから実行します。
java -jar cdata.jdbc.api.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
一般的なJDBC URL は次のようになります:
jdbc:api:Profile=C:\profiles\HuggingFace.apip;ProfileSettings='APIKey=hf_xxxxxxxxxxxxxxxxxxxx';
DBInputTable コンポーネントで Hugging Face のデータ をクエリ
- Palette の「Readers」から「DBInputTable」をジョブフローにドラッグし、ダブルクリックして設定エディターを開きます。
- 「DB connection」プロパティで、ドロップダウンメニューから Hugging Face JDBC データソースを選択します。
- SQL クエリを入力します。例:
SELECT , FROM Collections WHERE = ''
クエリの出力をUniversalDataWriter に書き込む
- 「Writers」から「UniversalDataWriter」をジョブフローにドラッグします。
- UniversalDataWriter をダブルクリックして設定エディターを開き、ファイルURL を追加します。
- DBInputTable を右クリックし、「Extract Metadata」をクリックします。
- DBInputTable の出力ポートをUniversalDataWriter に接続します。
- UniversalDataWriter の「Select Metadata」メニューで、Collections テーブルを選択します。(このメニューはUniversalDataWriter の入力ポートを右クリックしても開けます。)
- 「Run」をクリックして、ファイルに書き込みます。