Hugging Face ODBC データソースとの間にInformatica マッピングを作成

古川えりか
古川えりか
コンテンツスペシャリスト
Informatica にHugging Face へのODBC 接続を作成し、Hugging Face のデータを参照および転送。



Informatica はデータを転送、変換するための強力で洗練された手段です。CData ODBC Driver for API は、Informatica の強力なデータ転送・変換機能とシームレスに連携可能な、業界で実証済みの標準ドライバです。このチュートリアルでは、Informatica PowerCenter でHugging Face のデータを転送および参照する方法を説明します。

CData ODBC ドライバとは?

CData ODBC ドライバは、以下のような特徴を持ったリアルタイムデータ連携ソリューションです。

  1. Hugging Face をはじめとする、CRM、MA、会計ツールなど多様なカテゴリの270種類以上のSaaS / オンプレミスデータソースに対応
  2. 多様なアプリケーション、ツールにHugging Face のデータを連携
  3. ノーコードでの手軽な接続設定
  4. 標準 SQL での柔軟なデータ読み込み・書き込み

CData ODBC ドライバでは、1.データソースとしてHugging Face の接続を設定、2.Informatica 側でODBC Driver との接続を設定、という2つのステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。

CData ODBC ドライバのインストールとHugging Face への接続設定

まずは、本記事右側のサイドバーからAPI ODBC Driver の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。

Hugging Face への接続に関する情報と、Windows およびLinux 環境でのDSN の設定手順を以下で説明します。

HuggingFace Hub は、API へのアクセスを可能にするためにトークンベースの認証を使用します。この API では、HuggingFace Hub プラットフォーム上の機械学習モデル、データセット、スペース、論文、その他のリソースにアクセスできます。

API キー認証の設定

HuggingFace Hub への認証には、API Key(アクセストークン)を指定する必要があります。アクセストークンを取得するには、以下のステップで進めます:

  1. https://huggingface.co で HuggingFace アカウントにログインします
  2. Settings > Access Tokens に移動します
  3. 「New token」をクリックして新しいアクセストークンを作成します
  4. 適切な権限(read または write)を選択します
  5. トークンの値をコピーします

アクセストークンを取得したら、以下の接続プロパティを設定します:

  • AuthScheme:APIKey に設定します。
  • APIKey:HuggingFace のアクセストークンに設定します。

接続文字列の例

Profile=C:\profiles\HuggingFace.apip;ProfileSettings='APIKey=hf_xxxxxxxxxxxxxxxxxxxx';

Windows

接続プロパティが未設定の場合は、まずODBC DSN(データソース名)で設定します。ドライバーのインストールの最後にアドミニストレーターが開きます。Microsoft ODBC データソースアドミニストレーターを使ってODBC DSN を作成および設定できます。

Linux

CData ODBC Driver for API をLinux 環境にインストールする場合、ドライバーのインストールによってDSN が事前に定義されます。DSN を変更するには、システムデータソースファイル(/etc/odbc.ini)を編集し、必要な接続プロパティを定義します。

/etc/odbc.ini

[CData API Source]
Driver = CData ODBC Driver for API
Description = My Description
Profile = C:\profiles\HuggingFace.apip
ProfileSettings = 'APIKey = hf_xxxxxxxxxxxxxxxxxxxx'

これらの構成ファイルの使用方法については、オンラインのヘルプドキュメントを参照してください。

Collections データへのリンクテーブルを作成する

「オブジェクトエクスプローラー」からリンクテーブルを作成してライブCollections データにアクセスする方法は、次のとおりです。

ODBC 接続を作成する

下記の手順に従って、Informatica PowerCenter のHugging Face に接続します。

  1. Informatica Developer ツールで、リポジトリに接続してプロジェクトを作成しておきます。
  2. 「Connection Explorer」ペインで右クリックし、「Create a Connection」をクリックします。
  3. 「New Database Connection」ウィザードが表示されたら、接続に名前とID を入力し、「Type」メニューで「ODBC」を選択します。
  4. 「Connection String」プロパティに
    jdbc:api:Profile=C:\profiles\HuggingFace.apip;ProfileSettings='APIKey=hf_xxxxxxxxxxxxxxxxxxxx';
    を入力します。

注意:Linux オペレーティングシステムで作業している場合は、「Driver Manager for Linux」プロパティをunixODBC 2.3.x に設定します。

Hugging Face のデータオブジェクトを作成する

Hugging Face へのODBC 接続を作成したら、Informatica でHugging Face エンティティにアクセスできるようになります。下記の手順に従って、Collections エンティティをプロジェクトに追加します。

  1. 「Object Explorer」でプロジェクトを右クリックし、「New」->「Data Object」をクリックします。
  2. ウィザードが表示されたら「Relational Data Object」オプションを選択します。
  3. 「Connection」ボックス横にある「Browse」ボタンをクリックし、先に作成したODBC 接続を選択します。
  4. 既存のリソースからデータオブジェクトを作成するオプションを選択し、「Resource」ボックス横にある「Browse」ボタンをクリックします。
  5. ダイアログが表示されたら、「Show Default Schema Only」オプションの選択を解除してODBC 接続のノードを展開します。必要なエンティティを選択します。 The driver models Hugging Face entities as relational tables.(Salesforce is shown.)

これで、Data Viewer でテーブルをブラウズできます。テーブル用ノードを右クリックし「Open」をクリックします。「Data Viewer」ビューで「Run」をクリックします。

Table data and metadata in the Data Viewer.(Salesforce is shown.)

マッピングを作成する

下記の手順に従って、Hugging Face ソースをマッピングに追加します。

  1. 「Object Explorer」でプロジェクトを右クリックし、「New」->「Mapping」をクリックします。
  2. Hugging Face 接続のノードを展開してから、テーブル用のデータオブジェクトをエディタ上にドラッグします。
  3. ダイアログが表示されたら「Read」オプションを選択します。
The source Hugging Face table in the mapping.(Salesforce is shown.)

以下のステップに従って、Hugging Face カラムをフラットファイルにマッピングします。

  1. 「Object Explorer」でプロジェクトを右クリックし、「New」->「Data Object」をクリックします。
  2. 「Flat File Data Object」->「Create as Empty」->「Fixed Width」と選択します。
  3. Hugging Face オブジェクトのプロパティで目的の行を選択して右クリックし、コピーします。コピーした行をフラットファイルプロパティにペーストします。
  4. フラットファイルのデータオブジェクトをマッピングにドラッグします。ダイアログが表示されたら「Write」オプションを選択します。
  5. クリックおよびドラッグしてカラムを接続します。

Hugging Face のデータを転送するには、ワークスペース内で右クリックして「Run Mapping」をクリックします。

The completed mapping.(Salesforce is shown.)

おわりに

このようにCData ODBC ドライバと併用することで、270を超えるSaaS、NoSQL データをコーディングなしで扱うことができます。30日の無償評価版が利用できますので、ぜひ自社で使っているクラウドサービスやNoSQL と合わせて活用してみてください。

CData ODBC ドライバは日本のユーザー向けに、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。

はじめる準備はできましたか?

API Driver で Hugging Face のライブデータに接続

Hugging Face に接続