MCP サーバーアーキテクチャが AI の精度を決定する—モデルだけではない
MCP サーバーアーキテクチャが AI の精度にどう影響するかを初めて厳密にベンチマークしたレポートです。378 のプロンプト。5 つのアーキテクチャアプローチ。25 パーセントポイントの精度差。
調査結果
ネイティブベンダーサーバー、iPaaS、Unified API、MCP ゲートウェイ、CData Connect AI の 5 つの MCP サーバーアプローチを、CRM、プロジェクト管理、クラウドデータウェアハウス、ERP にまたがる 378 の実運用プロンプトでベンチマークしました。
CData は 98.5% の精度を達成しました。他のアプローチは 59–75% にとどまりました。この差は急速に拡大します。1 ステップあたり 75% の精度で 5 ステップのワークフローを実行すると、正しく完了するプロセスは 24% 未満です。
これは社内ベンチマークです。テストハーネスを公開していますので、ご自身のデータとプロンプトで再現いただけます。
他のアプローチが失敗するケース
自然言語を REST コールに直接マッピングする MCP サーバーは、単純な検索には有効です。しかし、API が公開していないロジックが必要なプロンプトでは失敗します。
日付ロジックのエラー「今四半期にクローズする案件を取得」というプロンプトに対し、すべての案件が返されました。API は明示的な日付範囲を必要とします。「今四半期」を実際の日付に解決するセマンティックレイヤーがなければ、フィルターは暗黙的に無視されます。
フィルター組み合わせの失敗「Sarah に割り当てられた To Do ステータスの課題」というプロンプトに対し、Sarah のすべての課題が返されました。複数のフィルター条件を組み合わせるには、エンドポイントのマッピングだけでは対応できないクエリ構築ロジックが必要です。
書き込み操作の失敗「課題を In Progress に移動」というプロンプトは構文的には有効でしたが、ワークフローのバリデーションに失敗しました。MCP サーバーは API を正しく呼び出しましたが、プラットフォームのステート遷移ルールを理解していませんでした。
スキーママッピングのエラー「金額順で上位 10 件の注文を取得」というプロンプトが誤ったテーブルにアクセスしました。各プラットフォームがオブジェクトの命名や構造をどのように定義しているかについてコネクタレベルの知識がなければ、サーバーは実際のスキーマではなくトレーニングデータから推論してしまいます。
共通するパターン:プロンプトとデータソースの間のコネクティビティレイヤーこそが、精度を左右する要因です。
テスト手法
378 回のテスト実行 — 4 つのプラットフォーム、各プラットフォーム 16 の標準化プロンプト
二値評価 — 事前に定めた正解データに対し、正誤を判定。部分点はなし。
統制条件を固定 — モデル(GPT-5)、temperature(0.2)、プロンプト構造、エージェントフレームワーク(LangGraph ReAct)
複雑度別の評価 — 単純な検索、複数フィルター操作、書き込みアクション。他のアプローチは複雑度の上昇に伴い 15–30 パーセントポイント低下。CData は 98.5% を維持。
調査レポートを入手
エグゼクティブサマリー(7
ページ)
主な調査結果、精度比較、導入への示唆をまとめています。
調査レポート全文(28
ページ)
テスト手法の詳細、プラットフォーム別の結果、失敗パターンの分析、アーキテクチャに関する推奨事項を掲載しています。
テストハーネス(GitHub)
お客様自身のシステムとデータでベンチマークを実行できます。プロンプトセット、評価基準、スコアリング手法が含まれています。