Skip to Content
フッターにスキップ
0%

ハイプから信頼へ:エンタープライズ・ジェネラル・インテリジェンスの未来を推進する自律型シミュレーションテストの役割

Silvio Savarese, Head of AI Research at Salesforce, discusses enterprise general intelligence testing.

※本記事は2025年5月1日に米国で公開されたFrom Hype to Trust: The Role of Agentic Simulation Testing in Advancing the Future of Enterprise General Intelligenceの抄訳です。本記事の正式言語は英語であり、その内容および解釈については英語が優先されます。


今日のAIに関する議論の多くは、遠い将来実現すると予想される汎用人工知能(AGI) に焦点を当てています。しかし、その最も革新的な原則の一部、つまり推論、適応性、自律性などは、すでに現在の企業内に定着しつつあります。AGIといえば、人間の知能を超える超知能の機械のイメージが思い浮かびますが、企業はこのテクノロジーの登場をただ待っているわけではありません。企業は、これらの基礎的な概念を適用し現実世界の課題の大規模な解決にすでに活用しています。

Salesforceでは、こうした革新を「退屈なブレークスルー」と呼んでいます。それは、それらが素晴らしくないからではなく、静かにその能力を発揮し、信頼性の高い拡張性を備え、耐久性に優れているからです。それらは非常にシームレスであるため、当然のことだと考える人もいるかもしれません。

こうしたブレークスルーは最近Salesforceが紹介したまったく新しいカテゴリー「エンタープライズ・ジェネラル・インテリジェンス (EGI)」の到来を告げるものです。EGIは、SFの世界のために設計されたAIではなく、現代のビジネスの日常のために設計されたAIです。

ビジネスにおけるEGIのニーズの高まり

Salesforceは、EGIを機能だけでなく一貫性があり、企業向けに最適化されたAIエージェントと定義しています。EGIは、コンテキストを解釈し、データ間の関連性を理解し、業務目標と整合し、ワークフローを自律的に実行して、人間の介入なしに成果をもたらします。

機能とは、AIが企業のデータやコンテキストをどれだけよく理解しているかだけでなく、複雑なタスクを処理し、課題について推論し、段階的に適応する能力も意味します。AIは、すでに学習した内容に基づいて、ユーザーに代わって信頼できるアクションを実行します。

業界をリードする企業はおそらく、SalesforceのハイパースケールデータエンジンであるData Cloud、AIエージェントのメモリとして機能し、非構造化テキストを検索可能な形式に変換する検索拡張生成(RAG)、Salesforce AI Research(英語)で開発されSalesforce Platformのインテリジェントな有効化レイヤーであるAgentforceの頭脳として機能するAtlas推論エンジンなどのテクノロジーを使用しているでしょう。

これらのツールにより、AIはビジネスのナレッジにリアルタイムでアクセスできるようになり、AIエージェントはニュアンスのある関係性を理解し、複雑なワークフローを推論し、システム全体で情報に基づいたアクションを実行することができます。

しかし、機能だけでは十分ではありません。信頼を得るには一貫性が必要です。企業が活用できるようにするには、AIエージェントは複雑なシナリオでも確実に動作し、既存のシステムとシームレスに統合できなければなりません。そのため、厳格なシミュレーションテストが不可欠です。現実的なビジネス環境でAIエージェントの動作をストレステストすることで、企業はエッジケースを特定し、パフォーマンスを改善し、導入前に信頼性の高い動作を保証することができます。

この信頼性の高い基盤により、EGIは将来に向けたコンセプトからミッションクリティカルなソリューションへと変貌を遂げました。それを実現するには、効果的な評価フレームワーク、エンタープライズグレードのガードレール、信頼性の高い有害性検出システムが必要です。強化学習と、SalesforceのTrust Layerなどの機能により、モデルの動作を継続的に監視および改善することで、EGIシステムは単に機能するだけでなく、リスクの高いビジネス環境でも確実に機能します。

信頼は推測ではなく、一貫性によって築かれるもの

このような細部へのこだわりは、その重要性を理解するまでは過剰に見えるかもしれません。例えば、消費者向けAIのユースケースでは、レストランの提案が平均以下だったり、学校新聞の統計情報が古かったりしても、許されるかもしれません。しかし、企業ではAIエージェントが誤った判断を下した場合、収益の損失、プロセスの混乱、顧客関係の悪化など、ビジネスに甚大な被害をもたらす可能性があります。

多くの大規模言語モデル(LLM)は、ますます複雑化するベンチマークで性能記録を更新し続けていますが、人間が簡単にこなすような単純なタスクにはまだ十分に対応できていません。この性能のギャップをSalesforceは「ギザギザな知能(英語)」と呼んでいます。これは、AIエージェントの基本的なタスクの実行能力にみられる小さな不整合です。この種の不整合は、信頼を損ない、生のインテリジェンスとビジネスにおける信頼性の高い成果との乖離を浮き彫りにする可能性があります。

繰り返しになりますが、EGIの世界では厳格なテストが必須です。極端な条件でのストレステストを行わずに航空機を就航させる航空会社はありません。何百もの規制シナリオでテストを行わずに、AIエージェントにリスクの高い取引を承認させるグローバルの銀行はありません。また、臨床用語の略語、地域用語、専門分野間の微妙な違いを解釈できることを事前に確認せずに、AIエージェントに患者のメモを要約させる医療ネットワークはありません。

簡潔に言えば、企業はAIエージェントを実際の複雑な状況下で十分に評価せずに導入する余裕はありません。運用を開始する前に、AIエージェントは、企業の業務の微妙なニュアンスを反映したシミュレーション環境でテストする必要があります。このような制御された空間ではAIエージェントを限界まで追い込むことで、ビジネス成果に影響を与える前に問題を早期に発見することができます。信頼性の高い EGIの提供に関しては、試行錯誤は戦略ではありません。それは、企業が決して負うことのできないリスクです。

AIエージェントのシミュレーション環境テストのための新しいフレームワーク

これが、Salesforce AI Researchチームが開発した、現実的なCRMのシナリオにおけるAIエージェントの行動をテストするための新しいベンチマークシミュレーション「CRMArena(英語)」の考え方です。この最初のシミュレーション環境の例では、サービスAIエージェント、アナリスト、マネージャーという3つの主要なペルソナのタスクを再現しています。目的は、現在のモデルが実際に企業で使用できるかどうかを評価することです。初期の結果では、ガイド付きのプロンプトがあっても、AIエージェントはこれらのペルソナのユースケースの機能呼び出しに65%未満しか成功していません。

これらの調査結果により、汎用LLMを超えたビジネス用に特別に設計されたシステムを備えた高度なモデル機能の必要性を強調しています。また、AIエージェントが実際の顧客と関わり、ビジネス成果に影響を与える前に、その改良と検証を行う上で、シミュレーションによるエージェントテスト環境が果たす重要な役割も浮き彫りにしています。CRMArena は、AIエージェントを実環境での導入に備える前に、その改善点を明らかにする重要な基盤を提供します。

これは、高度なAIエージェントのテスト環境の未来に向けた重要な一歩であり、継続的なAIのイノベーションを推進し、企業の拡張性と大規模対応を保証する、さらに高度なプラットフォームへの道を開きます。

エンタープライズレベルの高い信頼性を備えたAIの拡大

信頼性の高いAIエージェントを大規模に導入しようとしているCEO、CIO、ITリーダーにとって、エンタープライズレベルの信頼性を確保するための評価およびテストツールとベンチマークを明確に理解することが、これまで以上に重要になっています。さまざまな業界でEGIへの移行が進む中、一貫したパフォーマンスを提供し、ダイナミックな環境に適応できるシステムの必要性はますます高まっています。エンタープライズAIの未来は、その機能だけでなく、実環境やプレッシャーの高いビジネスシナリオにおける実証済みのパフォーマンスにかかっています。

高度なフレームワークを採用し、新たなテスト環境を取り入れることで、企業はイノベーションを推進し、意思決定を強化し、顧客の信頼を守るAI操作を自信を持って拡大することができます。EGIへの道のりはここから始まります。今こそ、その先頭に立つ準備を進めてみてください。

詳細情報:

  • Salesforce AI Researchの最新情報は、こちら
  • Salesforce AI Researchの詳細は、こちら

本記事、または公式に言及されている未提供のサービスや機能は現在利用できないものであり、予定通りに、または全く提供されない可能性があります。お客様は、現在利用可能な機能に基づいて購入をご判断くださいますようお願いいたします。