
大規模アクションモデル(LAM)とは?
LLMの言語的な流暢さと、タスクを達成し、独立して意思決定を行う能力を組み合わせると、生成AIが仕事に役立つ積極的なパートナーに昇格します。
Silvio Savarese
LLMの言語的な流暢さと、タスクを達成し、独立して意思決定を行う能力を組み合わせると、生成AIが仕事に役立つ積極的なパートナーに昇格します。
Silvio Savarese
私は、大規模アクションモデル(LAM)について、この10年間で目にしてきたAIのいかなる発展にも匹敵するような大きな転換点になると信じています。LLMがテキスト生成の自動化を実現し、マルチモーダルフォームにおいて幅広いメディアの生成の自動化を可能にしたように、LAMも、もうすこしでプロセス全体の自動化に成功する可能性があります。そしてLAMは、当然ながら言語を流暢に操ることができるので、人とのコミュニケーションや状況変化への適応、その他のLAMとの交流を通して、世界と知的なやり取りを交わすようになるでしょう。
ここ数か月で、大規模言語モデルを拡張して「AIエージェント」にするというパワフルな新しいトレンドが登場しています。大規模言語モデルをAIエージェントとして機能させることで、人間のユーザーからの問い合わせに単に応答するのではなく、最終的には目標のために大規模言語モデル自らがタスクを実行できるソフトウェアエンティティになるのです。これを簡単な変化だと捉える人もいるでしょう。しかし、LLMの言語的な流暢さと、タスクを達成し、独立して意思決定を行う能力を組み合わせることで、生成AIはその威力を問わず、受動的なツールから、リアルタイムで仕事をこなす能動的なパートナーへと昇格し、この変化によってまっさらな可能性の領域が開かれるのです。Salesforce AIでは、このような強力なエージェントの可能性について、積極的な研究➚ と開発を長年にわたって続けています。
簡単に言えば、大規模アクションモデル(LAM)は、ユーザーのクエリにもとづいて特定のアクションを実行できる生成AIの一種です。これらのモデルは、データを分析するだけでなく、その結果にもとづいて行動を起こすように設計されています。LAMは、大規模アクションモデル(LLM)の「仕事ができるいとこ」だと考えてください。LLMはクエリに応答してテキストを生成することができますが、LAMはアクションを実行➚ し、買い物客の返品処理のサポートなどを行います。
私は、AIの重要な使命は、人間の能力と置き換えようとするのではなく、人間の能力を強化する自動化を追求することであると考えています。その点を念頭に置いた、LAMがすべきことは、私たちがもっとも得意とする有意義で価値の高い取り組みの邪魔になる反復的なタスクやその他の忙しい業務(私たちのほとんどがそもそもやりたくない仕事)の手綱を握ることです。それでは、LAMが持つ、驚くような可能性について、個人と組織という2つのレベルで議論していきましょう。その過程で、現段階ではLAMをどのように適用できるのか という点や、私たちの仕事や生活におけるLAMの役割が今後数年間でどのように進化するかという点についても想像してみましょう。
パーソナルアシスタントは、何世代にもわたって富裕層のための贅沢品でしたが、テクノロジー業界は大衆向けの仮想的な代替手段の実現を何十年にもわたって誓ってきました。LAMは、その驚くべき流暢さと、生活のほぼすべての領域に自然に一般化する能力を備えており、人間の同僚から期待されるような先見の明と洞察力を備えた、真の意味で私たちを支援できる技術であるという点において、私たちが待ち望んでいたターニングポイントになるかもしれません。私たちは、以下の点を考慮する必要があります。
最近では、LLMがマーケティングワークフローに与える影響について多くの誇大宣伝が行われています。そしてコピー、画像、さらにはWebレイアウトを生成する能力は、この分野における大きな変化であるとみなされています。しかし、LLMの出力を新しいキャンペーンの構想や結果の展開などの完全なプロセスに統合するには、多大な手作業が必要になるため、実態はもっと複雑です。現状として、最高の生成AIでさえ、真に自動化できているのは一部のプロセスに過ぎません。
しかし私たちは、マーケティング用のAIエージェントがLLMインターフェースを使用してデータ、ツール、ドメイン固有のエージェンとつながり、高レベルのタスクを追求することで、より広範でLAMに類似したアプローチを採用するようになると想定しています。これにより、マーケティングチームにも結果をもたらすようになるでしょう。たとえば、以下のようなリクエストがあるとします。
「マーケティングメールを送信して、新しいチョチョチョコレートの価値をアピールしてください。最初の100人の購入者に送料無料のクーポンをプレゼントします。各受信者がパーソナライズされたメッセージを受け取るようにしてください。」
LLMだけでは、この要件を満たすのは難しいでしょう。しかし、ツール、エージェント、データソースの集合体、つまり過去のマーケティング資料へのアクセス、組織がLAMと共有することを選択した顧客データ、そしてもちろんLLM自身へのアクセスを活用すると、簡単にコピー(「マーケティングメールを送信する」)を生成し、最新の製品開発をアピールするドキュメントから情報(「新しいチョチョチョコレートの価値」)を引き出すことができます。そして、リクエストのロジック(「購入する最初の100人にクーポンを付与する」)の細分化や、顧客ごとの接点の処理(「各受信者がパーソナライズされたメッセージを確実に受け取る」)も簡単に実行できるようになります。
パーソナルアシスタントは、仕事だけでなく、人生全体にわたるサポートを行うことを目的としています。では車のように、重要ではあるものの、購入が個人の意思決定に委ねられるものに対して、LAMをどのように活用するのか想像してみましょう。多くの人にとって、車を購入するプロセスは楽しみよりも面倒な気持ちが勝ることがあり、特にリサーチ段階においては圧倒されることもあります。ただしLAMを使用するとすぐに、以下と大きく変わらないプロンプトだけで完了するようになる可能性があります。
私は、安全性の評価が高く、スペースが広いセダンで、理想的には暗い色のものを求めています。2014年より前のものと28,000ドル以上のものは対象外とします。そして、走行距離は90,000未満です。
人間とLAMの両方にとっての最初のステップは、車の購入サイトをスキャンして、最初のオプションリストを作成することです。LLMの強力なテキスト理解機能により、AIエージェントはプロとユーザーが作成したソースから大量の車のレビューを吸収し、ユーザーのパラメーターを満たす候補を迅速に特定できます。さらには、LAMが危険サインを察知することもあります。たとえば、他の点では適切な車種でも、特定の年式のものにおいてはトランスミッションの故障や電気的な問題が報告されており、評判が悪いことに気付くと、それらをリストから削除します(または、少なくとも免責事項に関する注釈を付けます)。
次のステップとして、LAMは、メールやSMSなどのチャネルを使用して、個人の売り手や地元のディーラーとの会話を開始することもできます。優れたLAMは、自らがAIである旨を明らかにし、人間が誤解することのないように配慮しならも、挨拶や完全な文章、明確な要求、記述を各メッセージに取り入れ、明瞭で流動的な自然言語によるコミュニケーションを行います。また、ユーザーの銀行にローン作成の必要があることを通知するような場合もあります。会話が意思決定の瞬間に近づくと、最終的な承認のためにユーザーが参加できます。
究極のところ、Salesforce AIはテクノロジーの力を利用してあらゆる規模のビジネスの運営方法を改善することに取り組んでおり、LAMは今後数年間でそれがどのような形になるのかを示す素晴らしい例です。このビジョンは、バックオフィスからマーケティングの最前線まで、まだ想像もつかないような利用を含む、業務のあらゆる側面に及んでいると確信しています。しかし、顧客との対話ほど優れた例はおそらくないでしょう。
例えば、保険会社の保険外交員を想像してみてください。保険外交員の一日の大部分は、既存の顧客と見込み客の両方と会い、彼らのニーズについて話し合い、関係を発展させることに費やされます。このプロセスの中核となるのは、生身のエージェントである保険外交員だけが提供できる人間味です。しかしこのプロセスは、LAMが劇的に加速できる反復的なタスクに囲まれています。そこで、以下のフローについて考えてみましょう。このフローは、次のステップに進むたびに生成AIによって拡張されていきます。
私は、これが個人のエンパワーメントに対する説得力のあるビジョンではあるものの、真の変革はLAMの拡張性によってもたらされるものだと思います。ビジネス全般において、このような洗練されたツールでスタッフを増強した場合、全体としてどれだけの時間と費用を節約できるかを想像してみてください。LAMからの提案がミスの防止や、成功戦略の推奨に役立つことは言うまでもありません。LAMは、どんな展開規模であっても真の価値を提供できるテクノロジーなのです。
ここまでは、個々のユーザーにサービスを提供するLAMについて説明してきましたが、このテクノロジーが今後採用するであろう形態は他にもたくさんあります。グループや組織全体にサービスを提供するLAMについても、同じように簡単に想像できます。すべてのLAMがその柔軟性の恩恵を受ける一方で、私が期待しているのは、上記で説明した「エグゼクティブアシスタント」の概念に類似した非常に一般的なものから、ニッチな問題に対処する高いレベルで調整されたドメイン固有のエージェントまで、さまざまな可能性が生まれることです。多くのLAMが、そして最終的にはすべてのLAMが、自分の経験から学ぶように設計されるようになるでしょう。その際に、組織の問題を解決するためにより多くの専門知識を収集するのか、個々のユーザーのニーズや好みに合わせてパーソナライズを拡大するのかは問題ではありません。
そして、LAMが必ずしも個別に稼働するとは限りません。同様に、複数のLAMが連携して作業することも容易に想像できます。それそれが異なる目標セットに最適化されます。一方で、別のLAMが取り組みの調整や、個人、チーム、さらには組織全体などのユーザーとのコミュニケーションに専念するためのタスクに注力していると想像できます。言い換えれば、単一のパーソナルアシスタントだったLAMは、人間の上司に報告を行う「参謀長」によって統一されたチームへのアップグレードを選ぶことになるでしょう。
LAMが他のLAM、またはLAMのチームと対話することのみを目的として作成されたことを考えると、LAMが持つ可能性はさらに興味深いものとなります。たとえば、上記の例に出てきた自動車販売店がAIエージェントを導入し、潜在的な顧客の代理を務める個人のLAMから受けたリクエストを処理したり、自動車メーカーの代理を務めるLAMと反復的にやり取りしたりすることを想像してください。後にLAMが自らの行動を評価する場合においては特に言えることですが、すべてのLAMが価値あるものとなるために必要なのは透明性と一般的な有用性です。これらのLAMは、その透明性と一般的な有用性を維持しながらも、機器同士の通信で可能な範囲をはるかに超える速度と効率で動作します。
AIエージェントが自社の従業員と協力して働くことで、コストと時間をどれだけ節約できるのかをご確認ください。いくつかの簡単な質問に答えるだけで、Agentforceの効果を確認できます。
LAMのフルパワーを実現するには多くの技術的なハードルが待ち受けていますが、核となる課題は明確です。世界は静的な場所ではありません。世界と対話することを目的としたAIエージェントには、変化する状況に円滑に適応するのに十分な柔軟性が必要です。上記の自動車購入の例に置き換えると、見込み客を監視し、ユーザーが申し出るよりも前に希望の車が売りに出されたこと検知したり、調査プロセスの途中でリコールが発表された場合に提案内容を更新することにつながります。また保険代理店の例の場合には、業界規制の変更から異常気象に至るまで、有用かつ最新の情報を提供するためには、時事問題、特に顧客の地元での出来事に対する認識が不可欠となります。
いずれの場合も、優れたLAMは、人間のユーザーに通知したり、説明を求めたりするタイミングを理解することで、自分自身を定義します。それを頻繁に行うと、煩わしさや混乱を招き、LAMの本来の利点を打ち消してしまう可能性さえあります。しかし、あまりにも頻度が低い場合には、重要なメールの削除からユーザーの銀行への不要なローンの申請まで、深刻で望ましくない結果を確実に招くことになります。優れたパーソナルアシスタントと同様に、LAMには適切なバランスをとるための優れた直感が必要です。
またこれは、LAMのもっとも強力な特徴の1つである学習能力を活用することでもあります。LAMが私たちと一緒に働く実社会の経験にますます触れるようになると、人間のフィードバックを使用してLAMの行動の精度を挙げることができます。さらに、LAMは、カスタマーサービスの文字起こしからイベントログに至るまで、さまざまなデータを精査し、特定の開始点からもっとも望ましい結果につながる理想的な手順を組み立てることで、フローとプロセスの有益な解釈を抽出することができます。
誤解のないように説明すると、LAMの仕事は、リクエストを一連のステップに変換することだけではありません。LAMとつながり、LAMを囲むロジックを理解することです。つまりは、あるステップが他のステップの前後に実行されるべき理由を理解すること、そして状況の変化に対応するためにプランを変更すべきタイミングを知ることこそがLAMの仕事なのです。これは、私たちが日常生活で常に示している能力でもあります。たとえば、オムレツを作るのに卵が足りない場合、最初のステップは料理とは関係がなく、最寄りの食料品店に向かうことだと私たちは考えます。今こそ、これと同じことができるテクノロジーを構築する時です。
LAMが、上記の例の多くが必要とする流暢さとコミュニケーションが驚くほど上手になることは間違いありません。しかし、現実の世界で日常的に使用するために必要とされる一貫性がLAMにあり、予測可能で効果的な方法で行動することができるかどうかはまだわかりません。
もちろん、テキストや画像の生成においては、信頼がすでに課題となっている場合(確かに課題ではありますが)、行動を起こすとなると、さらに大きな問題となります。複数のLAMが連携して動く場合、安全性と信頼性を確保する負担が増大します。このような理由から、LAMがもっとも独立した状態であっても、重要なアクションが実行される前に、人間が最新情報を共有するように設計されていることが不可欠であると私は信じています。この技術がどれほど進歩しても、私はLAMを非常に知的で、人間がいつでも自由に制御できるツールとして思い描いています。
自律型のAIエージェントにより、あらゆる役割、ワークフロー、業界における仕事の進め方を変革します。
10年にわたるAI開発は歴史的としか言いようがありませんが、これはLAMの可能性の証であり、その研究を行う多くの人が、最大の変革がようやく見えてきたと感じています。適切なガイダンスと人間のエンパワーメントのための取り組みを通して、LAMは生産性、使いやすさ、明晰さの新時代を切り開くことができると私は信じています。そして私たちは、もっともやりがいを感じられるタスクに集中し、やりたくないタスクからは解放されることになるでしょう。そして、エンタープライズの世界で何十年もの歴史を持つSalesforceほどこのビジョンを追求するのにふさわしい場所は想像できません。
この記事の執筆に協力してくれたAlex Michael、Peter Schwartz、そしてSalesforce Futuresチームに感謝します。