強化学習：知っておくべきこと

強化学習は、人工知能（AI）エージェントが学習と意思決定を行うために用いる主要な手法です。自律型エージェントのような最新のAIイノベーションの多くは、強化学習によって実現されています。マーケティングから製造業まで、多くの業種を変革し得る可能性を秘めた分野です。

Agentforceを試す

このガイドでは、強化学習の主要な概念と原則、実社会での応用、新たなトレンド、産業への潜在的な影響について説明します。

強化学習について学ぶこと：主なポイント

強化学習は機械学習の一種であり、AIエージェントは、有益なアクションには報酬を受け取り、目標達成に寄与しないアクションは回避する、という試行錯誤を通じて最適な結果を達成すること学びます。
強化学習の主要な概念には、AIエージェント、環境、アクション、状態、報酬、ポリシー、累積報酬があり、これらすべてが、AIエージェントがどのようにやり取りし、時間をかけてどのように戦略を洗練していくかを定義します。
強化学習は、AIエージェントの強化、マーケティングのパーソナライズ、エネルギー消費の最適化、サプライチェーンの管理、金融予測などの用途で、さまざまな業種を変革しています。

強化学習の概要

強化学習は、AIエージェントが環境からのフィードバックを通じて最適な結果を達成する方法を学ぶ、機械学習の一種です。人間が試行錯誤を通じて意思決定を行うように、AIエージェントも有益なアクションには報酬を受け取り、目標達成に寄与しないアクションは無視または回避することで学習します。

強化学習により、AIは直接的な監督なしに複雑な環境で動作できるようになります。マーケティングパーソナライズの最適化、医療面では複雑な疾病の診断、自動運転車の管理などの用途で利用されています。デジタルワーカーは、人間の能力を模倣し、複雑なタスクを処理するAIソフトウェアアプリケーションです。デジタルワーカーはバーチャル従業員として機能するAIエージェントであり、以前まで人間の労働者だけが達成できたさまざまな役割を果たすことができます。

機械学習と強化学習の違い

どちらもAIの範疇に含まれますが、強化学習は従来の機械学習とは異なります。機械学習では、コンピューターがデータセットを解析してパターンを見つけ、予測を改善し、タスクを完了することで、時間をかけて知性と能力を高めていきます。一方、強化学習ではデータではなく経験を通じて学びます。これは、本や動画から野菜の育て方を学ぶことと、実際に菜園に野菜を植えて手入れをすることで学ぶことの違いに相当します。

強化学習の主要な概念

強化学習を理解するには、その基本的な構成要素から始めることが重要です。これらの主要概念が、AIエージェントが環境とどのように相互作用し、意思決定を行い、時間をかけて戦略を洗練していくかを定義します。

AIエージェント：環境とやり取りすることで意思決定を行う学習者またはシステム。
環境：AIエージェントが動作する空間。物理的な場合もシミュレートされる場合もあります。
アクション：AIエージェントが環境とやり取りするために行う具体的な動き。
状態：特定の時点における環境の現在の状況またはステータス。
報酬：AIエージェントが自身のアクションにもとづいて受け取るフィードバック。正の報酬は望ましい行動を強化し、負の報酬（罰）は望ましくない行動を抑制します。
ポリシー：AIエージェントの意思決定プロセスを導く戦略。
累積報酬：学習と適応を通じてAIエージェントが時間をかけて累積した総報酬。

強化学習の原則

強化学習の有効性は、AIエージェントがどのように学習し、適応し、アクションを最適化するかを形作る重要な原則にもとづいています。これらの原則は、長期的な成功を最大化するために、どのように報酬が構造化され、意思決定が評価され、AIエージェントが探索と活用のバランスを取るかを規定します。

報酬システム

強化学習を効果的に機能させるには、報酬を慎重に設計する必要があります。最も基本的なレベルでは、報酬はゲームの得点のような数値です。たとえば、ロボットが単純なタスクを完了すると1点を獲得し、複雑な成果を達成すると10点が与えられるといった具合です。誤ったアクションには負の得点を割り当てることができます。報酬を時間ベースで設定して迅速な意思決定を促進したり、スパース（疎）に設定して長期的な目標に向けて持続的に取り組む動機付けをしたりすることもできます。

マルコフ決定過程（MDP）とベルマン方程式

マルコフ決定過程（MDP）は、AIエージェント、環境、報酬の関係を数学的に定義します。AIエージェントがある状態でアクションを取り、報酬を得ると、再び同じ状態に遭遇したときにもそのアクションを繰り返すように動機付けられます。このプロセスによって、AIエージェントは、長期的に見てどのアクションが最も高い報酬につながるかを学習します。

ベルマン方程式は、このフレームワークの重要な要素です。これは、AIエージェントが即時の報酬と今後のアクションから得られる長期的な報酬の両方を検討して、得られる可能性のある最大の報酬を算出するのに役立ちます。AIエージェントは、この計算によって軌道全体のコンテキストにおける各アクションの結果を評価して、最適な意思決定を行えるようになります。ベルマン方程式は多くの強化学習アルゴリズムの基盤となっており、経時的な累積報酬が最大になる意思決定に向けてAIエージェントを導きます。

探索と活用のトレードオフ

AIエージェントは、報酬につながるアクションを学習するにつれ、確実な報酬が見込める既知のアクションを選択するか（活用）、より良い報酬を見つける可能性のために環境を探索するかの判断が必要になります。2つの戦略のバランスを取ること、すなわち探索と活用のトレードオフは、強化学習システムが時間とともに成長していくために不可欠です。

強化学習における探索とアルゴリズム

強化学習を用いてAIエージェントを構築する際に、探索と活用の適切なバランスを取ることは難しい課題です。これはレストランの選択に似ています。通い慣れた店に行けば、よく知っている味の確かな食事が保証されますが（活用）、新しい店にチャレンジすれば、さらに良い体験が待っているかもしれません（探索）。新しいレストランが複数あり、結果が未知の場合、このシナリオは「多腕バンディット問題」と呼ばれます。

強化学習アルゴリズムには、探索を優先するもの、活用を優先するもの、両者のバランスを取るものなどがあり、短期/長期の報酬、意思決定戦略、全体的なパフォーマンスといった要因を最適化します。以下に強化学習アルゴリズムの主なカテゴリと例を示します。

価値ベースのアルゴリズム

これらのアルゴリズムは、状態やアクションの価値を推定または最適化して意思決定を改善します。ゲーム戦略の開発、ロボットのナビゲーション、製造システムにおける制御問題などで使用されます。

Q学習アルゴリズム：意思決定を導く最善のアクションの価値（Q値）を試行錯誤によって学習します。遷移や報酬を予測するモデルを必要としません。深層Q学習のようなバリエーションでは、ディープニューラルネットワークを用いて複雑な内容に対応し、より高い効率性を実現します。
価値反復アルゴリズム：環境モデルを用いてアクション価値を計算し、その値からポリシーを導出します。
ポリシー反復アルゴリズム：意思決定戦略の評価と、価値推定にもとづいてそれを改善することを交互に実行し、最適解が見つかるまで繰り返します。

探索重視のアルゴリズム

これらのアルゴリズムは探索を優先し、ロボティクス、地図の場所のナビゲーション、株式取引のような予測不可能な環境で役に立ちます。

ε-グリーディ（貪欲）アルゴリズム：ほとんどの時間は慣れた行動を選び、ときどきランダムにアクションを選択して探索を促すようAIエージェントに命令します。
トンプソンサンプリングアルゴリズム：信念分布から算出された確率にもとづいてアクションを選択します。高い報酬が得られる可能性の高いアクションを優先することになります。
上限信頼区間（UCB）アルゴリズム：アクションの成功率を推定し、あまり知られていないアクションにはボーナスを加えることで探索を促します。

ポリシーベースのアルゴリズム

価値ベースの手法とは異なり、ポリシーベースの手法は、Q値に頼ることなく、意思決定戦略（ポリシー）を直接学習・最適化します。これらのアプローチは、シェフが料理を完璧に仕上げるためにレシピを継続的に調整するように、勾配ベースの最適化を用いて時間をかけてポリシーを洗練します。主にロボティクス、ゲーム、レコメンデーションシステムなどで利用されています。

強化学習の主な用途

強化学習は、AIが知的かつ自律的な意思決定を行えるようにすることで、産業界に革命を起こしています。強化学習を活用することで、企業や研究者はプロセスを最適化し、効率を向上し、幅広い分野にわたる新しいチャンスを発見できます。

AIエージェント

AIエージェントは、人間の介入なしに顧客の問い合わせを理解し、対応することができます。基本的な質問やマルチタスクを処理し、複雑な問題も解決します。特定のタスクで人間の入力に依存する従来型のAIとは異なり、強化学習を活用したAIエージェントは、ユーザーとのやり取りを通じて継続的に改善を重ね、回答を洗練し、変化する顧客ニーズに適応していきます。

マーケティングのパーソナライズ

強化学習により、AIエージェントはリアルタイムデータに反応し、個人の嗜好や行動にもとづいて顧客とのやり取りを最適化できます。関連性が高くタイムリーなやり取りを提供することで、企業はコンバージョンを最適化し、コストを削減し、顧客ロイヤルティや生涯価値を強化できます。

最適化の課題

強化学習は、連続的な意思決定によって長期的な報酬を最大化する最適化問題の解決に最適です。以下の分野で広く利用されています。

エネルギー消費の最適化：ユーザー行動、気象条件、予測分析にもとづいて電力使用量を調整します。
サプライチェーン管理：需要予測や物流の最適化を通じて効率を向上します。
ロボティクスとオートメーション：製造ワークフローやロボットの動作を改善します。
交通管制：信号機の最適化や経路設定によって渋滞を管理します。
医療治療計画：患者の反応データにもとづいて治療戦略をパーソナライズします。

金融予測

強化学習は金融セクターにおいて極めて重要であり、投資や取引の意思決定をモデルに判断させ、リスクを管理しながら長期的なリターンを最大化するのに役立ちます。これらのAIを活用したエージェントは、目まぐるしく変化する市況に適応し、膨大な履歴データを分析し、探索を通じて新しい勝ちパターンを発見できます。過去のパフォーマンスから学び、リアルタイムで調整することで、資産配分を最適化したり、投資の売買タイミングを判断したり、ローンの返済可能性を高い精度で評価したりすることができます。

強化学習を活用した自律型の未来

自律型AIの未来は、強化学習の継続的な進歩によって形作られ、AIシステムはより高い自律性、適応力、知性を備えて動作できるようになります。このような発展により、既存のアプリケーションが強化されるとともに、オートメーション、意思決定、問題解決の新たな地平が切り開かれます。

深層強化学習（DRL）：深層学習を強化学習と連携させることで、強化学習をさらに進歩させます。DRLは、ニューラルネットワークを組み込むことで、変数やシナリオの数が多い、より複雑で現実的な環境をAIが処理できるようにします。
マルチAIエージェント強化学習：従来の強化学習AIエージェントは独立して動作することがよくあり、あまり効率的でない場合があります。AI研究者は、複数のAIエージェントがニューラルネットワークを用いて連携して作業・学習する方法を探求しており、高度なコラボレーション型AIシステムへの道を切り開いています。
転移学習：事前トレーニング済みモデルを使用したり、あるタスクで得た知識を別のタスクに適用したりすることで、AIの学習を加速し、他分野への適応力を強化できます。
説明可能なAI：AIが重大な意思決定に組み込まれるにつれ、説明可能性、つまり人間がAIの推論を理解し信頼できるようにする能力の向上が不可欠になります。特に医療や自動運転の分野では重要です。

強化学習が進化を続けるにつれ、その影響はあらゆる業種に拡大します。自動運転車の安全性を高めたり、医療の転帰を改善したり、マーケティング担当者がより精緻な顧客ターゲティングを実施したりすることを実現させる潜在力があります。サイバーセキュリティでは、ネットワークセキュリティを向上させたり、脅威にリアルタイムで対応したりできます。さらに、AIエージェントの対話やAI主導のオートメーションの進歩によって効率が向上し、企業は絶え間なく変化する環境でも競争力を維持できるようになります。

強化学習に関するよくある質問

強化学習は、AIエージェントが環境からのフィードバックを通じて最適な結果を達成することを学ぶ、機械学習の一種です。これは、人間が試行錯誤を通じて、良いアクションから報酬を受け取り、望ましくないアクションから生じる負の成果を回避することで学習する方法に似ています。

どちらもAIに分類されますが、強化学習は実習と同様に、経験や環境とのやり取りを通じて学習します。従来の機械学習は通常、大規模なデータセットを解析してパターンを特定し、予測することで学習します。

主な構成要素には、AIエージェント（学習者）、環境（AIエージェントが動作する場所）、アクション（AIエージェントの動き）、状態（環境の現在の状況）、報酬（アクションのフィードバック）、ポリシー（AIエージェントの意思決定戦略）が含まれます。

このトレードオフは、AIエージェントの意思決定プロセスを指します。確実な報酬が見込める既知のアクションを選択すること（活用）と、より良い報酬を見つける可能性のために新しいアクションを試すこと（探索）の間でバランスを取ることを意味します。

強化学習は、カスタマーサービス向けのAIエージェント、マーケティングのパーソナライズ、エネルギー消費の最適化、ロボティクス、投資や取引の金融予測など、さまざまな分野で活用されています。

深層強化学習（DRL）は、ディープニューラルネットワークと強化学習を連携させたものです。AIは変数やシナリオの数が多い、複雑な現実世界の環境を処理できるようになり、AIの能力をさらに押し広げることができます。

AIエージェントの詳細と、AIエージェントがビジネスにどのように役立つかをご覧ください。

Guide

Agentforceで次のステップの準備を

AIエージェントをスピーディに構築

エージェント構築の仕組みをライブラリで詳しくご紹介します。

デモを見る

エキスパートのガイダンスを受ける

迅速かつ安心して導入でき、ROIを確認できる形でAgentforceを始めましょう。

詳細を見る

担当者にご相談ください

お客様のビジネスニーズをお聞かせください。その答えを見つけるお手伝いをいたします。

お問い合わせ

Agentforce 360

Agentforce

中小企業向け

Data 360

Agent 360 Platform

Slack

アナリティクス

カスタマーサクセス

Salesforceのパートナー

世界No.1のAI搭載CRM

世界No.1のAI搭載CRM

業種に特化したSalesforceのソリューション

業種に特化したSalesforceのソリューション

お客様事例

Trailblazer Stories

成功事例をご覧ください

成功事例をご覧ください

Agentforce World Tour Tokyo

Salesforce+でイベントを視聴（英語）

イベント情報

イベント情報

Trailhead で学ぶ

無料トライアルのご案内

はじめての方へ

サクセスナビ

関連リソース

Trailblazerになろう！

Trailblazerになろう！

コミュニティ

カスタマーサクセス

サポート情報

サポート情報

Salesforceのストーリー

企業理念

社会へのインパクト

採用情報

Salesforceのストーリー

Salesforceのストーリー

お問い合わせ

電話

オンライン

国または地域を選択

Americas

Europe, Middle East, and Africa

Asia Pacific

国または地域を選択

Americas

Europe, Middle East, and Africa

Asia Pacific

国または地域を選択

Americas

Europe, Middle East, and Africa

Asia Pacific

強化学習とは何ですか？

強化学習は従来の機械学習と何が違うのですか？

強化学習システムの主な構成要素は何ですか？

強化学習における探索と活用のトレードオフとは何ですか？

強化学習の実際の応用例にはどのようなものがありますか？

深層強化学習とは何ですか？

推論、トピック、指示、アクションに関するAgentforceガイド

エージェント型AIとは？

AIエージェントの構築方法

LLMとCopilotだけでは救えない：エンタープライズAIで失敗している理由

AIエージェントをスピーディに構築

エキスパートのガイダンスを受ける

担当者にご相談ください