Skip to Content

【シンギュラリティを問う Vol.2】生成AIからAIエージェントと世界モデルまで。AIの現在地とその可能性

AIの研究で20年以上のキャリアを持ち、博報堂DYホールディングスでCAIO(最高AI責任者)を務める森正弥氏に、今改めてシンギュラリティを考察してもらいました。連載でお届けする本企画の第2回は、現在進行中のAIの最前線を解説します。

前回の論考では、AIおよびシンギュラリティの起源から、生成AIの誕生に至る歴史的な流れを取り上げました。今回は、生成AIの発展と企業における実践的な活用事例、さらにそこから派生した推論AI(いわゆる Reasoning AI)や、目的に基づいて自律的にタスクを遂行するAIエージェントといった新たな潮流に注目し、現在進行中のAI進化の最前線について整理します。

企業向けAIエージェントの最新事情

AIエージェントの最新トレンドを解説。自社のAI戦略やロードマップをどのように描いていくかのヒントが満載です。ぜひご覧ください。

著者紹介森正弥
博報堂DYホールディングス 執行役員
Chief AI Officer、Human-Centered AI Institute代表
外資系コンサルティング会社、インターネット企業を経て、グローバルプロフェッショナルファームにてAIおよび先端技術を活用した企業支援、産業支援に従事。2024年より現職。東京大学 協創プラットフォーム開発 顧問、慶應義塾大学 xDignity センター アドバイザリーボードメンバー、日本ディープラーニング協会 顧問。著訳書に、『ウェブ大変化 パワーシフトの始まり』(近代セールス社)、『グローバルAI活用企業動向調査 第5版』(共訳、デロイト トーマツ社)、『信頼できるAIへのアプローチ』(監訳、共立出版)など多数。』(監訳、共立出版)など多数。

大規模言語モデル(LLM)の勃興とRAGによる応用

生成AIの登場以降、その技術進歩は爆発的です。「AIのゴッドファーザー」の一人ジェフリー・ヒントン氏やGoogle DeepMind共同創業者ムスタファ・スレーマン氏も、進化速度が想定を大幅に超えていると指摘します。

AIは日進月歩で加速し、毎週新しいソリューションが登場しています。このスピードは社会や産業の適応力を上回り、「ペーシング問題(Pacing Problem)」として懸念されています。企業が導入した直後に、優れた技術が無償公開され、キャッチアップが難しくなる例も少なくありません。

この進展の核は、大規模言語モデル(LLM)です。OpenAIやGoogle、Anthropicなどは強力なプロプライエタリモデルを提供し、個人とビジネスの双方で普及しています。OpenAIが2023年3月に公開した「GPT-4」は一部で「初期的AGI」と評され、Googleは長大コンテキストを処理するマルチモーダル「Gemini」シリーズを発表し、文書、コード、動画、音声などテキスト以外のデータを扱う道を拓きました。

Anthropicの「Claudeシリーズ」もコーディングやマルチステップワークフロー、画像分析で優れた性能を示しています。さらにMetaやMistralはオープンソースLLMを公開し、多様な活用を後押ししています。

LLMにおいて、パラメーター数などのモデル規模は性能に直結する大事な指標ですが、大きさの追求に限らない開発もあります。例えば、大規模なモデルの回答をベースに、効率的にコンパクトなLLMを構築する、いわゆる「蒸留(Distillation)」という技術は、後述する多様な「推論AI」の開発にも貢献しています。また、異なる専門領域を持つエキスパートを動的に呼び出す「Mixture of Experts(MoE)」も重要です。大規模モデルを専門モデルのサブネットワークに分け、関連エキスパートのみを選択的に使うことで、大規模モデルを効率運用できます。

MetaのLLaMA 4「Maverick」「Behemoth」、IBMの「Granite」、Mistralの軽量高性能モデル群などが採用しており、この構造により必要部分にだけ計算資源を割り当てられるため、推論速度とコストが大幅に改善するという方向も見出されました。

ビジネスにおけるLLMの実用性を高める技術として評価されているのが「検索拡張生成(Retrieval-Augmented Generation, RAG)」です。RAGでは、LLMが外部データベースやドキュメント、APIなどから実行時に情報を取得し、生成内容を補強します。この手法はハルシネーションを低減し、応答の整合性を高め、生成AIシステムを実運用で活用する際の信頼性向上に資すると評価されています。ゆえに、RAGは企業の情報検索、ナレッジマネジメント、企画支援など幅広い業務で活用されています。

RAGにナレッジグラフを組み合わせた「GraphRAG」という仕組みも登場しています。「GraphRAG」は、明示的な関係性を持つ構造化知識を用いることで、応答の整合性をさらに高めます。また、Googleの「NotebookLM」や、Googleドライブと「Gemini」の連携などにより、ユーザーが手軽にRAG機能を利用できる環境も登場しています。

ノーコードでRAGが組めて自社システムとの連携もワークフロー構築も可能なオープンソースプラットフォーム「Dify」なども出現し、RAG技術の導入障壁は大きく下がっています。

応用例として、博報堂テクノロジーズが提供するSaaS型サービス「Nomatica」があります。「Nomatica」は、RAGベースのアーキテクチャに、ユーザーが選んだ物流・法務・広報などの専門家エージェントを組み込み、商品企画やサービス設計におけるアイデア創出やレビュー機能を実現しています。このようなシステムは、Go-To-Marketのスピードを加速させ、研究開発や事業企画における突破口の発見にも貢献しています。

生成AIの領域を広げるマルチモーダル融合

また、生成AIはテキスト生成にとどまらず、画像・動画・3Dモデルまで対象を広げています。OpenAIの「DALL·E」、「Midjourney」、「Stable Diffusion」、Googleの「Imagen3」、Adobeの「Firefly」など画像生成AIは、すでに商用利用レベルの品質へ達し、デザインや広告制作のワークフローを刷新しています。

動画生成の分野では、OpenAIが2024年2月に公表した動画生成モデル「Sora」は、物理世界の動態を細やかに捉え、複雑なシーンを持つ動画を出力できる点が特徴です。他にも、Runwayの「Gen-4」、Luma Labsの 「Dream Machine」と2025年1月に登場した「Ray2」などがあります。Googleも高精度モデル「Veoシリーズ」や音楽生成AI「MusicFX」を発表し、生成AIの表現領域を広げています。

3Dモデル生成でも、画像からモデルを構築する「Meshy」、テキスト入力だけで3Dを作る「Tripo」、「Stable Diffusion」派生の「Stable Fast 3D」などが登場し、「Neural Radiance Fields(NeRF)」との融合研究も進みます。従来膨大な時間を要していたモデリング作業が大幅に短縮され、プロトタイピング速度を劇的に高められる点も見逃せません。さらには産業デザイン領域にも波及しつつあります。

こうした潮流から見えてくる重要トレンドが「マルチモーダル融合」です。テキスト・画像・音声・動画・3Dデータといった異なるモダリティを単一モデルで統合処理するアプローチで、OpenAIの「GPT-4o」は音声・視覚・テキストをリアルタイムに横断処理、Googleの「Gemini」やAnthropicの「Claudeシリーズ」も動画像理解で高性能を示し、Metaの「Llamaシリーズ」には「Scout」と「Maverick」というマルチモーダルモデルが加わりました。

これらの進展は、クリエイティブ産業における生成AIの本格導入を後押しし、パーソナライズされたコンテンツ生成支援においても大きな可能性を拓いています。

知的探索を可能にする推論AIと共感するデジタルヒューマン

生成AIの拡大・拡張に続き、AIへ推論能力を実装する取り組みが進んでいます。これはAIが確率統計的に情報を出力するだけでなく、自ら考えられるようにする試みです。

AIが複数ステップで思考を進め、結論に至る過程を構造化する「Chain of Thought(CoT)」という手法が発見され、さらに複数経路を生成し多数決で整合性を高める「自己一貫性CoT」などへ広がり、前述のRAGを発展させた「マルチターンRAG(Multi-turn Retrieval-Augmented Generation)」も登場しました。

従来は1回の検索で完結していましたが、この技術は対話文脈と履歴を踏まえ複数回検索し回答を精緻化できます。これらが組み合わさり、AIは一問一答を超え、連続的かつ複雑なやり取りの中でも探索と推論を織り交ぜた回答を構築できるようになりました。

こうしてAIは論理思考、因果理解、多段階問題解決を可能にし、推論AI(Reasoning AI)が誕生しました。推論AIは仮説構築や検証を含む知的作業にも活用され、人間の知的パートナーとなる基盤を築きつつあります。

具体例として、OpenAIの「o1」と「o3」、Googleの「Gemini 2.5 Pro」が挙げられます。またGoogleはユークリッド幾何学の難問を解く「AlphaGeometry」も公開しました。中国でもAlibabaの「Qwenシリーズ」や、パラメーターの重みづけをオープンソース化したDeepSeekの「R1」などが注目を集めました。

推論AIはセマンティックウェブ検索と結びつき、「ディープリサーチ」と呼ばれる調査AI機能を実現しています。o3、Gemini 2.5 Pro、X社(旧Twitter)のGrok、Perplexity AIなどは利用者の意図に沿って探索を計画し、数十〜百超のサイトを分析して資料作成まで一貫で支援します。

これにより企業リサーチの省力化と深度化が進み、市場動向や競合、技術調査など多様な領域で活用が始まりました。調査業務が常時化したことで組織の意思決定も高度化しつつあります。

推論能力の開発と並んで、対人インタラクションを高度に再現する技術も注目されています。生成AIの言語表現にメタバースやVTuberで培われた3D表現を融合して、「AIアバター」「AIコンシェルジュ」「AIアシスタント」「デジタルヒューマン」といった新しい対話型AIが登場しています。

例えば、「HeyGen」は高精度の音声ミラーリングとリップシンクを備えたアバターを提供し、「Aww」や「AVITA」は複数技術を統合して高度なデジタルヒューマンを実装しています。

これらの技術は視覚や音声の再現を超え、人間らしい感情表現や文脈理解、滑らかなUXの実現へ進んでいます。対話では人間の顔や表情を解析して反応に合わせ表情や言動を変える動作も実装され、「共感するAI」とも呼べる域に近づいています。

従来の一律的なアバター対応とは異なり、顧客接点でのコミュニケーション品質を飛躍的に高める潜在力があります。その結果、企業は顧客体験を深化させ、ブランドロイヤルティを高める新しい戦略を描けるようになりつつあります。

プラットフォームへの統合で創造性を高める

このような技術的進展を背景に、企業での生成AI導入も加速しています。McKinseyの調査では2024年初頭に企業の65%が生成AIを導入しており、Gartnerは2025年に顧客サービス部門の80%が生成AIを活用すると見込んでいます。

今後のカギは生成AIのプラットフォーム化です。企業はERPやCRMなど既存システムにAIを統合し、情報取得から意思決定、実行までを一気通貫で高度化しようとしています。広告業界でもこの動きは顕著で、クリエイティブやメディア運用をAIが横断的に支える試みが見られます。

グローバルアドエージェンシーのWPPは、110か国以上での展開を支える統合マーケティング基盤「WPP Open」を発表し、Anthropic、OpenAI、GoogleGeminiなどの生成AIを統合して広告制作、キャンペーン運用、効果測定までを支援し、制作速度とROIを高めています。

フランスのPublicis Groupeも2018年から業務統合プラットフォーム「Marcel」を開発し、AI技術群を扱う中核基盤「CoreAI」を構築、従業員の生産性向上を図っています。

日本では、筆者が所属する博報堂DYグループが統合型プラットフォーム「CREATIVITY ENGINE BLOOM」を開発しています。

これは、マーケティング戦略を支援する「STRATEGY BLOOM」、メディアプラニングとその効果最大化を担う「MEDIA BLOOM」、優れたクリエイティブを提供する「CREATIVE BLOOM」、購買体験を高度化する「COMMERCE BLOOM」、生活者との関係構築を促す「ENGAGEMENT BLOOM」の5つのモジュールで構成されます。各モジュールが連携し、生活者理解から施策実行までを一貫支援し、社員の創造性を引き出す「Human-Centered AI」機能も組み込まれています。

AIエージェントによる次のビジネス変革

企業におけるAI技術のプラットフォームへの統合が進む中、劇的に進展を遂げている領域が「AIエージェント」です。これは、ユーザーに代わってさまざまなタスクを能動的に遂行し、設定済みの目標達成を支援する自律知的システムを指します。

従来のAIは人間の指示に受け身的に応答するだけでしたが、AIエージェントはタスクや目標を自から理解し、計画を立案して状況を把握し、最適行動を選択・実行します。さらに結果から学び、環境変化にも適応できます。

AIエージェントの動作は、一般に「知覚(Perception)」「推論(Reasoning)」「計画(Planning)」「意思決定(Decision Making)」「行動(Action)」のループ構造を基本とし、そこに「記憶(Memory)」および「学習(Learning)」を加えることで高い自律性を実現します。この自律性はタスク特化型から自己目標設定が可能な汎用型まで幅広く存在します。

実装例には、OpenAIの「Operator」、Anthropic」の「Computer Use」や「Claude Agents」、Gensparkの「 SuperAgent」、中国のスタートアップ企業 Monicaの「Manus」などがあります。また前述した 「Dify」 のエージェントノードを使えば、AIエージェントを設計・実装することもできます。

これらAIエージェントは人に代わりアプリを操作し、情報検索、表計算、フォーム入力など一連のタスクを自動化します。ユーザーが「A社の情報を調べ、シートに整理し、フォームへ入力して検証まで行って」と指示すれば、アプリを横断しながら目標を達成します。

AIエージェントは、アイデア次第でさまざまな処理が可能です。旅行計画立案、会議の日程調整、ドキュメントやデータ分析など応用範囲は広く、大量の請求書PDFをZIPで受け取り、そこから数値を抽出してスプレッドシートへ整理するような煩雑な処理もこなせます。こうした処理は従来人手で数時間かかった作業を数分に短縮します。

専門タスクへの対応も進んでいます。例えば、「Claude Code」、Cognition AIの「Devin」、「Cursor」などのコーディングエージェントが登場。ライブラリやソースコード間の関係を分析しながら、プログラムの作成を支援し、テスト、デプロイまで自動で実行します。

2025年は「AIエージェント元年」とも呼ばれ、多くの産業でAIエージェント導入が始まっています。2025年末までに企業の約85%が導入を行うという調査もあります。AIエージェントは従業員業務の自動化を超え、ビジネスプロセス変革に至るまでの活用が視野に入っています。

カスタマーサポート24時間対応、サプライチェーン最適化、サイバーセキュリティの脅威対応、創薬における新薬発見など多岐にわたり、効率化に加えて価値創出と意思決定強化の成果が期待されます。

企業向けAIエージェントの最新事情

AIエージェントの最新トレンドを解説。自社のAI戦略やロードマップをどのように描いていくかのヒントが満載です。ぜひご覧ください。

フィジカルAIと世界モデルの融合による次の地平

これまで見てきたように、AI技術は「生成AI」「マルチモーダル化」「推論AI」「エージェント化」と加速度的に発展しています。企業はこれらを組み合わせ、独自プラットフォーム構築を強めています。応用先には「デジタルヒューマン」という新たなインターフェースも登場しています。この文脈で、今後、特に重要視されるのがロボティクスとAIの融合です。

この方向性を象徴するのが「フィジカルAI(Physical AI)」です。これは物理法則を理解し、現実の物理世界に直接作用して動作するAIです。自動運転車、スマートファクトリーのロボット、医療の手術支援ロボットなどが適用先で、AIは仮想処理にとどまらず物理的実行力を伴うことで実用価値を高めます。

フィジカルAI推進をリードするのがNVIDIAです。同社は強力なGPUと高度なシミュレーション基盤を組み合わせ、ロボティクス向けAI学習を支援する構想を掲げています。AIが物理空間での動作を仮想環境で学習・予測できるため、シミュレーション技術の重要度は一段と高まっています。

とはいえ、フィジカルAIには技術的な課題も残ります。典型例がAI判断と物理アクション間のレイテンシー(遅延)です。物理環境ではAIが「今」を把握して反応するだけでなく、「次に何が起こるか」を予測し先回りで動く力が不可欠です。これは従来の生成AIやLLMでは対応しづらく、新たな手法が模索されています。

この文脈でカギとなるのが「世界モデル(World Models)」です。AIが環境を観測し、構造と変化を内在化して未来を予測し、学習と意思決定に応用する枠組みで、AIに「想像力」を与える仕組みといえます。

世界モデルの端緒は2018年、デビッド・ハ氏(当時Google Brain、現Sakana AI CEO)とLSTM考案者ユルゲン・シュミットフーバー氏の論文「World Models」です。この研究は、自動運転シミュレーションでAIが周囲の状況を生成し、予測と行動決定に使うことで運転精度が向上することを示しました。

現代AI研究を牽引するヤン・ルカン氏も世界モデルの重要性を強調し、人間や動物の知能を人工的に実装するうえで不可欠と述べています。応用範囲は運動制御やナビゲーションにとどまらず、数学問題の解法や創造的な絵画制作など、高次の知的活動にも広がります。

要するに世界モデルは、特定タスク固有の世界の構造と因果を理解し、計画的に行動する力をAIに与えます。これによりAIは即時反応を超え、内的シミュレーションに基づく熟慮行動を獲得します。

世界モデルが導入されると、デジタルヒューマンとの対話も大きくレベルアップします。現在多くのAIキャラクターはトランシーバー的な交互応答ですが、世界モデルにより同時性と文脈適応が向上し、人間とAIが同時に会話しつつも、呼吸をあわせ、理解し合う体験が生まれます。

こうした世界モデルの進展は、ロボティクスにおける適応的行動の実現と、デジタルヒューマンの対話体験の洗練という二つのフロンティアに大きく貢献するとみられます。AIが現実世界で柔軟な対応力と豊かな想像力を備える存在へ成長する上で、この概念は中核技術になると予想されます。

共創的AIと人の創造性の拡張

AI技術は処理性能を高めつつ、人間社会で自律的に機能する存在へ急速に進化しています。冒頭で言及したジェフリー・ヒントン氏とムスタファ・スレーマン氏が語るように、一気に進化速度が不可逆的に爆発する技術的特異点(シンギュラリティ)に達しそうな勢いです。

しかし、AIの発展は自律判断・行動の高度化だけを意味しません。ビジネスや社会のインフラとして真に機能するには、自動化や効率化だけではない革新が肝になります。それは人間とのインタラクションをいかにクリエイティブなものにするかという方向性であり、それを通して、人の持つ暗黙知や創造力を解き放ち、生活者と企業の相互理解を深め、新たなコラボレーションを実現していくという道です。

例えばAIエージェントは従業員の暗黙知を引き出し、顧客とブランドの接点を増やして体験を深める共創的存在になります。この動きは組織文化の活性化や価値創出の速度向上にも寄与します。またRAGや推論AI、デジタルヒューマン、世界モデルの応用は、人との創造的インタラクションを高めます。博報堂グループも同方向に着目し、共創エージェント(Co-creation Agent)の開発・実装を進めています。

共創エージェントは、AIと人間が濃密な対話と共同作業を繰り返す中で、アウトプットをより高め、クリエイティビティを引き出し、相互に進化していくことを可能にします。AIと人間が新たな問いを立て、前例のないアイデアを生むには、受動的AIではなく閃きを共に創出するパートナーとしてのAIが不可欠です。

このような創造的協働の実現には、データの蓄積や過去の正解が通用しない領域への挑戦が伴います。創造的な問いやアイデアは既知のパターンから導き出されるものではなく、人間の直感や経験、感性といった非形式的知識からの生成が大切になるためです。ここでAIはデータ分析者やワークフロー実行者ではなく、創造的コラボレーターとして機能する必要があります。

この視点からすれば、AIは単なる道具やシステムではなく、人間の創造性を支援し、拡張し、共に未来を構想するパートナーとなるべき存在です。AIと人間のインタラクションがより自然に、より協調的なものとなることで、新たなビジネスの可能性や、より良い社会の構築へとつながっていくでしょう。

AIは人の創造性の発展にも貢献します。そして、そのAIの進化を導くのは人間です。AIと人の関係は一方向のものではない、双方向的で協力的であるという視点が鍵を握ります。

本稿では、AIの現在進行形の展開として生成AI、マルチモーダル化、推論AI、エージェント化、そして世界モデルについて論じました。次回は視点を未来に移し、注目すべきブレークスルーや技術的・倫理的課題を考察します。今後のリーダーシップや戦略はどうあるべきか。シンギュラリティは実現するのか、その後の世界はどうなるのか、といった根本的な問いについても踏み込んでいきたいと考えています。

関連記事

今、知るべきビジネスのヒントをわかりやすく。厳選情報を配信します