
著者紹介:森正弥
博報堂DYホールディングス 執行役員
Chief AI Officer、Human-Centered AI Institute代表
外資系コンサルティング会社、インターネット企業を経て、グローバルプロフェッショナルファームにてAIおよび先端技術を活用した企業支援、産業支援に従事。2024年より現職。東京大学 協創プラットフォーム開発 顧問、慶應義塾大学 xDignity センター アドバイザリーボードメンバー、日本ディープラーニング協会 顧問。著訳書に、『ウェブ大変化 パワーシフトの始まり』(近代セールス社)、『グローバルAI活用企業動向調査 第5版』(共訳、デロイト トーマツ社)、『信頼できるAIへのアプローチ』(監訳、共立出版)など多数。』(監訳、共立出版)など多数。
シンギュラリティとは何か
近年、AIは多岐に渡る領域で進化を遂げています。広告領域でのマッチング、医療での診断補助、自動運転車での操縦など、その適用範囲は広がるばかりです。
特に生成AIは、文章から画像や音楽、動画、 企画、プログラムまで作成できる性能を示し、AIエージェントという次の段階を見据えて日々高度化しており、 従来の人が行っていた知的生産活動や創作活動に革新をもたらしています。
さらに「汎用人工知能(Artificial General Intelligence=AGI)」や「人工超知能(Artificial Superintelligence=ASI)」の実現も視野に入り、「シンギュラリティ(技術的特異点)」の到来が現実味を帯びて語られるようになってきました。
シンギュラリティとは、技術の進歩が指数関数的に加速し、人間の制御や予測が困難となる仮説上の時点を指す概念です。最もよく知られたシンギュラリティの定義は数学者のI.J.グッド氏が1965年に示した「知能爆発(Intelligence Explosion)」モデルです。
これによれば、自らの性能を自己改善によって向上させることができる知的システムが登場した場合、それはやがて改善を繰り返す自己強化のサイクルに入り、進化速度が爆発的に高まることになります。
そして最終的には、人間の知能を遥かに凌駕する超知能へと至るとするものです。この未来像は荒唐無稽なSFというわけではなく、十分に到達する可能性がある将来の姿として、現在のAI技術が直面する倫理的・制度的課題と合わせて議論されており、人間と機械のあるべき関係性についての再考を迫る哲学的問題群と深く関係しています。
AIエージェントとは。
この記事では、AIエージェントとは何か、なぜ注目を集めることになったのかについてわかりやすく解説しています。

AIとシンギュラリティの誕生
このような将来展望を論じるには、まずAI技術の発展の歴史を振り返る必要があるでしょう。
AIの歴史は、アラン・チューリング氏が1950年に著した「計算機械と知能(Computing Machinery and Intelligence)」という論文の中で「機械は思考できるか?」という問いを立て、機械の振る舞いが人間のそれと区別できるかどうかで判定する「チューリングテスト」という方法を提唱したことに、萌芽を見ることができます。
そして、1956年に開催された「ダートマス会議」にて、ジョン・マッカーシー氏らによって「Artificial Intelligence(人工知能)」という用語が提案され、AIは学術的研究分野としての地位を得ることになります。
1960年代にはAI関連の研究も増え、第一次AIブームが到来。推論アルゴリズムや探索技術の開発が進み、チェスや数学の定理証明など、特定の問題に対して解を提示できるようになりました。また、自然言語処理を用いて対話を行うプログラム「ELIZA」の登場などいくつかの成果がありました。
当時の研究者たちは、AI開発の未来に極めて楽観的な見通しを持っていました。「20年以内に機械は人間ができることのすべてを実現できるようになる」と断言する専門家もいました。ダートマス会議の発起人の一人で、「AIの父」とも言われるマービン・ミンスキー氏も「3〜8年以内に平均的な人間の知能を備えたAIが登場する」と述べていました。
シンギュラリティも、AIの登場・発展とともに形作られてきた概念と捉えることができます。そもそもチューリング氏が、知的機械が人間と区別できない振る舞いをする可能性に取り組んだことがAIの起源でもあり、「人間の制御を超える機械」という考え方は最初から存在していました。
そして、シンギュラリティという用語の萌芽は、物理学や経済学、計算機科学など、幅広い領域に業績を残した数学者のジョン・フォン・ノイマン氏に帰されます。1950年代初頭、彼は「ある種の時点を超えれば、社会はこれまでと同じではいられない」と述べ、技術発展が引き起こす「人類社会の構造的転換点」を指摘し、それをシンギュラリティと名付けました。
このように、AIの可能性に対する楽観的な期待に、呼応して語られた進化に対する不安や予測不能性の感情が合わさり、シンギュラリティという概念が形成されていきました。AIはその黎明期において、すでに希望と懸念を表裏一体で抱かれる存在であったと言えるでしょう。

AIブームと冬の交錯
しかし、期待とは裏腹に、第一次AIブームは早々に世間の失望に直面します。当時のAI研究は演繹的推論に偏り、現実世界のタスクが持つ複雑性に対してアルゴリズムはあまりにも単純でした。
また、必要とされる計算資源も不足していました。パターン認識や画像認識、機械翻訳などの自然言語処理も当初の予測に反して実用化が困難と判明し、「AIの冬(AI winter)」と呼ばれる関心の低迷期に突入します。
1980年代に再びAIの期待が高まる第二次AIブームが起こりました。この時期においては、ルールベースによる、専門家の判断を模倣するエキスパートシステムが開発され、一定の実用的成果が見られました。
このシステムは、特定の専門分野における知識をコンピュータ上に構造化された形で取り込み、推論機構によって条件に応じた専門的判断を下すことを実現したものです。複雑な問題の解決もある程度可能になり、第一次AIブームではできなかった課題解決への応用が期待されました。
しかしながら、このアプローチもまた限界を露呈します。知識ベースの構築および保守に要する多大な労力や、推論の柔軟性や適応性の欠如といった問題が顕在化したのです。
結果として、1990年代初頭にはAIへの期待はまたもや減退、再びAIの冬を迎えることとなりました。この時期にはシンギュラリティへの関心も萎み、非現実的な幻想あるいは過剰な懸念と見なされるようになりました。

第三次AIブームと機械学習のパラダイムシフト
AIの潮流が再び盛り上がりを見せたのは、1990年代後半からの第三次AIブームの到来です。
背景には、インターネットの普及と付随して様々なデータが利用可能になったという変化があります。大量のデータを用いた「統計的機械学習(statistical machine learning)」の手法が有効性を示し、従来のルールベースの知識工学とは異なるAIの道を拓きます。データを学ぶことでモデル化を行う機械学習は、特に画像処理や自然言語処理の分野で顕著な成果を挙げるようになりました。
この時期には、「e-Science」という新たな研究方法論も登場しました。e-Scienceとはインターネットを用いて情報収集や協働を行って研究を進めていく新たなスタイル全般を指す言葉です。
注目されたのは膨大なデータを用いて知識発見を加速させていく副次的効用であり、この流れの中で、「アルゴリズムを大きく変えずに、学習データの量を増やすだけでAI(モデル)の性能が上昇する」という現象が報告され、AI活用との親和性も見出されました。
特に画像認識タスクにおいて、従来のスケールを大きく超える数百万枚単位の画像を訓練データとして用いることで、精度の劇的改善が観察されました。このような知見は、今から振り返ると、機械学習ベースのAIが単なる道具や支援技術ではなく、ブレークスルーを内在する進化系の技術であることを示唆していたとも思います。同時に性能の非連続的な上昇の現象は、シンギュラリティの理論を想起させるものだとも言えます。
そしてシンギュラリティをめぐる議論も再び活況を呈することになります。きっかけはレイ・カーツワイル氏による著書『The Singularity Is Near』(2005年)の出版です。彼はこの中で、シンギュラリティは2045年に到来すると予言し、「収穫加速の法則(Law of Accelerating Returns)」という技術の指数関数的進化を提示しました。
この予測は、インターネットおよびデータに基づくAIの発展が、未来社会へ巨大なインパクトを起こすかもしれないと世論の関心を捉え、以降のシンギュラリティ論に影響を与えることになります。
カーツワイル氏の見解は賛否を呼び、専門家の間でも見解は分かれましたが、AIブームの復活とともにシンギュラリティへの関心が再燃したことは重要なポイントです。

ビッグデータとディープラーニングによる飛躍
2010年代に入ると、クラウドや分散処理技術の発展から活用するデータ量が増大し、「ビッグデータ」という用語が生まれ、またディープラーニング研究の進展によるモデル性能の飛躍が確認されたことで、AIはかつてない進化を遂げることになります。
2012年には、画像認識コンテスト「ILSVRC」にてトロント大学教授のジェフリー・ヒントン氏が自身の研究室の学生と開発した「AlexNet」というモデルで、次点を大きく引き離す高得点で優勝して注目を集めます。ちなみに、このとき開発に参加した学生の一人が、後のOpenAIの共同設立者であり、チーフサイエンティストであったイリヤ・サツケバー氏です。
これ以降、画像認識による不良品の発見や顔認識サービスの登場、検索エンジンや広告配信技術の精度向上、顧客データの分析によるインサイトの発見等、AIのビジネス適用も進んでいきます。
この時期から、AIモデルの性能が「大量のデータによる学習だけで飛躍的に向上する」という知見が一般に広まっていきます。特筆すべきは、この性能向上が単なる「綺麗なデータ(クリーンデータ)」による学習に依存していたわけではないという点です。
当時、筆者はある物流企業でのディープラーニングによる画像認識を使った配送オペレーションの最適化に関わっていました。そこで試行錯誤を繰り返した結果、サンプル画像を綺麗な形で整備して訓練したモデルよりも、現場でのさまざまな条件下の中で撮影したバラバラな画像から訓練したモデルのほうが遥かに高い認識性能を示したということがありました。
これは、学習データにノイズを導入したほうが、現実の問題を取り扱うAIモデルの汎化性能を高めることができることを意味し、データ整備の定石に反するものでした。
通常、学習データは前処理によってノイズを取り除き、整理された形でモデルに与えるのが常識です。しかし、実社会の解くべき問題においてはさまざまな状況が存在し、多様性に満ちたデータの分布に直面します。
このような現実世界の複雑さに適応するためには、優れた例だけでなく例外やノイズ、意図しない誤差も含め、失敗や異常値に関するデータも学習対象にする必要があります。
結果として、できる限り現実に近いデータを丸ごと学習したほうが性能が高くなることになります。事実、自動運転車を開発する Waymo が2019年に発表した論文でも、優秀なドライバーの運転データだけでなく、スキルの低いドライバーのデータを含めた方が運転AIの性能が向上したことが報告されています。
この知見は、いかに大量のデータを投入してモデルを構築するかという現代の主流でもあるAI開発手法に通じます。そして、このディープラーニングの性能の非線形的飛躍、特にノイズも取り込む汎化は「収穫加速の法則」を思わせ、シンギュラリティの実現可能性を後押しする材料となりました。

スケーリング則から生成AIへ
ディープラーニング技術の発展は2010年代後半以降、産業界における幅広い実装を生み出し、ビジネスの進化につながりました。特に、AIは製造における需要予測、マーケティングにおけるパーソナライゼーション、金融での不正検知や信用度スコアリング、スマートシティでの多様なリソースの最適化など、社会に新しい価値をもたらすインフラ技術であるとの認識が広がりました。
この流れの中で、ディープラーニングのモデルアーキテクチャ自体も進化を遂げます。
初期には「畳み込みニューラルネットワーク(CNN)」が広く使われ、画像認識分野において成果を挙げましたが、その後、「リカレントニューラルネットワーク(RNN)」や「長短期記憶モデル(LSTM)」による時系列データへの適用が進み、さらなる展開が可能となりました。
とりわけ2017年に提案されたTransformerアーキテクチャは、自然言語処理の性能を飛躍的に高め、現在の大規模言語モデル(Large Language Models=LLM)の構築へつながっています。
2020年頃には、AIの性能向上に関して新たな知見が共有されるようになります。いわゆる「スケーリング則(Scaling Laws)」です。大量のパラメータを持つモデルに対して、膨大な学習データ量と計算資源(特にGPU/TPU)を投入することで、性能が爆発的に上昇していく経験則であり、OpenAIをはじめとする研究機関がその有効性を立証していきました。
その結果、生み出されたのが、生成AI(Generative AI)です。生成AIはこれまでの分類・識別・予測といった「分析的AI」機能を超え、人間の創造活動、すなわち言語生成、画像生成、音楽生成、コード生成などを模倣・支援・拡張する技術群として登場しました。
ディープラーニング登場時と同じく、生成AIのブレークスルーも画像から始まりました。
2015年にSohl-Dicksteinらにより、拡散過程(Diffusion Process)を生成モデルとして使う手法が提案されます。その後、2020年に大規模化するGPUインフラのトレンドにあわせて「DDPM(Denoising Diffusion Probabilistic Models)」が登場。これを契機に、「Midjourney 」や「Stable Diffusion」といった画像生成AIが構築されることになり、誰もが豊かな表現力での画像生成を行えるようになります。
そして、OpenAI による2022年11月の「ChatGPT」 公開を契機として、LLMの活用が進み、対話的な知識生成、創作支援、業務支援等で社会的インパクトを与え、第四次AIブームとも呼べる生成AIブームが始まりました。
このブームの背景には、単にアーキテクチャの高度化やスケーリング則による性能向上、GPUインフラの整備といった技術的要因だけが存在するわけではありません。
特に、初期のChatGPTの普及においては、RLHF(Reinforcement Learning from Human Feedback:人間のフィードバックからの強化学習) と呼ばれる手法の貢献が欠かせません。RLHFは人間の評価者がAIの生成した応答に対してフィードバックを与え、その評価を学習に反映することで、AIの応答をより人間の価値観に準じた安全で有用なものへと調整する手法です。
このRLHFの適用により、ChatGPTは自然な対話体験をもたらし社会受容が進み、公開2か月で1億ユーザーの獲得という未踏の記録を打ち立てたのです。人間のフィードバックがブレークスルーに直結したというのが鍵です。生成AIは人間とのインタラクションによって実現されたとも捉えられ、AIと人間との間に競合ではなく共創的な関係を築ける可能性が内包されているとも言えます。
今回は、AIとシンギュラリティの起源から生成AI誕生までを扱いました。次回以降は、生成AIの発展や、生成AIをベースに推論を行う推論AI(Reasoning AI)、そして、今後普及していく、目的を考えて行動することでタスクを遂行するするAIエージェントについて取り上げつつ、現在のAI進化の最前線について解説します。AI技術はますます人間社会の中で自律的に機能する存在へと進化していきますが、人間とのさらなる共創関係の模索についても考察できればと思います。
企業向けAIエージェントの最新事情
AIエージェントの最新トレンドを解説。企業がAIを効果的に導入し、顧客との信頼関係を築くための具体的な方法を紹介します。
