データレイクとは?
概要とメリットを解説

Forbesによると、企業の95%(英語)opens in a new windowは、非構造化データの管理に頭を悩ませています。また、Forresterのレポートでは、企業が保有するデータの73%(英語)opens in a new windowは、分析に使われていないことが判明しています。

経営者の94%が、データからもっと価値を引き出したいと切望しています。AIの時代が到来した今、データレイクの活用は喫緊の課題と言えます。この記事ではその方法を紹介します。

データレイクとは、大量のデータを元の形式のまま1か所に格納しておくための保管庫です。保管されているのは、大半が未加工のデータです。具体的には以下のようなものです。

  • SNSへの投稿と反応 
  • 画像
  • センサーデータ
  • ログファイル
  • 財務データ
  • 診療記録
  • IoTデータと、ドキュメント、メール、製品のレビューに含まれるあらゆるテキストデータ
  • その他いろいろ

データレイクには、構造化データと半構造化データopens in a new windowも格納できます。保管されたデータは、処理(クリーニング、整理、変換)を経て、アナリティクス、AI機械学習(英語)opens in a new window、顧客体験のパーソナライズに利用できるようになります。

また、データレイクに保管されたデータは、競合他社との差別化を図るためのインサイト源となるでしょう。実際に、データを活用している企業(英語)opens in a new windowは、顧客の獲得力と維持力を89%向上させています。ビジネスのトップに躍り出て先頭を走り続ける秘訣は、データの活用にあります。

さらに、データレイクを使えば、データの管理も簡単です。専門家の推定では、全データの80~90%(英語)opens in a new windowは非構造化データが占めています。つまり、非構造化データを処理・分析しなければ、ビジネスの全体像を把握することはできません。さらに、Forresteropens in a new windowは、2024年中に企業が管理する非構造化データの量は、2倍になると予測(英語)しています。データレイクは、非構造化データを処理・構造化せずに格納できるアジャイルな環境を安価で提供し、時間とコストを削減します。

利便性が高く、拡張性と費用対効果に優れたデータレイクを使って、企業はさまざまな方法でデータの可能性を余すことなく引き出せます。

  • データの一元保管
    データレイクなら、多種多様な未加工データを1か所で保管できます。複雑なデータ変換を実行したり、定義済みのスキーマ(特定の順序など)にデータを整理したりする時間と手間がかからず、データを簡単に保管して、活用できます。
  • データの統合・分析
    データレイクは、いわば情報の原石が詰まった宝箱であり、データ分析担当者は、そこから意思決定に役立つインサイトを引き出します。データレイクは、CRMやERPシステムなどの社内のデータと、WebサイトやSNSなどの社外のデータを集約します。すべてのデータを1か所にまとめることで、データの分断が解消(英語)opens in a new windowされ、ビジネスの健全性を把握し、顧客の全体像を捉えられます。Data Cloudなどのツールを使えば、データを統合し、顧客とのやり取りに利用して、データレイクへの投資を最大限に活用できるでしょう。
  • 信頼性の高いAIの実現
    データレイクを利用すれば、膨大で多様なデータを基盤としたAIプロジェクトを構築できます。顧客体験のパーソナライズ、予測、情報にもとづく意思決定、リアルタイムの提案を行うAIと機械学習モデルのトレーニングに最適な基盤を築くことができます。
  • 拡張性と費用対効果
    データレイクには、大量のデータ変換やスキーマの変更をすることなく、構造化データ、半構造化データ、非構造化データを格納できます。この柔軟性により、高額になりがちなデータの前処理作業が不要になり、ストレージと運用保守の費用を削減できます。さらに、データレイクにはデータリネージ(データのライフサイクル)、メタデータの管理、アクセス制御の機能もあるので、ガバナンスのリスクとコストも削減できるでしょう。クラウドベースのデータレイクなら、データの増加に応じた柔軟なストレージ容量の拡張も可能。従量課金モデルであれば、使用した量にのみ料金がかかるため、初期コストも抑えられます。

データの探索と分析

データレイクは、CRMやERPシステムからSNS、Web、モバイルアプリまで、多様なデータを1か所に格納する保管庫として機能します。データレイクにある大量の情報からは、データ分析の担当者による解析(英語)opens in a new windowや高度なクエリで隠れたトレンドが浮かび上がり、業務革新につながるインテリジェンスを引き出せるでしょう。

機械学習とAIアプリ

データレイクに格納されたデータは、機械学習モデルとAIアプリの開発やトレーニングに最適な基盤となります。アナリティクスとITのリーダーの9割(英語)opens in a new windowが、AIの精度はデータの質に左右されると考えています。AIを開発するには、正確で広範囲をカバーするモデルの構築に使える多様なデータが大量に必要です。データレイクは、機械学習のプラットフォームやフレームワークと連携するため、AIモデルのトレーニングと展開を効率的に管理できます。

データにもとづく意思決定

データレイクには幅広いソースのデータが統合されているので、リーダーはビジネスの状況を十分に把握したうえで、経営判断を下せるようになります(英語)opens in a new window。また、ツールを使ってデータレイクに格納された情報を検索、絞り込み、可視化することで、新商品の発表時期やコスト削減の対象、在庫調整の方法など、さまざまな課題の解決策を的確に判断できるでしょう。さらに、データレイクに取り込まれるデータを恒常的に分析すれば、リアルタイムで異常を特定し、新しいトレンドに先回りで対処できます。加えて、データレイクに格納されたデータでAIと機械学習モデルを強化すれば、意思決定を効率化する提案も得られるのです。

業界別のユースケースをいくつかご紹介しましょう。

  • 顧客体験(データ探索)小売業の場合、お客様とのやり取りはさまざまな場や手段で発生します。Webサイト、対面、SNS、モバイルなど。すべての顧客接点でデータを収集することで、一人ひとりに特化したオムニチャネルの体験を構築できます。
  • 顧客離れの予測(AIモデル)通信会社では、データレイクの顧客データ、通話記録、請求情報、SNSでのやり取りを統合。機械学習により、AIモデルを統合データを使ってトレーニングし、解約につながる要因を特定して、リアルタイムで顧客離れを防止することが可能に。
  • 患者の治療(意思決定)医療機関は、記録、画像、研究論文など、さまざまな種類のデータをデータレイクに格納できます。医療提供者が予測モデルを使って、患者の治療に役立てることができます。

データの取り込みと保管

データの取り込みは、さまざまなソースからデータを収集し、データレイクにインポートするプロセスです。たとえば、データベースから構造化データを、ドキュメントやSNSから非構造化データを、ログやセンサーの測定値から半構造化データを取り込みます。データは、順序を指定されずにそのまま格納されるため、元の状態のまま探索し、分析することができます。

データの処理と変換

データレイクに格納されたデータは、よりわかりやすく、分析しやすい状態にするための変換処理が施されます。データの絞り込みや結合、要約が行われ、有用なインサイトを発見しやすくします。この処理では、未加工の生データは表や列などの扱いやすい形式に変換され、精度の高い分析につながります。

データガバナンスとセキュリティ

データガバナンスとセキュリティは、データレイクアーキテクチャーの完全性を保つには不可欠。データガバナンスには、データを適切に管理し、コンプライアンスを順守するためのルールとプロセスが必要です。こうしたルールには、データの所有者、データにアクセスできるユーザー、データの保持期間などが含まれます。企業は暗号化、認証、認可などのセキュリティ対策を用いて、データを不正アクセスや盗難から保護します。

1. データレイク

  • 定義 – データレイクは、さまざまなソースから収集した未加工のデータを格納する、大規模な保管庫です。データの構造を定義することなく、そのまま格納します。
  • ユースケース – SNSのフィード、センサーデータ、ログファイルなどの多様なデータを大量に格納し、探索する場合は、データレイクが向いています。たとえば、医療機関は患者の記録、医療画像、研究データをデータレイクに格納できます。
  • 長所と短所 – データレイクは未加工のデータを元の形式で保管できるため、柔軟なデータ探索が可能です。しかし、データの質、ガバナンス、セキュリティを適切に管理しないと、混沌とした「データスワンプ」(データの沼)になってしまう可能性があります。

データレイクハウス入門

Salesforce Data Cloudは、データレイクハウス技術を基盤とする顧客データプラットフォームです。このトレイルでは、Data Cloudについて基礎からわかりやすく解説します。

2. データウェアハウス

  • 定義 – データウェアハウスは、通常は事前に定義された順序に従ってデータを処理・整理する、構造化されたデータベースです。データが表と列に整理され、クエリと分析を効果的に行えるように設計されています。
  • ユースケース – レポートの作成、ビジネスインテリジェンス、意思決定のために、過去のデータを分析する必要があるときは、データウェアハウスが効果的です。たとえば、小売企業はデータウェアハウスを使って、売上の傾向、顧客の行動、在庫管理を評価できます。
  • 長所と短所 – データウェアハウスではデータが構造化されるため、高速で信頼性の高いクエリを利用できます。しかし、大量の非構造化データや頻繁に更新されるデータを迅速に処理することはできません。

3. データレイクハウス

  • 定義 – データレイクハウスは、データウェアハウスとデータレイクの長所を併せ持っています。データレイクのように未加工のデータを格納し、さらに、データウェアハウスと同様に構造化されたデータも取り込むことができます。わかりやすいデータレイクハウスの例が、Data Cloudです。
  • ユースケース – データレイクの柔軟性と、データウェアハウスの構造化されたクエリ機能の両方を求めるなら、データレイクハウスがおすすめです。ハイブリッドなアプローチができるデータレイクハウスは、リアルタイムの分析、機械学習、データ探索に最適です。
  • 長所と短所 – データレイクハウスは、データレイクとデータウェアハウスの短所を補い、データレイクの柔軟性とデータウェアハウスの構造化されたクエリ機能を兼ね備えています。しかし、データレイクハウスの導入と管理は複雑になることがあり、入念な計画が必要になります。

データレイク、データウェアハウス、データレイクハウスの比較表

データレイクへの投資対効果を最大化させるのが、Data Cloud

ビジネスの世界では、データは付加価値を生み出す源泉であり、データを使いこなすことは競争優位に立つうえで不可欠です。データレイクは、大量のデータを未加工の状態で格納し、AIのイノベーション、顧客体験のパーソナライズ、情報にもとづく意思決定、リスクの軽減に活用できるようにします。データレイクとCRMを連携させるData Cloudなどのソリューションを導入すれば、ばらばらな場所で眠っているデータを徹底活用できます。この動画では、Data Cloudでデータレイクを有効に活用する方法を紹介しています。ぜひご覧ください。

新登場 Data Cloud

世界No.1のAI搭載CRMとネイティブ連携する、唯一のデータプラットフォーム