データマイニングとは、コンピュータを使って膨大なデータからパターンやルールを分析し、未知のルールや有用な知識を発見することです。
ICTの発展に伴って扱うデータ量が増え、データ分析や活用を推進している企業が増えていますが、十分にデータを活用できていない企業も多いでしょう。膨大なデータを活用するためには、データ起点の分析を行なうデータマイニングが重要です。
本記事では、データマイニングの意味と手法、活用事例を紹介します。データの活用を促進して企業に利益をもたらしたい方は、参考にしてみてください。
データ分析の始め方
組織や事業の現状を把握する上で、重要となるのがデータ分析です。しかしやり方を誤ると課題を特定出来ず次の行動に繋がりません。本動画ではデータ分析を始めるうえで考えるべきことをご紹介いたします。

目次
データマイニングとは

データマイニングとは、コンピュータを使って大量のデータを分析し、有用な知識や知見を抽出する手法です。大量のデータから、人が見ただけでは見出せない未知のルールやモデルを発見するために用いられます。
AIやデータ分析ツールなどのコンピュータを活用することで、統計学やパターン認識にもとづいて、大量のデータから知識や知見を取り出します。
マイニングとは「発掘」を意味し、データマイニングはデータという鉱山から鉱脈を発掘するイメージに近いでしょう。
なお、テキストデータが対象の場合は、テキストマイニングと呼びます。また、Webページやデータベースから知識を発掘する場合は、KDD(knowledge-discovery in databases)と呼ばれることがあります。
データ分析との違い
データマイニングは、データ分析という大きな枠組みに位置づけられる手法のひとつです。手法や目的に明確な違いがあるというより、技術の進歩によって、道のパターンの発見や大量データ処理など、高度かつ大規模なデータ分析が可能になったといえます。
従来のデータ分析は、限られたデータを対象に、人が理解しやすい形で傾向や関係性を探るものでした。コンピュータの処理能力やストレージ、データ収集手段などに制約があったためです。
一方、データマイニングは、膨大なデータを対象に、人間では気づけないパターンや関係を自動的に発見できます。近年の技術進歩により、大規模なデータを高速に処理・分析できるようになったためです。
このように「扱うデータ量の飛躍的な増加」と「より高度な分析の実現」という点において、データマイニングは従来のデータ分析を深化・発展させた手法といえるでしょう。
機械学習との関係
データマイニングは、機械学習のモデルのトレーニングに活用されることがあります。
機械学習とはAI(人工知能)の構成要素のひとつで、コンピュータに膨大なデータを読み込ませたうえで、さまざまな計算方法や思考方法(アルゴリズム)に従ってルールやパターンを発見する仕組みです。
学習結果にもとづくモデル(ルールやパターンなどの規則性)に従って、新たなデータに対して予測・判断などを行ないます。ここが、データマイニングと異なる点です。
このように、データマイニングと機械学習には密接な関係がありますが、データマイニングは知識発見と人間の意思決定支援が主な軸で、一方、機械学習は発見パターンから予測モデル構築や自動判断も目指します。
データマイニングによって得られる知識とは

データマイニングによって得られる知識は、DIKWモデルにおける「情報」や「知識」にあてはまります。
DIKWモデルとは、1989年にAckofが発表した5つの思考分類をもとに、2004年にBellinger らが改良した思考モデルです。DIKWモデルは、データが知恵まで昇華されるプロセスを示し、各階層の関係性を明確化しています。
具体的には、DIKWモデルは下記の4つの要素で構成されます。
階層 | 概要 | 具体例 |
---|---|---|
データ(Data) | 分析の結果得られた数値や文章、音声などそれ自体では意味をもたない記号・シンボル | 売上高、1,000万、2024年 |
情報(Information) | データを整理・分析して、解釈ができるようにしたもの | 2024年の売上高は1,000万円である |
知識(Knowledge) | 情報から得られる傾向や知見 | 過去3年間のデータから、売上が毎年10%増加している |
知恵(Wisdom) | 知識を体得することで養われる発想力や問題解決能力 | 市場成長率を考慮し、2025年には新規事業を展開することで更なる売上増加が見込める |
データマイニングでは、コンピュータに整理・分析させることで、データから情報・知識への昇華プロセスを簡略化できます。人間は、データマイニングによって得られた知識をもとに知恵を身につけることで、迅速に問題解決や意思決定を行なえるでしょう。
なお、AIを活用したデータマイニングは、人間が効率的に「知識」を獲得し、それを元に「知恵」を生み出す強力な手段となります。
データマイニングの6つのプロセス

データマイニングのプロセスは、CRISP-DM(CRoss-Industry Standard Process for Data Mining:データマイニングの業界標準プロセス)のなかで、6つに分けられます。
- ビジネスの理解
- データの理解
- データの準備
- モデリング(分析)
- モデリングの評価
- 獲得知識の展開・反映
CRISP-DMは、1999年に海外企業が協力してまとめたデータマイニングの方法論です。先駆かけてデータマイニングを実践・研究してきた企業たちによるノウハウであるため、信頼性が高く、ビジネス分野で広く活用されています。
本記事でも、CRISP-DMにもとづいてデータマイニングのプロセスを解説します。
1.ビジネスの理解
まずは、ビジネス視点でデータマイニングの役割と効果を明確化する必要があります。
たとえば、顧客をセグメントに分けて購買行動を分析し、最適なマーケティング施策を実施するためにデータマイニングを行なうのであれば、ビジネス視点です。
一方「クラスタリングアルゴリズムを使って顧客をグループ分けする」というのは技術視点であり、データマイニングが目的となっています。
「ビジネスの理解」では、ビジネス視点で役割や効果を考えなければ役に立たない結果を生み出すリスクがあるため、注意が必要です。
ビジネスへの理解を深めたら、目標の達成に必要な分析を洗い出して、データマイニングの目標を設定し、実施計画を立案しましょう。
2.データの理解
次に、分析に使用する初期データをデータベースに収集して、整理を行ないます。
データの整理とは、データの意味を確認・理解したり、データ品質の問題点を洗い出したりする作業です。データを整理してみると、データマイニングによって発見できそうな知識に対する仮説を立てられるはずです。
なお「データの理解」を入念に行なうことで、次の「データの準備」を効率化できます。
3.データの準備
データの準備は、データマイニングの60~80%を占めるといわれるほど重要なプロセスです。
データマイニングの対象となるデータを選択し、データセットとして用意します。このとき、データクレンジングを実施し、データのノイズや欠損を排除して「モデリング(分析)」に適した形に整えます。
4.モデリング(分析)
モデリング(分析)では、データマイニングを実行して、モデルを構築します。モデルとは、データを使って答えを導き出すための計算方法です。
適切なアルゴリズムや分析手法を選択する必要がありますが、AIならデータセットの特性にもとづいて分析手法を自動で選択できるケースもあります。ただし、AIの選択が必ずしも正しいとは限らないため、人間によるチェックが欠かせません。
モデルが構築できたら、性能を評価し、改良を繰り返しながらより精度の高いモデルにブラッシュアップしましょう。
5.モデリングの評価
次は、構築したモデルだけではなく、実務において適切に機能するかを検証して、ビジネス目標との適合性を評価します。
また「モデリング評価」までのプロセスを振り返って、ミスや間違いがなかったかも確認します。ミスや間違いが発見されたのであれば、再分析が必要です。
問題がなければ、次のステップに進みます。
6.獲得知識の展開・反映
最後は、データマイニングによって得られた知識をビジネスに反映します。
たとえば、データマイニングで顧客購買データを分析したところ、特定のサービスセットが一緒に購入されるケースが多いことが判明したとしましょう(獲得知識)。この知識から、特定サービスのセット割引キャンペーンを実施すれば、購入を促進できる、という仮説が生まれます。
獲得知識の展開や反映方法は、当初のプロジェクトの目的によって異なり、多岐にわたります。
うまくいけば、同様のモデルを活用してマーケティング施策を練ることが可能です。ただし、モデルがいつまでも有効とは限らないため、定期的なチェックとモデルの再構築が求められます。
データマイニングの代表的な手法

データマイニングにおける分析手法には、さまざまな種類があります。
ここでは、代表的な分析手法を4種類紹介します。
- アソシエーション分析
- 決定木分析
- クラスタリング
- ロジスティック回帰分析
データマイニングでは、データの特性に合わせて適切な分析手法を選択しなければ役立つ結果を得られません。分析手法の知識を身につけて、選択時に活かしましょう。
アソシエーション分析
アソシエーション分析は、大量のデータから統計的なパターンや、関連性を抽出するデータマイニングの手法です。
購入履歴データから、商品やサービス間の関連性や同時性を見つける際に活用できます。たとえば、Aを買うユーザーは同時にBも買うという同時性を発見できれば、マーケティングキャンペーンの構築や、ターゲット層の嗜好分析に活かせるでしょう。
なお、ユーザーの購買行動にのみ着目して購入商品の同時性を見いだす分析手法は、マーケット・バスケット分析と呼ばれます。
アソシエーション分析を用いたシステムがレコメンデーションです。レコメンデーションは、ユーザーデータを分析して興味をもつ可能性が高い商品・サービスをおすすめする仕組みです。
以下の記事では、レコメンデーションを活用して大きなマーケティング効果を生み出した株式会社三越伊勢丹さまの事例を紹介しているので、あわせてご覧ください。
事例:国内首位の百貨店企業がギフト特化型ECサイトを新設 2年でレコメンデーションの売上3.2倍を達成
決定木分析
決定木分析は、過去のデータから決定木(樹形図)を構築して、分類・予測を行なうデータマイニング手法です。決定木は、大量のデータを分類する規則に該当し、より分類能力が高い項目が上位に来るように構成します。
たとえば、以下の項目で構築された顧客情報のデータセットがあるとします。
- 顧客番号
- 性別
- 職業
- 収入
- アウトドアに対する嗜好(好き/嫌い)
- 住宅の保有状況(あり/なし)
決定木分析を活用することで、顧客情報のデータセットをもとに、新たなデータにおける「住宅の保有状況」を予測するモデルの構築が可能です。
決定木分析を応用すれば、ホットリードや顧客ロイヤリティの高いユーザーの属性などを明らかにできます。
クラスタリング
クラスタリングとは、特定の属性に着目して、データ間の距離にもとづく類似性を発見し、クラスタ(集団)に分類するデータマイニング手法です。
たとえば「年齢」と自社が提供するサービスの「契約月数」という2つの項目から構成される顧客データがあります。データに沿って表に点を打つと、2項目にもとづく分布がわかります。
点の距離が近いもの同士をクラスタとしてグルーピングすることで、ユーザーの類似性を明らかにできるわけです。もっとも人数が多いクラスタに対してほかの分析手法を活用すれば、ターゲット層に合わせたマーケティング施策を構築できます。
ロジスティック回帰分析
ロジスティック回帰分析とは、複数の要因をもとに、特定の事象が発生する確率を予測するデータマイニング手法です。
たとえば、サービスの新規登録者を対象とした20%オフキャンペーンの告知をSNSで行なった場合を考えます。ロジスティック回帰分析を用いて反応率が30%と予測されれば、10人のうち3人はキャンペーンを利用する見込みがあると判断できます。
反応率が悪いという予測結果が出れば、採算性と照らし合わせたうえで、キャンペーンの実施を取りやめるというように、意思決定のサポートが可能です。
ただし、ロジスティック回帰分析の分析結果が必ずしも正しいとは限らないため、過信には注意しなければなりません。
データマイニングの活用事例

データマイニングは、さまざまな分野で広く活用されています。
たとえば、流通・小売分野では、新製品のヒット要因の分析や、品物の売れ行き要因分析の手段としてデータマイニングを活用しています。
あるいは製造分野では、製造工程を改善するために、現場における製造条件と製品の検査結果を突き合わせるという形でデータマイニングを行なっているのです。
データマイニングの用途は幅広く、人間の力だけでは発掘できないビジネスにおけるヒントをもたらします。
データマイニングを成功させるポイント

データマイニングを成功させるためには、次の3つのポイントに留意が必要です。
- データウェアハウス(DWH)を整備する
- データクレンジングを実行できる環境・体制を整備する
- データマイニングツールを導入する
データマイニングを実践する前に、ポイントを確認して準備を整えましょう。
データウェアハウス(DWH)を整備する
データマイニングでは、分析結果の精度を高めるために、データウェアハウス(DWH)の整備が必要です。データウェアハウスとは、目的に合わせて最適化されたデータがまとめられたデータベースを指します。
企業のあらゆるデータを統合して、整理したデータベースにデータをまとめておくことで、データマイニングを効率的かつ効果的に実行できます。
また、データの安全性を高めるために、セキュリティレベルの高いデータウェアハウスの整備が必要です。
データクレンジングを実行できる環境・体制を整備する
データマイニングでは、データを最適化するために、データクレンジングが重要です。データクレンジングとは、データの不正確性や欠損を修正し、重複を削除することで、データの正確性を高める作業です。
データクレンジングを実行するためには、専用の機能をもつツールを確保して環境を整備するとともに、人材を確保し、体制を整える必要があります。
データマイニングツールを導入する
データマイニングでは、大量のデータを扱うため、マイニングツールの利用が不可欠です。
CDPをはじめとするデータプラットフォームやデータの可視化が得意なBIツールには、データマイニング機能が付与された製品が多くなっています。ビジネスでの利用を想定しているため、セキュリティが高い点がメリットです。
すでに、自社で使用しているCRMやSFAなどがあれば、連携できる製品を導入すると、データの統合もできるでしょう。
データマイニングを成功に導くBIツール『Tableau』

『Tableau』は、あらゆるシステムやファイルからデータを統合し、AIによる分析によって重要かつ実用的なインサイトを引き出すデータ分析プラットフォームです。
『Tableau』は、多様なデータを統合し、直感的な操作と高度な分析機能によって、相関分析や回帰分析といったデータマイニングの実行を支援します。データの分類や過去のデータからの予測を容易にし、マーケティング施策の立案・改善に活かすことが可能です。
会話型AIはアシスタントとして活躍し、データの整備から探索・分析など、あらゆる作業と意思決定をサポートしてくれるでしょう。
『Tableau』は、無料でお使いいただけるトライアルがありますので、ぜひ使用感をお試しください。
Tableau の無料トライアルを始めましょう
無制限のデータ探索と発見が今、始まります。

まとめ:データマイニングを実行して意思決定の質と速度を向上させよう

データマイニングを実行すると、コンピュータを活用して膨大なデータから有用なルールやパターンを発見できます。発見した新たな知識をもとに考えることで、自信をもって施策の立案・改善ができるでしょう。
データにもとづく取り組みが定着すれば、判断の質と意思決定スピードの向上を期待できます。
データマイニングを定着させるためには、データマイニング機能を搭載したデータプラットフォームやBIツールの導入が不可欠です。
『Tableau』は、あらゆるシステム・ファイルからデータを統合できるAI搭載型のデータ分析プラットフォームです。AIのサポートがあるため、専門的な知識がなくてもデータマイニングを容易に実行できます。無料トライアルで、ぜひお試しください。
データ分析・活用の専門的な知識がない場合は、AIによるサポートも必要です。以下の資料では、AIを活用して業務効率を向上させるヒントを紹介しているので、あわせてご覧ください。
データとアナリティクスの最新事情レポート
AI時代に最適なデータ管理と意思決定を明らかにするため、10,000名以上のアナリティクス、IT、事業部門のリーダーに調査を実施致しました。
