AIの機械学習におけるクラスタリングとは、類似度にもとづいてデータセットをグループ分けすることです。ビジネス上では、顧客のセグメンテーションや市場調査のようなデータ分析に活用されています。
しかし、定義や種類、手法まで詳しく理解できているという方は多くありません。
この記事では、クラスタリングの種類や手法について詳しく解説します。
導入するメリットや活用事例も紹介しているため、業務にAIの導入を検討している方は、ぜひ参考にしてください。
スペシャルレポート :
中堅・中小企業のトレンド
現代の企業成長に欠かせないキーワード、データ・CRM・AI。中小企業のリーダーはこのような最新トレンドに適応しながら、マーケティング・営業・カスタマーサービスのすべてのビジネスをどのように強化し続けているのでしょうか。

目次
AIの機械学習におけるクラスタリングとは
AIの機械学習におけるクラスタリングとは、学習データに正解を与えない状態で学習させる学習方法である「教師なし学習」のひとつで、データ間の類似性にもとづいてグループ分けを行う手法です。
「データをグループ分け」するという性質から「分類」と混同されやすい特徴があります。
クラスタリングと分類の主な違いは、以下のとおりです。
クラスタリング | 分類 | |
---|---|---|
手法 | 教師なし学習 | 教師あり学習 |
グループ分けの条件 | 事前に正解データを必要としない | 事前に正解データを必要とする |
クラスタリングは、データそのものの特徴を学習し、似たような性質をもつデータ同士をまとめていくことが可能です。
たとえば、Eコマースサイトの購買データを分析する場合、顧客の購買パターンや行動履歴の類似性にもとづいてグループ化を行えます。
一方で、分類は、正解のラベルが付与されたデータを使ってグループ分けする仕組みです。
たとえば、りんごとみかんの写真にそれぞれ「りんご」「みかん」というラベルを付けた学習データを使って、新しい果物の写真がどの種類なのかを判断できます。
事前に正解データを必要とするかどうかが、クラスタリングと分類の大きな違いといえます。
クラスタリングの種類と手法

クラスタリングは、大きく2種類にわけられます。クラスタリングの種類と手法をまとめた表は以下のとおりです。
クラスタリングの種類 | 手法 |
---|---|
階層的クラスタリング | ・ウォード法・重心法・最短(最長)距離法・群平均法 |
非階層的クラスタリング | ・K-means法・混合正規分布法 |
クラスタリングの種類ごとに、代表的な手法を順番に見ていきましょう。
階層的クラスタリング
階層的クラスタリングは、データ間の類似性を距離として捉え、段階的にグループ化していく方法です。もっとも距離の近いデータポイントから順次結合していき、クラスタを形成していく特徴があります。
樹形図として視覚的に表現できるため、データの階層構造を直感的に理解することが可能です。
階層的クラスタリングの代表的な手法は、以下のとおりです。
- ウォード法
- 重心法
- 最短(最長)距離法
- 群平均法
それぞれの特徴を、詳しく解説します。
ウォード法
ウォード法は、データの平方和(各データと平均値の差を二乗した値の和)を計算し、平方和が小さい順にクラスタを作っていく手法です。
平方和の増加がもっとも小さくなる組み合わせを選んでクラスタを形成していくため、類似したデータ同士が自然にグループ化されやすい特徴があります。
計算負荷が比較的高いという側面があるものの、均質なクラスタが形成されやすいため、データ分析を行う際に採用されるケースが多い手法です。
重心法
重心法は、各クラスタの重心(データポイントの平均値)を計算し、その重心間の距離がもっとも近い2つのクラスタを統合していく手法です。
クラスタ内の分散を最小限に抑えながら、データの自然な階層構造を見出すことが可能です。
ただし、クラスタの形状が複雑な場合や、データの分布が不均一な場合には適切なクラスタリング結果が得られにくいという特徴があります。
また、クラスタの統合過程で階層構造が逆転する「反転現象」が生じる可能性があり、結果の解釈が難しくなるケースもあります。
最短(最長)距離法
最短(最長)距離法は、2つのクラスタに含まれるデータのうち、もっとも近い(遠い)データ同士の距離をクラスタ間の距離と定義し、クラスタを形成する手法です。
計算量が少なくなるという利点がある一方で、外れ値の影響を受けやすいという特徴があります。
とくに最短距離法は、2つのクラスタ間でもっとも近いデータの距離を基準とするため、離れた位置にある外れ値同士が結合されやすい性質です。
データが連鎖的にひとつずつクラスタに吸収されていく鎖効果と呼ばれる現象が発生し、後続の分析や解釈を困難にする要因となります。
そのため、特性を理解したうえで、用途や目的に応じて適切な手法を選択することが重要です。
群平均法
群平均法は、2つのクラスタに属するすべてのデータ同士の距離の平均をクラスタ間の距離として定義する手法です。
すべての組み合わせの平均を計算するため、クラスタ内に外れ値があっても影響を受けにくい特徴があります。
外れ値の影響を受けにくいことから、最短(最長)距離法と比較して安定した分析結果が得られやすい仕組みです。
また、計算コストがウォード法と比較して低いため、大規模なデータセットにも適用しやすいという利点があります。
非階層的クラスタリング
非階層的クラスタリングとは、階層を作らずにグループ分けをする方法です。あらかじめクラスタ数を指定する必要があり、その数にもとづいてアルゴリズムが最適なグループ分けを実行する特徴があります。
非階層的クラスタリングの代表的な手法は、以下のとおりです。
- K-means法
- 混合正規分布法
それぞれの特徴を、詳しく見ていきましょう。
K-means法
k-means法は、指定されたk個のクラスタにグループ分けを行う手法です。
具体的には、はじめに指定したクラスタの数だけ重心をランダムに設定し、各データをもっとも近い重心のクラスタに割り当てます。
形成されたクラスタごとに重心を再計算し、再度データの割り当てをクラスタの構成が変化しなくなるまで繰り返し行い、最終的なグループ分けを目指す仕組みです。
データ間の距離を計算する必要がなくなるため、計算負荷が少ないという利点があります。
しかし、最初の重心がランダムに設定されるため、計算するたびに結果が変化することを把握しておくことが必要です。
混合正規分布法
混合正規分布法は、左右対称の釣り鐘型をした正規分布を複数組み合わせることで、データの分布を捉える手法です。
複数の正規分布のいずれかからデータが生成されたと仮定し、「どの正規分布の密度が大きいのか」という視点にもとづいてクラスタリングを行います。
各データに対して、それぞれのクラスタへの所属確率を計算できるため、あるデータが「クラスタAに60%、クラスタBに40%の確率で属する」といった柔軟なグループ分けが可能です。
混合正規分布の代表的な推定アルゴリズムである EMアルゴリズムを用いて、最適なパラメータを推定することによって、データの背後に潜む確率分布構造を明らかにできます。
クラスタリングを導入するメリット

クラスタリングを導入するメリットは、以下の3つが挙げられます。
- 効率的にテストマーケットを選定できる
- 人間では処理が難しい膨大なデータを構造化できる
- 主観や固定観念を取り除いたグルーピングができる
業務のAI活用領域を拡大できるように、順番に解説します。
効率的にテストマーケットを選定できる
クラスタリングによるデータ分析は、テストマーケットの選定において有効な手段となります。
膨大な市場データから類似した特性をもつグループを抽出できるため、以下のような多角的な観点から市場をグループ分けすることが可能です。
- 年齢
- 所得
- 購買行動パターン
形成された各クラスタからテストマーケットを選定することによって、市場全体の特性を効率的に検証できます。
たとえば、都市部の富裕層や地方の実用重視層など、異なる特性をもつ市場を選定し、それぞれの反応を測定することで、精度の高い検証を実施できるでしょう。
また、クラスタ間の違いを明確に把握できるため、施策の改善点も特定しやすくなる利点があります。
人間では処理が難しい膨大なデータを構造化できる
クラスタリングを活用すると、人間では処理が難しい大規模データを構造化できます。
たとえば、Eコマースサイトで蓄積された何万件もの購買データを人間が直接分析しようとしても「よく売れている商品」や「人気のある時間帯」といった表面的な把握に留まってしまうでしょう。
しかし、クラスタリングの活用によって、購買パターンや商品の組み合わせ、時系列の変化といった多角的な観点からデータを構造化できます。
さらに、従来は見過ごされていた細かな購買傾向や、特定の顧客層の特徴的な行動パターンなどを捉えることも可能です。
人間では捉えきれない複雑なデータの中から、ビジネスに活用できる有意義な情報を効率的に抽出できます。
主観や固定観念を取り除いたグルーピングができる
クラスタリングの活用によって、データにもとづいた客観的なグルーピングが可能です。
人間が経験や知識をもとにグルーピングを行う場合、無意識のうちに既存の枠組みや固定観念に影響されてしまい、データがもつ本質的なパターンを見落としてしまう場合があるでしょう。
しかし、クラスタリングを活用すると、純粋にデータの特徴量や類似性のみに着目してグルーピングを行うため、人間では気づきにくい新たな関係性やグループを発見できます。
たとえば、ECサイトの購買データを分析する際、人間は「年齢」や「性別」といった典型的な属性でセグメント分けを行いがちです。
一方で、クラスタリングを用いると、購買パターンや行動特性にもとづいた、より本質的な顧客グループを特定できます。
主観や固定観念を排除した客観的な分析により、ビジネスにおける新たな機会の発見につながります。
クラスタリングが抱えるデメリット

クラスタリングが抱えるデメリットとして、以下の2つの課題が挙げられます。
- 処理の複雑さと計算コストの問題
- 結果の信頼性と検証の必要性
クラスタリングでは、データ間の関係性を分析し、段階的にグループを形成していくことが必要です。そのため、データ量が増えるほど計算負荷が指数関数的に増加し、大規模なデータの分析では著しい時間的コストが発生します。
また、クラスタリングでは、データの特徴や傾向を機械的に抽出しますが、その結果が必ずしも現実の状況や目的に適合するとは限りません。
得られた結果の妥当性を人間が慎重に評価し、必要に応じて調整や異なる手法を検討する必要があります。
クラスタリングの活用事例

クラスタリングを活用した具体的な事例は、以下のとおりです。
- 問い合わせ履歴からAIチャットボットを作成
- 顧客データにもとづいたセグメンテーションの実施
- 顧客情報をもとにメルマガやDM配信の効率化
クラスタリングを用いると、カスタマーサービスにおける大量の問い合わせデータを、質問タイプや顧客の意図にもとづいてグルーピングできます。
適切な応答パターンを学習したAIチャットボットを作成し、24時間体制での顧客対応や応答品質の向上を期待できるでしょう。
また、購買履歴や顧客属性などの多様なデータをグルーピングすることによって、類似した特性をもつ顧客のセグメンテーションが可能です。
各グループの特徴の分析によって、ターゲットに応じた商品開発やプロモーション戦略を実施できます。
さらに、メルマガやDMの配信においては、顧客の行動データや反応履歴をグルーピングし、情報への関心度や望ましい配信タイミングを予測できます。
「Einstein 」なら業務のAI活用領域を拡大できる

SalesforceのAI「Einstein」は予測AIと生成AIを駆使して、さまざまな業務効率の向上に貢献するツールです。
「Einstein」を導入して改善できる業務の具体例は、以下のとおりです。
- 関連する営業データから顧客セグメントを作成できる
- CRMデータをもとにパーソナライズされたメールを生成できる
- カスタマーサポートでのやり取りを要約して役立つナレッジ記事を作成できる
社内で蓄積したあらゆるデータを、AIによる自動化によって営業サイクル全体で有効に活用できます。
SalesforceのAI「Einstein」については、以下の記事で詳しく紹介しています。興味のある方は、ぜひチェックしてみてください。
クラスタリングの理解を深めて業務のAI活用領域を拡大しよう

AIの機械学習におけるクラスタリングは、データの類似性にもとづいてグループ分けを行う「教師なし学習」の手法のひとつです。
階層的クラスタリングと非階層的クラスタリングの2種類があり、それぞれウォード法やK-means法など、特徴の異なる手法が存在します。
クラスタリングを活用することにより、テストマーケットの効率的な選定や、人間では処理が困難な大規模データの構造化が可能です。実務においては、AIチャットボットや顧客セグメンテーションの作成、メール配信の最適化など、幅広い活用が見られます。
Salesforceの「Einstein」なら、生成AIと予測AIによって幅広い業務でAIの活用領域を拡大できます。CRMに蓄積したデータにもとづいて顧客セグメンテーションの作成や、パーソナライズされたメールの生成などが可能です。
AIの活用による業務の改善に興味がある方は、以下の資料をあわせてご覧ください。
スペシャルレポート :
中堅・中小企業のトレンド
現代の企業成長に欠かせないキーワード、データ・CRM・AI。中小企業のリーダーはこのような最新トレンドに適応しながら、マーケティング・営業・カスタマーサービスのすべてのビジネスをどのように強化し続けているのでしょうか。
