Skip to Content

データクレンジングとは?エクセルでのやり方や具体例をわかりやすく解説

データクレンジングとは、重複や誤入力を排除しデータの正確性を高める作業で、データ分析の準備として必要です。本記事では、データクレンジングの意味と必要性、進め方を解説します。

データクレンジングとは、データの重複や誤記、表記揺れなどを修正・削除して、データ分析をしやすい状態に整理することです。

データに基づいた客観的な意思決定の判断は、自社の売上を向上させるうえで欠かせません。しかし、収集したデータに不備や欠損があると、データの分析精度が低下し、誤った判断を下してしまうリスクがあります。

そのため、定期的なデータクレンジングが求められます。本記事では、エクセルを用いたデータクレンジングのやり方や具体例、作業を自動化できるAIツールについて解説します。

データとアナリティクスの最新事情レポート

AI時代に最適なデータ管理と意思決定を明らかにするため、10,000名以上のアナリティクス、IT、事業部門のリーダーに調査を実施致しました。

データクレンジングとは

データクレンジングとは、データベースに保存されているデータの誤りや欠損などを修正・削除し、データの質を向上させる作業のことです。ダーティデータとも呼ばれる不正確なデータを、きれいで一貫性のあるデータに整える作業を指します。

企業活動において、データに基づいた客観的な意思決定は不可欠ですが、元となるデータの品質が低ければ、分析結果も信頼できず、誤った判断を下してしまうリスクがあります。そこで、データ活用の第一歩としてデータクリーニングが重要になるわけです。

データクリーニングとの違い

データクリーニングという言葉もありますが、データクレンジングと同じ意味で用いられており、違いはありません。

データクレンジングは、データクリーニングのほかに、データスクラビングと呼ばれることもあります。

名寄せとの違い

データクレンジングと共によく使われる言葉に「名寄せ」があります。これらは密接に関連していますが、目的と作業内容が異なります。

データクレンジング名寄せ
目的データの品質向上重複データの特定と統合
作業内容1つ1つのデータに含まれる表記ゆれ、入力ミス、形式の不統一などを修正・統一する複数のリストやデータベースに散在する「同一人物」や「同一企業」の情報を探し出し、記録にまとめる
「(株)セールスフォース」を「株式会社セールスフォース・ジャパン」に統一する、全角の英数字を半角に直すAリストの「田中太郎様(東京本社)」と、Bリストの「田中様(大阪支社)」が同一人物だと特定し、情報を1つに統合する

データクレンジングは、名寄せを正確に行うための前工程です。たとえば、社名が「(株)セールスフォース」と「株式会社セールスフォース・ジャパン」のままでは、コンピュータは別の会社として認識してしまいます。

まずデータクレンジングで社名の表記を統一しておくことで、初めて正確な名寄せが可能になります。いため、データクレンジング全体を通してデータ品質を高める必要があります。

データクレンジングの目的

データクレンジングの目的は、データの正確性を高めることです。

たとえば、データクレンジングのひとつである名寄せをせずに重複データが積み重なると、同じ顧客に対して何度も営業をかけてしまうおそれがあります。その結果、企業の信頼を損ないかねません。

また、重複や誤記を含む雑然としたデータを活用しても、精度の低い結果しか得られず「正しく顧客ニーズをつかめない」「適切なアプローチを選択できない」といったことが起こります。

こうした事態の発生を防ぐためには、データの精度を高めるデータクレンジングが重要です。

以下の記事では、データクレンジングのほかに重要なデータ活用のポイントのを解説しているので、あわせてご覧ください。

関連記事:無料でデータスキルを高めるTrailhead活用法7選

データ分析の進め方を知りたい方は、以下の動画も参考にしてみてください。

10分で学ぶシリーズ 〜データ分析の始め方編〜

データクレンジングのメリット

データクレンジングには、4つのメリットがあります。

  • 業務効率が向上する
  • データに基づく意思決定が促進される
  • 企業の信頼性が高まる
  • コスト削減につながる

データクレンジングのメリットから、その必要性がわかります。定期的なクレンジングで、データの精度を高めましょう。

業務効率が向上

データクレンジングを定期的に実施し、データが整理された状態であれば、データの検索や分析を手間なく行えるため、業務効率の向上を期待できます。

もし、データに不備があったままデータ分析を行うと、データの検索に時間がかかったり、不備の修正が何度も発生したりと余計な業務が発生します。

データクレンジングで本来不要な作業を削減できれば、本来の業務に集中できるようになり、企業全体の生産性向上にもつながるでしょう。

データに基づく意思決定が促進される

データクレンジングを行うとデータの正確性が高まり、分析精度の向上につながります。

たとえば、データクレンジングによって重複した顧客データが削除されると、より精緻にターゲットに合わせたマーケティングキャンペーンを展開できるようになります。

データクレンジングは、データを使って経営判断を行うデータドリブン経営の実現にも欠かせません。

以下の記事では、データクレンジング以外のデータを扱い方や課題を解説しているので、あわせてご覧ください。

関連記事:【5分解説】データドリブン経営のための2つの課題と Salesforce流解決策

企業の信頼性が高まる

データクレンジングによってデータが正しく修正されると、結果的に顧客からの企業の信頼性が高まります。

たとえば、顧客データの重複や誤りがあると、同じ顧客に何度も同じ内容のメールを送ってしまったり、対応済みの顧客に再度フォローアップの電話をかけてしまったりします。こうしたミスは、顧客に不信感を与え、企業の信頼を損ねる原因となります。逆に顧客の状態をきちんと把握して、適切なタイミングで必要なコミュニケーションが取れれば、顧客からの企業の信頼性は高まります。

データクレンジングを行うことで正確なデータが保たれ、ミスのない的確な顧客対応ができるようになり、企業の信頼性が高まります。

コストの削減につながる

データクレンジングによって、誤った情報に基づくマーケティングや営業活動が削減されるため、必要な企業活動にのみコストを割けるようになります。

たとえば、データクレンジングで精度が向上したデータを使って、顧客のニーズに応じたアプローチを行うと、手あたり次第行なっていた架電業務やメール配信を削減できます。

その結果、従来発生していた人件費や時間的なコストが削減され、ほかの部分に予算を割くことが可能です。

エクセルを使ったデータクレンジングのやり方【具体例あり】

ここでは、エクセルで作成した顧客リストにおけるデータクレンジングの流れを解説します。

  1. 目的を明確にする
  2. データを選定し、収集する
  3. バックアップを取る
  4. 数値の異常値をチェックする
  5. 表記揺れを統一する
  6. データ入力・収集のプロセスを見直す
  7. 定期的にデータクレンジングを行う

エクセルでデータを管理されている方は、データクレンジングを試しながら読んでいただくと理解が深まるはずです。

1.目的を明確にする

エクセルでデータクレンジングを行う際は、まず「そのデータを何に使うのか」をはっきりさせることが重要です。目的が曖昧なままでは、どの情報を整理・修正すべきか判断できず、無駄な作業やデータ不足につながる恐れがあります。

たとえば、顧客分析が目的なら、氏名やメールアドレス、購買履歴の整備が最優先です。一方で在庫管理なら、商品コードや在庫数の一貫性に注目すべきでしょう。

あらかじめ用途を明確にすることで、不要なデータ処理を避けつつ、エクセルでの作業効率も向上させられます。

2.データを選定し、収集する

エクセルでのデータクレンジングを始める前に、「どのデータを対象にするか」を明確に選定し、必要な情報を収集することが欠かせません。すべてのデータを網羅しようとすると作業が煩雑になり、効率が低下します。

優先すべきは、業務上で多く利用される顧客情報や売上データなど、意思決定に直結する重要なデータです。また、元データに近いものから取り掛かると、後の処理も正確性が高まります。

複数のCSVやファイルを扱う場合は、関連性のあるデータをひとつのシートに統合しておくと、後のクレンジング作業がスムーズになります。

3.バックアップを取る

はじめてデータクレンジングに挑戦する場合は、念のため元データが記載されたシートをコピーしたり、別のファイルで保存したりしてバックアップをとってから作業に入りましょう。

既存の顧客リストを見ると、データの重複や誤記、表記揺れがあります。

必要であれば、最初に通し番号を入れておくとよいでしょう。

4.数値の異常値をチェックする

データ量によっては目視では確認しきれないため、ステータスバーを使って数値データの「異常値」をチェックします。

ステータスバーは、エクセル画面の一番下(図:赤枠)にあるバーです。

ステータスバーを右クリックして、以下の表示項目を選択してください。

  • 平均
  • データの個数
  • 数値の個数
  • 最大値
  • 最小値
  • 合計

顧客リストの場合は、計算する数値がないため、データの個数のみが表示されます。たとえば単価表は、次のように選択した列の入力内容がステータスバーに表示される仕組みです。

5.表記揺れを統一する

データの表記揺れを統一する際は、「検索と置換」と関数を使います。

「検索と置換」を使う場合

「検索と置換」を使うと、特定の文字列を見つけ出し、指定の文字列に置き換えられます。

たとえば、「(株)」という表記を「株式会社」に置き換えることも可能です。

この顧客リストでは、「(株)」という表記が1つ見つかりました。

「置換」をクリックすると「株式会社」に置き換えられます。見つかった誤表記を一括で置き換えたい場合は「すべて置換」をクリックしてください。

なお「置換後の文字列」を空白にして「置換」を実行すると、検索した文字列を削除できます。

関数を使う場合

エクセルでは、以下のような関数を使って表記揺れを修正できます。

関数できること
PHONETIC関数文字列の読み仮名をカタカナ出力
TRIM関数不要なスペースを削除
CLEAN関数不要な改行を削除
ASC関数・全角を半角に統一・半角を全角に統一
RIGHT関数データの一部を抽出

データ量が多く、一括でデータを修正したい場合は、「検索と置換」よりも効率的にデータクレンジングが可能です。

​​6.データ入力・収集のプロセスを見直す

データクレンジングを実施して終わりにするのではなく、その結果を踏まえて入力や収集の仕組みを見直しましょう。

たとえば、重複や誤記が頻繁に発生していた場合、その原因は入力ルールの曖昧さや収集手段の不統一にある可能性があります。どのようなエラーが、どのタイミング・経路で発生したかを記録して分析すれば、根本的な対策が可能です。

入力時のマニュアル整備や、チェック機能のあるエクセルテンプレートの活用、必要に応じて自動化ツールの導入などを検討しましょう。これにより、次回以降のクレンジング工数を削減できます。

7.定期的にデータクレンジングを行う

データクレンジングは一度やれば終わりではありません。日々の業務で新たなデータが追加・更新される中で、重複や入力ミス、欠損値などの問題は時間とともに再び発生します。

そのため、月次や四半期ごとなど、一定の頻度で定期的にクレンジングを行うことが、データの信頼性維持に不可欠です。データ量が多い組織ほど、チェック間隔を短く設定するのが効果的です。

データクレンジングの課題とツール活用の必要性

データを可視化・活用するためには、データクレンジングが重要ですが、まだまだデータクレンジングができていない企業が多くあります。

中小企業庁が発表した「2022年版 中小企業白書」によると、データクレンジングできている企業ほどデータの見える化を実現できていることから、データクレンジングがデータの可視化・活用において重要なプロセスであるといえます。

ところが、データクレンジングができている企業は、セールスマーケティング・サプライチェーンの両方で20%未満と低い割合です。

先述したように、エクセルでデータ管理を行なっている場合、手作業でデータクレンジングを行わなければならないため、膨大な作業時間がかかります。そのため、データクレンジングに時間を割けず、データが煩雑なまま活用されている背景が想定されます。

作業負担を抑えたうえで定期的にデータクレンジングを行うためには、作業を効率化できるツールの活用が必要です。

企業内でデータ活用を促進したい方は、以下の動画もご覧ください。

データの力を解き放つ

データクレンジングを自動化できるAI搭載のツール

データクレンジングを自動化できるツールとして『Data Cloud』と『Tableau』を紹介します。

『Data Cloud』は、企業がもつデータを集約、統合するプラットフォームで、CRMやSFA、MAと連携させることが可能です。データを使用する前にクレンジングができるため、常に最新のデータを整理された状態で可視化・活用できます。

Data Cloud デモ動画

『Tableau』は、データをビジュアライズし、可視化・分析するプラットフォームです。クレンジングツールとして「Tableau Prep」が備わっており、コードを使用せずに直感的なクレンジングを行えます。

Tableau デモ動画

いずれもAIを活用した機能が充実しており、データドリブンな組織を目指すうえで重要なデータ基盤として、企業のデータ活用を促進します。

以下の記事では、データ活用におけるAI利用のポイントを解説しているので、あわせてご覧ください。

関連記事:「データ+AI」で成功するための3つのヒント

データクレンジングの効率化による効果がわかる事例

ここでは、データクレンジングを効率化することで得られる効果がわかる事例を2つ紹介します。

  • 事例1. データクレンジングの自動化で作業時間を1/3に短縮
  • 事例2. 手作業だったデータクレンジングを自動化して業務効率を大幅アップ

データクレンジングを効率化して、作業負担を抑えながら正確なデータの活用を促進しましょう。

事例1. データクレンジングの自動化で作業時間を1/3に短縮

NECソリューションイノベータ株式会社は、データの見える化を促進するため『Sales Cloud』を導入しました。そのなかで、リードのデータ化を進めるために『Sansan Data Hub』を活用しています。

『Sansan Data Hub』は、Sansan株式会社が提供する顧客情報管理サービス『Sansan』と連携できるSalesforceアプリケーションです。

NECソリューションイノベータ株式会社は、Salesforce内のデータを自動でクレンジングできる『Sansan Data Hub』を構築し、データクレンジングにかかる作業を効率化。

その結果、従来毎月35時間以上を費やしていたクレンジング作業が、約1/3に短縮され、社内でのデータ活用の促進に成功しました。

参考:SFAとMAの連携により営業/マーケティングのプロセスを統合リード案件化の確度を向上

事例2. 手作業だったデータクレンジングを自動化して業務効率を大幅アップ

KMバイオロジクス株式会社は、営業とデジタルマーケティングの強化を目指し『Tableau』を導入しました。

「Tableau Prep」を活用するなかで、従来手作業で行なっていたデータクレンジングの大幅な効率化に成功します。「Tableau Prep」とRPAツールを組み合わせたシステムの構築でほぼ自動化され、手作業だと月あたり810分ほどかかっていたデータクレンジングが35分にまで短縮。

データクレンジングの作業時間を1/20にまで圧縮できたこともあり、データを活用した議論が進めやすくなり、意思決定スピードも向上しました。

参考:スモールスタートと人材育成で利用定着化を促進|KMバイオロジクス株式会社

まとめ:データクレンジングでデータ分析の精度を向上しよう

データクレンジングで、重複や誤記、表記揺れなどを修正・削除すると、データの正確性が向上し、分析結果の精度も高められます。その結果、顧客ニーズに沿ったアプローチや意思決定を促進できます。

ただし、手作業でデータクレンジングを行うと、膨大な作業時間を消費してしまうため、ツールを活用して効率的に実施することが重要です。

Salesforceでは、データクレンジングの負担を軽減しながらデータの見える化や活用を促進できるツールを提供しています。「データクレンジングに膨大な時間がかかって活用が停滞している」「データクレンジングができていない」という企業さまは、ぜひお気軽にお問い合わせください。

ご相談・お問い合わせ

セールスフォースの製品、価格、導入などご不明な点がございましたらお気軽にお問い合わせください。専門担当者がお答えします。

今、知るべきビジネスのヒントをわかりやすく。厳選情報を配信します