ブログ blog
Salesforce Data Cloudにおけるデータ統合までのプロセス
目次
- はじめに
- 基礎的な機能のふりかえり
- はじまりはデータストリームから
- 取り込んだデータの統合
- どんなデータを扱うのが正しいか?
- 不良データ、欠損データへの対応
- おわりに
はじめに
こんにちは、広報担当の小川です。
今回はData Cloudに関する新たな情報を学ぶため、YouTubeにアップされている「Data Cloud Deep Dive」を視聴してみました!
Data Cloudのデータ処理プロセスにおける「情報収集」および「情報の統合」の部分について、より細かな部分をご紹介させていただきます。
基礎的な機能のふりかえり
Data Cloudの基礎的な機能については、過去のこちらの記事にてご紹介させていただきました。本題に入る前に、簡単に振り返りたいと思います。
Data Cloudには便利な機能が3つありました。それは何かというと、「情報収集」「情報の統合」「情報の活用」でしたね!
Data Cloudを使うことによって、様々な情報源からデータを収集し、統合されたデータを生成することで、より緻密な市場分析、個人に適したより良い顧客体験の提供、更なる知見の獲得が可能になります。
では、このプロセスにおいて、「データがどのように処理されているのか」「どのようなデータを扱うことが適切であるのか」という部分に注目していきます!
はじまりはデータストリームから
Data Cloudでは、「データストリーム」というプロセスを通じて、元データをData Cloudに取り込みます。
データストリームの過程では、元データはDSO(Data Source Object)と呼ばれる状態を経由し、DLO(Data Lake Object)という状態でData Cloudに取り込まれます。
元データを取り込む際には、データのカテゴリを以下の3種類に分けて設定します。
①プロファイル(人)・・・顧客情報や取引先情報など
②エンゲージメント(行動)・・・Emailの送信、開封、クリック数など
③その他・・・クーポンの使用や特定商品の購入など
データストリームの設定が完了し、運用を開始するとDLOが作成されます。
ここまでで、データを取り込む作業は完了です!続いて、どのデータを優先的に活用し、どのようにデータを統合していくかという工程についてご紹介いたします!
取り込んだデータの統合
取り込んだデータはデータマッピングとID解決という過程を経て、情報の取捨選択や優先順位を決定し、統合していきます。
「データマッピング」ではDLO(取り込んだデータ)の項目から、マッピング先であるDMO(Data Model Object)の複数項目に対し、情報の紐づけをすることが可能です。
このマッピングでは、「DLOのこのテーブルは、DMOのあのテーブルに該当する」ということを定め、最終的に「DMOから統合されたデータを生成する」ための準備を行います。
データマッピング後の工程である「ID解決」では、2つのルールによって、複数の情報を1つに統合することができます。
1つ目のルールは「マッチングルール」といい、「顧客ID・名前・電話番号・メールアドレス・アクセス頻度」などといった情報から同一人物を割り出すために使います。
2つ目のルールは「調整ルール」といい、データの「最終更新日」「最も頻度の高い値」「ソースの優先度」などを指定し、不要な情報をふるいにかけます。
ここまでの工程により、複数のデータを統合することができました。さて、情報の収集から統合までの流れについてはご理解いただけたかと思いますが、Data Cloudで扱うべきデータとはどのようなものなのでしょうか。
どんなデータを扱うのが正しいか?
Data Cloudで活用するデータは、私たちが本当に必要とし、常日頃から追加できるデータを選ぶ必要があります。
もし、質の低いデータを取り込んでしまうと、そこから生まれるのは質の低いデータだけです。なんとも残念な結末ですよね!
動画中では「Garbage in = Garbage out(ゴミを入れたら、ゴミが出てくる)」と表現されていました。痛烈ですね!!
ある実例では、顧客が取り込むデータを選別せずに、所有している全700個のデータをData Cloudに取り込んだところ、分析により「優先順位の高いセグメントに対して実際に活用されたデータ」は、全データの内の10%だけだったということがあったそうです。
以上の事例より、データを取り込む前にある程度の「データ整形」や 「データクレンジング」を行う必要があるということが分かりますね。
不良データ、欠損データへの対応
では、私たちは不良データや欠損データに対しては、どのような対応をすべきでしょうか。対応の難易度順にご紹介します。
・簡単なケース: フィールドに不正なデータがある場合
データの活用方法に変更がない場合は、新たなデータファイルに差し替えます。
・一般的なケース: カラムのデータ型の修正が必要な場合
データストリームを削除し、最初からやり直します。または、マッピングを解除した上でフィールドを削除し、改めてデータを取り込み、正しいデータ型を設定します。
・難しいケース: ユニークキーの変更やデータストリームの削除が必要な場合
「セグメントやアクティベーションの削除」「DLOからDMOへのマッピングの削除」「関連するDLO自体の削除」を行います。それでも上手くいかない場合は、最終的にデータストリームを削除してやり直します。
おわりに
今回は、Data Cloudの「情報収集」および「情報の統合」におけるプロセスについて、詳しくご紹介させていただきました。
特に、良質なデータがもたらす価値とそれを確保するための前処理の必要性が強調された内容でしたね。
今後も、Data CloudやSalesforce全般に関する情報を発信していきたいと思います!
引き続きご愛読の程よろしくお願いいたします。
この記事を書いた人
小川大和
株式会社キットアライブ 管理部広報担当
映像制作会社、熱波師、公務員を経て2024年にキットアライブに入社。北海道の大自然を撮影するため、ドローンやGoProを片手に出掛けることが大好き。落語もたまに聞きます。
おすすめ記事