マーケティングのデータサイエンス～統計から機械学習、ML Opsまで

Kohei_Kubo · ‎02-13-2021

はじめに

オンラインでの広告やウェビナー、ソーシャルメディアなど、マーケティングの活動もこの十年ほどの間にデジタル化が進み、COVID-19 の影響の中でそのスピードも加速しています。

デジタルマーケティングにより、顧客の反応や行動といったビッグデータをリアルタイムに収集・分析することや、ターゲット顧客に対するニーズに即した的確なオファーを提供することも可能になりました。

そこで重要となるのは、ビジネスの目的に沿った仮設を構築し、収集したデータをもとに分析を行い、効果的な施策に結びつけることです。このようなデータドリブンのマーケティング活動に不可欠となるのがデータサイエンスです。

マーケティングの戦略や施策の立案におけるいくつかのユースケースを題材に、統計解析や機械学習などのデータサイエンスがどのように活用できるのか、その一例をご紹介します。また、機械学習などの取り組みを全社的に展開するには、それを支えるしっかりとした仕組みやプロセス、ＩＴの基盤も必要となり、昨今話題の ML Ops にも触れたいと思います。

マーケティングにおけるデータサイエンスの活用

マーケティングの長い歴史の中で数多くのフレームワークや考え方が生み出され、多くの企業で活用されています。

例えば、代表的なものとして STP （セグメンテーション、ターゲティング、ポジショニング）、4P（プロダクト、プライス、プレイス、プロモーション）、ファネルとカスタマージャーニーなどがあげられます。これらにデータサイエンスを活用することで、数値データにもとづく効果的な仮設構築や検証が可能となり、データドリブンなマーケティングを推進できます。

STP（セグメンテーション、ターゲティング、ポジショニング）
- ニーズや嗜好の類似性から、顧客はどのようなグループに分類でき、その中で自社の製品やサービスをもっとも受け入れてくれるグループはどこなのか？　また、他の企業や製品の中で自社は、どのように認知されているのだろうか？　他社との差別化を図るにはどうしたらよいのだろうか？　
- このような、顧客のグループ分け（セグメンテーション）や、自社の位置づけ（ポジショニング）の把握に、クラスター分析などの手法が役立ちます。
4P（プロダクト、プライス、プレイス、プロモーション）
- プロダクトについては、どのサーバとストレージが一緒に購入される頻度が高いのかなど、製品同士のクロスセルやアップセルの機会を高めるためのマーケットバスケット分析として、アソシエーション分析という手法があります。　これらをもとにして、製品のバンドル化など製品計画への反映もできるかもしれません。
- プロモーションなどにおける効果測定として A/B テストという手法が良く利用されています。これは、メールのタイトルや、ウェブサイトのボタンの色や位置などを変えることでテストを行い、より効果的な選択をする際に利用されています。そこでは、カイ二乗検定という統計解析の手法が使われています。
- また、オンラインショッピングなどでよく使われ、身近なものにレコメンデーションがあります。自分の嗜好にあったものが推奨品として表示されることは多くの方が経験しているのではないでしょうか。これは、ある顧客と似た購買行動や嗜好を持つ別の顧客の情報を提供すること、あるいは、本人のこれまでの購買行動と類似の情報を提供することで、クロスセルやアップセルをはかる取り組みです。前者には協調フィルタリング、後者には内容ベースフィルタリングという機械学習の手法が使われています。
- その他、プレイスとしてのチャネル分析や、プライスにおける値づけなどの領域でも統計解析や機械学習を利用したいろいろな分析が適用可能でしょう。
ファネルとカスタマージャーニー
- デジタルマーケティング活動により多くの顧客接点を作り、そこから生まれた見込み客の情報は、その後のナーチャリングやテレマーケティングなどを通じてリードの育成や質の精査が行われます。そして、一定の基準を満たしたものは、営業チームに送付され、案件化されたものは、商談ステージが進むことで最終的には受注に至ります。
- このようなファネルとカスタマージャーニーの各ステージで、リードや案件が次のステージに進む率と（コンバージョン分析）、その要因（キャンペーンの種類や顧客属性など）の関連性を分析することが可能となります。
- また、マーケティングのリードが営業チームによって案件化された場合、その受注確度（大・中・小など）などの情報をもとに、最終的な受注予測などを行うことも可能です。その際には、回帰分析という手法などが用いられます。

上記も踏まえて、マーケティング業務において機械学習や統計解析などのデータサイエンスが活用できるユースケースを、下記の表にまとめてみました。

マーケティング業務でのユースケース

上記の表からいくつかのユースケースを取り上げ、実際にどのような使い方ができるのかをご紹介します。

クラスター分析によるセグメンテーションとターゲティング
- 仮にウェビナーなどのキャンペーンへの参加者データなどがあった場合、参加した回のテーマなどをもとに、似たような興味のお客様をグループ分けすることができます。
- クラスター分析で代表的なものには、教師なし学習に分類される K平均法と階層化クラスタリングというものがあり、下記の図は、K平均法によるものです。(Python や Rなどフリーのツールでも実行できます)
- 下記の例では、事前に主成分分析というものを使ってグループの数が3個ほどに分けられるということを把握して、K平均法で3つのグループに顧客を分けています。
- 3つのグループの特徴を知るために、レーダーチャートを使っていますが、それぞれの放射線の一つ一つがウェビナーのテーマを表しており、そのテーマの値の大小から関心を予想して、それぞれの興味の意味づけを行っています。
- これにより、各グループのお客様の興味を把握して、そのニーズに即したオファーを次回以降ご案内するなどのターゲティングやパーソナライズが可能となります。

A/B テストによる施策効果の判定
- 同じ内容のニュースレターを２つの異なるタイトルで配信した際のコンバージョン率として、下記のような開封率のデータがあったとします。仮にタイトルAは長い文章で12.1%の開封率、タイトルBは短くシンプルにして13.4% であったとします。この値の差は単なる偶然なのか、あるいは、タイトルAとBの長さの違いが開封率に有意な差をもたらしていると言えるのでしょうか？
- このような場合に使われるものとして、カイ二乗検定があります。
- 仮に２つのタイトルが開封率に与える影響がないと仮定した場合、そのようなことが起こる確率は、エクセルなどでも計算できますがカイ二乗検定の結果 4.5% となり、5%以下の低い数値となります。
- したがって、タイトルの違いが開封率に有意な差をもたらし、短いタイトルが好まれるという洞察を得ることができます。

マーケティングリードから生まれたオポチュニティ（商談）の受注予測
- マーケティングチーム内で、実施したキャンペーンからの受注目標が四半期ごとにある場合など、期の始めに最終的な受注額を予測できると、目標との差分を知ることで対策の検討も可能となります。
- キャンペーンから創出された案件の受注確度（大・中・小など）情報がSFAツールなどから入手できると、それをもとに期初の時点で、最終的な期末の受注額の予測なども行うことが可能となります。
- 教師あり学習に分類される回帰分析を使う場合、過去のデータをもとに学習を行い、モデルを作成し、パラメータを決定します。
- 例えば、下記の0.8、0.5、0.2などの値が学習によって決定されたモデルのパラメータを表し、これらを使った予測モデルの式を作ることができます。
- 期末の受注予測額 = 0.8 x 高確率分のパイプライン額 + 0.5 x 中確率分 + 0.2 x 小確率分 + その日までの受注額 + 定数
- このようなモデルを作り、新しい期のデータを入力することで、期末の受注額を期初に予測することができます。下記の図は、例として黒線が各期の最終的な受注実績、緑線は、期中のそれぞれの週に予測した値を表すとします。この場合、期の始めにできるだけ、黒線に近い値の額を予測できると、精度の良いモデルということができます。

また、オンライン広告の投資した費用と、インプレッション、クリック、HVA （ハイバリューアクション）との相関なども相関分析を使って行うことができます。　これらの値に相関があり、良いモデルを作成することができれば、投下予算で得られる成果の予測が可能となります。
予測だけではなく BI (ビジネスインテリジェンス) 的に、手元のデータを使って、現状を可視化することも重要です。たとえば、下図はマーケティングキャンペーンから受注した案件の、受注までの日数をキャンペーンの種類ごとに箱ひげ図で表示したものとしたとします。各箱の真ん中の太い実線は、中央値を表しています。中央値は、データを小さい順に並べたときに真ん中に位置する値です。各箱の両端で、底辺はデータを並べて下から 25%、上辺は 75% に位置する値です。このように、箱ひげ図を使ってデータのちらばり具合を知ることができます。そして、チャットや検索などの箱が他の施策に比べて下方に位置する場合は、お客様が明確な意思を持って行動を起こしているので、受注までの日数が短い傾向にあるなどと読み取ることができます。　また、受注までの日数（たとえば中央値）と、受注額の関係を散布図にすれば、効果的なキャンペーンタイプの把握も可能となります。

ML Ops の必要性と利点

マーケティング担当者や、データサイエンティストが1人で自分のPCなどを使い、データの準備からモデル作成、学習や推論・検証を行う場合は、それほど運用上の問題はないかもしれません。　しかし、マーケティング業務に関わらず、社内の色々な機械学習の取り組みを全社的に展開し、ソフトウェアエンジニアや、運用担当者、データアナリストなど多くのメンバーと連携する場合には、しっかりとしたプロセスや仕組み作り、ツールなどの整備が必要となります。

実際、多くの企業では、データサイエンスチームが、特定のビジネス上の課題に対応するモデルを構築するために多くの時間を費やしています。しかし、これらのモデルは、そのモデルを使用して望ましい成果を達成する別のアプリケーションに導入されるまでは、ビジネス価値を生み出せません。そこで必要なのは、モデルを本番環境にシームレスに移行するためのツールとプロセスであり、その実現を支援してくれるものとしてML Opsが注目を集めています。

ML Ops は、機械学習 (ML) のライフサイクルをカバーし、データの準備、モデルの構築、モデルの学習、モデルの展開、連携、監視までの各段階をサポートしてくれます。ＩＴの開発から運用を迅速に展開する方法として DevOps という方法が活用されていますが、その考え方を機械学習のライフサイクルに適用したものとも言えます。

そこで得られる利点としては、下記のようなことがあげられます。

時間の短縮:
- 開発環境、テスト環境、本番環境を数日ではなく数分で管理、提供することができ、サイロ化した開発環境を構築することなく、データサイエンティストに適したツールや言語を即座に導入できます。
生産性の向上:
- データサイエンティストは、ジョブの学習が完了するのを待つのではなく、モデルの構築や結果の分析に時間を使うことができます。コード、プロジェクト、モデルレポジトリの共有により、連携と再現性が向上します。

HPE でも、機械学習のライフサイクル全体にDevOpsのような俊敏性をもたらすソリューションとして、下記のような機能を持つ、HPE EZMERAL ML OPS　を提供しています。

モデル構築
- TensorFlow、Apache Spark、Keras、PyTorchなどの任意のデータサイエンスツールを使用したセルフサービスのサンドボックス環境では、複数のMLやディープラーニング (DL) フレームワークを使用して同時に試行や実験を行うことができます。
モデル学習
- 開発、テスト、本番ワークロードに対応したスケーラブルな環境（シングルノードまたは分散型マルチノードクラスタ）にオンデマンドでアクセスできます

モデルの展開
- Python、Rなどのモデルのネイティブランタイムイメージを、安全で可用性が高く、負荷分散されコンテナー化されたHTTPエンドポイントに展開します。統合されたモデルレジストリにより、バージョン管理と本番環境にあるモデルへのシームレスなアップデートが可能です。
モデルの監視
- GPU、CPU、メモリ利用率など、ランタイムリソースの利用状況をパイプライン全体のエンドツーエンドで可視化できます。
連携
- コード、モデル、プロジェクトリポジトリでCI/CDワークフローを有効にします。また、GitHubの統合により、ソース管理、容易な連携を、監査性の向上を実現するための系統追跡が可能になります。
セキュリティと制御性
- 安全なマルチテナンシーをエンタープライズ認証メカニズムと統合します。
ハイブリッド展開
- オンプレミス、パブリッククラウド、またはハイブリッドで実行できるため、効率的にリソースを使用して運用コストを削減することが可能です。

まとめと関連情報

データドリブンなデジタルマーケティングを進める上で、統計解析や機械学習などのデータサイエンスが、いろいろな場面やユースケースで役立ちます。
機械学習を全社的な環境で実施して成果を出すには、ML Ops の導入検討も必要です。
HPE が提供する HPE EZMERAL ML OPSにご興味のある方、詳細を知りたい方は、下記のオンラインセミナーの収録動画も是非ご覧ください。

2月17日（水）開催 – セルフサービス機能によるデータサイエンスとGPUの最適化
現在、データサイエンスを効率的に実行することが課題となっています。効率的なデータサイエンスの方法論を構築し、生産性を高めるための戦略をHPEのトップエキスパートからご紹介します。
4月7日(水) にも、HPE EZMERAL をテーマとしたウェビナーを開催予定です。詳細は後日、下記サイトでご案内いたします。
HPEが提供するライブウェビナーやオンデマンドはこちらからご覧いただけます。https://www.hpe.com/jp/ja/webinars.html

その他、関連情報（ソリューションビデオ、事例、ポッドキャスト）

寄稿者
久保耕平
Hewlett Packard Enterprise において、ヨーロッパ、アジア・太平洋地域のインダストリ・ワークロードマーケティングチームに所属し、HPEのエッジからクラウドまでのソリューションを推進

EMEA & APJ Industry and Workload Marketing Manager at Hewlett Packard Enterprise

カテゴリ

Company

Local Language

フォーラム

ディスカッションボード

フォーラム

ディスカッションボード

ディスカッションボード

フォーラム

ディスカッションボード

フォーラム

ディスカッションボード

ディスカッションボード

フォーラム

フォーラム

ディスカッションボード

フォーラム

ディスカッションボード

フォーラム

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

コミュニティ

お問い合わせ

その他のHPEウェブサイト

ディスカッションボード

フォーラム

ブログ

マーケティングのデータサイエンス ～ 統計から機械学習、ML Opsまで

Kohei_Kubo

Author

Kudos

マーケティングのデータサイエンス～統計から機械学習、ML Opsまで