ビジネス指向のデータサイエンス

公開: 2018-12-13

彼らは、データ サイエンティストは 21 世紀で最もセクシーな仕事だと言います (そして、私がさまざまな会議で会ったすべてのデータ サイエンティストはそれを知っています)。 しかし、彼らが機械学習の理論的な部分だけを話していると、なぜ自分たちの仕事が熱いのか分かっているのだろうかと思うことがあります。 その理由は、データ サイエンティストは、ビジネス目標を達成するためにデータ、技術的スキル、および統計の知識を組み合わせる方法を知っているからです。 したがって、データ サイエンスをうまく行うには、まずビジネスについて考える必要があります。

企業が分析ツールを追加して、実際に何を達成したいのかを考慮せずに、すべてのユーザーのタッチを追跡するケースを知っています。 彼らは多くのデータを収集しましたが、それらは理解できず、ビジネスを進めるために使用できませんでした。

そのような間違いをしないでください! データ サイエンス プロセスの各ステップで、目的と業界の特異性について考えてください。 創造性が高ければ高いほど、成功する可能性が高くなります。 それを証明するために、巨人のアプリケーションにおけるデータ サイエンスの感動的な例をいくつか紹介します…

データ サイエンスの冒険を始める方法

多くの企業が ML を使用して収入を増やしていると聞いたことがありますが、どのように始めたらよいかわかりませんか? 高価なインフラストラクチャと (ビジネス ニーズを満たすのに) 役に立たないデータに終わらないようにするには、次の質問に対する回答を提供することから始めてください。

クライアントのビジネス目標は何ですか? それらを達成するためにデータをどのように使用できますか?

次に、追跡して使用できるデータの計画を開始できます。

データ収集

どのようなデータを収集する必要がありますか? この質問に対する答えは、実際にあなたを驚かせるかもしれません。 Todd Yellin (Netflix の製品イノベーション担当副社長) によると、使用できるデータには明示的データと暗黙的データの 2 種類があります[1]。 Netflix の場合、明示的とは、ユーザーが文字通り映画を評価することです。 一方、暗黙的データはユーザーのクリック数とアプリの使用状況に基づく行動データです。 どちらのタイプがより価値がありますか?

この質問に対する普遍的な答えはありませんが、ほとんどの場合、暗黙的なデータの方が便利です。 それは…人は嘘をつくからです。

ドキュメンタリーが大好きで、5/5 と評価する男性の例を考えてみましょう。 しかし、データが示すように、彼はこのジャンルを年に一度見ています。 同時に、彼は毎週金曜日の夜に人気シリーズを視聴しています。 それは、彼が仕事の後で疲れていて、ソファでくつろぎたいからです。 では、そのようなレコメンデーション システムを準備するには、評価やユーザーの行動など、どのデータを使用する必要があるでしょうか。

この質問に答えるには、その開発のビジネス目標について考える必要があります。 Netflix の目標は、ユーザーにもっと多くの映画を観てもらうことです。 彼らは、人気のある 5 つ星評価システムから始めました。 言及されたユーザーが第二次世界大戦に関する映画ではなくフレンズを見る可能性が高いことに気付いたとき、彼らはユーザーの行動に基づいた推奨システムを開発しました。 彼らはまた、5つ星の評価を落とし、それをより単純なバイナリの親指アップ、親指ダウンシステムに置き換えました.

この例が示すように、収集されたデータは、業界の特異性を考慮して選択する必要があり、ユーザーの決定とニーズを理解するのに十分な情報を提供する必要があります。 しかし、ここで別の問題が発生します。行動データ、テキスト、およびその他の非構造化データは、構造化されたモデルよりも分析して機械学習モデルで使用するのが困難です。 それでは、機能エンジニアリングについて説明します。

機能エンジニアリング

データ サイエンスにおける特徴量エンジニアリングの重要性を示すために、Google Brain の共同創設者であり、deeplearning.ai の創設者である Andrew Ng の言葉を引用したいと思います。

機能を考え出すのは難しく、時間がかかり、専門知識が必要です。 応用機械学習は基本的に特徴エンジニアリングです。 [2]。

https://forum.stanford.edu/events/2011/2011slides/plenary/2011plenaryNg.pdf

データ処理に対する目的主導型のアプローチの興味深い例は、ユーザーがホテルを 0 から 10 まで評価できる Booking.com です。 必ずしも。

幸いなことに、私たちが必要とするより多くの情報を含むユーザーのコメントもあります. Booking.com は、センチメント分析とトピック モデリングを使用して、コメントされたホテルの長所と短所、および宿泊施設に関するユーザーの好みを抽出します。

この例を考えてみましょう:

予約レビュー

トピック 部屋の設備には否定的な感情があります (ユーザーはシャワー、ベッド、Wi-Fi、エアコンについて不満を述べています)。 同時に、このユーザーは、ホテル、スタッフ、食事の価格の価値を高く評価しています。 システムは、コメントで言及されていないことも分析するため、おそらくユーザーにとって重要ではありません。この例では、ナイトライフである可能性があります.

これらの洞察により、このプラットフォームは、同様のプロファイルを持つユーザーにより適したホテルを提供できます。この場合、子供がいる家族は、静かなホテルで手頃な価格で休暇を過ごす場所を探しています。 さらに、Booking.com はコメントを並べ替えて、閲覧者にとって最も興味深い情報を一番上に表示します。

ユーザーは特定のニーズに合わせて調整されたオファーをより迅速かつ簡単に見つけることができ、これらのオファーはユーザーが購入する可能性が高いため、プラットフォームは利益を上げます。

データサイエンスに興味がありますか?

もっと詳しく知る

データ製品

データ製品を導入して満足のいく結果を得ましたか? 自己満足している時ではありません。 Netflix の例が示すように [3] 、システムを改善するための継続的な作業は、大きな利益をもたらす可能性があります。 適切な映画の推薦で十分ですか? これ以上何ができるでしょうか?

Netflix の独創的なアプローチの 1 つは、映画を推奨するだけでなく、特定のユーザーにとって最も魅力的な画像で説明することです。 彼らがあなたにGood Will Huntingを勧めたとしましょう。 過去にロマンティック コメディをたくさん見たことがあれば、キスをしているカップルの画像を目にするかもしれませんが、コメディーのファンであれば、アメリカの人気コメディアンの写真を目にする可能性が高いでしょう。

Netflix レコメンデーション システム

このアプローチにより、無数の選択肢をスクロールするユーザーは、注意を引く映画を見つける可能性がはるかに高くなります。

このレコメンデーション戦略とその他のレコメンデーション戦略には驚くべき結果があり、プラットフォームのコンテンツの 80% 以上がアルゴリズムによるレコメンデーションに基づいています。 これは、ユーザーが視聴するものが不足しにくいことを意味します。 1 つの番組が終了すると、Netflix が次の番組を提案します。

ユーザーがサブスクリプションをキャンセルする可能性がはるかに低いため、競争上の優位性を提供します。 この非常に成功したデータ サイエンスのアプリケーションは、ほとんどの場合、ビジネスとアプリのユーザーをよく理解することによって達成されました。

サマリー

今年のデータ サイエンス カンファレンスの 1 つで、信用リスク予測に携わる講演者が次のように述べました。

基本的に私の仕事は何ですかと聞かれたら、私はこう答えます。データに基づいてビジネス価値をもたらします。

私にとって、これはデータ サイエンスの最良の定義の 1 つです。 理論的な基礎のみに基づいて方向付けられるべきではなく、特にビジネスに方向付けられるべきです。 優れた機械学習アプリケーションを作成したい場合は、ユーザーがシステム内でどのように動作し、何を必要としているのかを考える必要があります。 それを念頭に置いて、ビジネス目標を成功裏に達成することができます。