علوم البيانات الموجهة للأعمال
نشرت: 2018-12-13يقولون إن عالم البيانات هو الوظيفة الأكثر جاذبية في القرن الحادي والعشرين (وجميع علماء البيانات الذين التقيت بهم في مؤتمرات مختلفة يعرفون ذلك). لكن عندما يتحدثون فقط عن الجزء النظري من التعلم الآلي ، أتساءل أحيانًا عما إذا كانوا يعرفون سبب سخونة عملهم. والسبب هو أن عالم البيانات يعرف كيفية الجمع بين البيانات والمهارات التقنية والمعرفة الإحصائية لتحقيق أهداف العمل. لذلك للقيام بعلوم البيانات بشكل جيد ، عليك التفكير في العمل أولاً.
أعرف حالات أضافت فيها الشركات أدوات تحليلية لتتبع لمسة كل مستخدم دون أي اعتبار لما يريدون تحقيقه بالفعل. لقد جمعوا الكثير من البيانات التي لم يفهموها ولا يمكنهم استخدامها للنهوض بأعمالهم.
لا ترتكب مثل هذه الأخطاء! فكر في أهدافك وخصوصية الصناعة في كل خطوة من خطوات عملية علوم البيانات. كلما كنت أكثر إبداعًا ، كانت فرصتك في النجاح أفضل. لإثبات ذلك ، سأعرض لك بعض الأمثلة الملهمة لعلوم البيانات في تطبيقات العمالقة ...
كيف تبدأ مغامرة علوم البيانات الخاصة بك
لقد سمعت أن العديد من الشركات تستخدم ML لزيادة دخلها ، ولكن ليس لديك فكرة عن كيفية البدء؟ حتى لا ينتهي بك الأمر ببنية تحتية باهظة الثمن وبيانات غير مفيدة (في تلبية احتياجات عملك) ، يجب أن تبدأ بتقديم إجابات للأسئلة التالية:
ما هي أهداف عمل العميل؟ كيف يمكننا استخدام البيانات لتحقيقها؟
ثم يمكنك البدء في تخطيط البيانات التي يمكن تتبعها واستخدامها.
جمع البيانات
ما هي البيانات التي يجب أن نجمعها؟ قد تفاجئك الإجابة على هذا السؤال. وفقًا لتود يلين (نائب رئيس Netflix لابتكار المنتجات) ، هناك نوعان من البيانات التي يمكن استخدامها: صريحة وضمنية [1]. في حالة Netflix ، يكون الصريح هو عندما يقوم المستخدم فعليًا بتقييم الفيلم. ضمنيًا ، من ناحية أخرى ، البيانات السلوكية - بناءً على نقرات المستخدم واستخدام التطبيق. أي نوع أكثر قيمة؟
لا توجد إجابة عالمية على هذا السؤال ، ولكن في معظم الحالات ، ستكون البيانات الضمنية أكثر فائدة . وذلك لأن الناس يكذبون.
تأمل في مثال الرجل الذي يقول إنه يحب الأفلام الوثائقية والذي صنفها 5/5. ولكن ، كما تظهر البيانات ، يشاهد هذا النوع مرة واحدة في السنة. في الوقت نفسه ، يشاهد المسلسلات الشعبية مساء كل جمعة. وذلك لأنه يشعر بالتعب بعد العمل ويريد فقط الاسترخاء على الأريكة. إذن ما هي البيانات التي يجب استخدامها لإعداد نظام التوصية هذا: التصنيف أم سلوك المستخدم؟
للإجابة على هذا السؤال ، نحتاج إلى التفكير في الهدف التجاري لتطويره. هدف Netflix هو تشجيع المستخدم على مشاهدة المزيد من الأفلام. لقد بدأوا بنظام تصنيف الخمس نجوم الشهير. عندما أدركوا أنه من المرجح أن يرى المستخدمون المذكورون أصدقاء بدلاً من فيلم عن الحرب العالمية الثانية ، فقد طوروا نظام التوصية بناءً على سلوك المستخدم. لقد قاموا أيضًا بإسقاط تصنيف الخمس نجوم واستبدله بنظام أبسط وثنائي ممتاز.
كما يوضح هذا المثال ، يجب اختيار البيانات التي تم جمعها مع مراعاة خصوصية الصناعة ويجب أن توفر معلومات كافية لفهم قرارات المستخدمين واحتياجاتهم. ولكن هنا نواجه مشكلة أخرى: البيانات السلوكية والنصوص والبيانات غير المنظمة الأخرى يصعب تحليلها واستخدامها في نماذج التعلم الآلي أكثر من النماذج المنظمة. حان الوقت الآن للحديث عن هندسة الميزات.
هندسة الخصائص
لإظهار مدى أهمية هندسة الميزات في علوم البيانات ، أود أن أقتبس من Andrew Ng - المؤسس المشارك لـ Google Brain ومؤسس deeplearning.ai:
يعد ابتكار الميزات أمرًا صعبًا ويستغرق وقتًا طويلاً ويتطلب معرفة متخصصة. التعلم الآلي التطبيقي هو في الأساس ميزة هندسية. [2].
https://forum.stanford.edu/events/2011/2011slides/plenary/2011plenaryNg.pdf
مثال مثير للاهتمام للنهج القائم على الغرض لمعالجة البيانات هو Booking.com ، حيث يمكن للمستخدمين تقييم الفنادق من 0 إلى 10. ولكن إذا قام حيوان الحفلة بتقييم الفندق بدرجة عالية ، فهل يعد اختيارًا جيدًا للعائلات التي لديها أطفال؟ ليس بالضرورة.

لحسن الحظ ، هناك أيضًا تعليقات المستخدمين التي تحتوي على المزيد من المعلومات التي نحتاجها. يستخدم Booking.com تحليل المشاعر ونمذجة الموضوع لاستخراج نقاط القوة والضعف في الفندق المعلق عليه ، وتفضيلات المستخدمين فيما يتعلق بالسكن.
لنفكر في هذا المثال:

موضوع مرافق الغرفة لديها شعور سلبي (يشتكي المستخدم من الاستحمام والسرير والواي فاي وتكييف الهواء). في الوقت نفسه ، يثني هذا المستخدم على قيمة سعر الفندق والموظفين والطعام. يحلل النظام أيضًا ما لم يتم ذكره في التعليق وبالتالي ربما لا يكون مهمًا للمستخدم - في مثالنا يمكن أن يكون الحياة الليلية.
من خلال هذه الأفكار ، يمكن للمنصة أن تقدم فنادق أكثر ملاءمة للمستخدمين الذين لديهم ملف تعريف مشابه ، في هذه الحالة ، عائلة لديها أطفال يبحثون عن مكان لقضاء العطلات في فندق هادئ بسعر معقول. علاوة على ذلك ، يقوم Booking.com بفرز التعليقات لإظهار المعلومات الأكثر إثارة للاهتمام للمشاهد في الأعلى.
يؤدي هذا إلى وضع مربح للجانبين: يمكن للمستخدمين العثور على عروض مخصصة لاحتياجاتهم الخاصة بشكل أسرع وأكثر سهولة ، وتحقق المنصة ربحًا لأن هذه العروض هي التي يُرجح أن يشتريها المستخدمون.

هل تشعر بالفضول حيال علوم البيانات؟
يتعلم أكثرمنتج البيانات
لقد قمت بنشر منتج البيانات بنتائج مرضية؟ إنه ليس الوقت المناسب للشعور بالرضا عن النفس. كما يوضح مثال Netflix [3] ، فإن العمل المستمر على تحسين النظام يمكن أن يحقق مكاسب كبيرة. هل توصية الفيلم المناسبة كافية؟ ماذا يمكننا أن نفعل أكثر من ذلك؟
أحد أساليب Netflix الجاهزة ليس فقط التوصية بالأفلام ولكن أيضًا لتوضيحها بصورة أكثر جاذبية لمستخدم معين. لنفترض أنهم يوصون بك Good Will Hunting . إذا كنت قد شاهدت الكثير من الكوميديا الرومانسية في الماضي ، فقد ترى صورة للزوجين المقبلين ، بينما إذا كنت من محبي الكوميديا ، فمن المرجح أن تحصل على لقطة لممثل كوميدي أمريكي مشهور:

باستخدام هذا النهج ، من المرجح أن يكتشف المستخدم الذي يقوم بالتمرير عبر عدد لا يحصى من الخيارات فيلمًا يلفت انتباهه.
هذه الإستراتيجيات وغيرها من التوصيات لها نتائج مذهلة - يعتمد أكثر من 80٪ من محتوى النظام الأساسي على توصيات خوارزمية . هذا يعني أنه من الصعب على المستخدم نفاد الأشياء لمشاهدتها. عند انتهاء أحد العروض ، يكون Netflix موجودًا لاقتراح العرض التالي.
يعطي ذلك ميزة تنافسية في أعمالهم لأن المستخدمين أقل احتمالاً لإلغاء اشتراكاتهم. تم تحقيق هذا التطبيق الناجح للغاية لعلوم البيانات في الغالب من خلال الفهم الجيد لمستخدمي الأعمال والتطبيقات.
موجز
في أحد مؤتمرات علوم البيانات لهذا العام ، قال متحدث مشارك في تنبؤات مخاطر الائتمان:
عندما يسألني الناس ما هي وظيفتي بشكل أساسي ، أجيب: أحضر قيم العمل بناءً على البيانات.
بالنسبة لي ، هذا هو أحد أفضل تعريفات علم البيانات. لا ينبغي أن تكون موجهة فقط على أسسها النظرية ، ولكن بشكل خاص على الأعمال التجارية. إذا كنت ترغب في إنشاء تطبيق تعليم آلي جيد ، فأنت بحاجة إلى التفكير في كيفية تصرف المستخدمين في نظامك وما يحتاجون إليه. مع وضع ذلك في الاعتبار ، ستحقق أهداف عملك بنجاح.