Ilmu Data berorientasi bisnis
Diterbitkan: 2018-12-13Mereka mengatakan Data Scientist adalah pekerjaan paling seksi di abad ke-21 (dan semua Ilmuwan Data yang saya temui di berbagai konferensi tahu itu). Tetapi ketika mereka hanya berbicara tentang bagian teoretis dari pembelajaran mesin, saya terkadang bertanya-tanya apakah mereka tahu mengapa pekerjaan mereka panas. Alasannya, seorang Data Scientist tahu bagaimana menggabungkan data, keterampilan teknis, dan pengetahuan statistik untuk mencapai tujuan bisnis. Jadi untuk melakukan Ilmu Data dengan baik, Anda perlu memikirkan bisnisnya terlebih dahulu.
Saya tahu kasus di mana perusahaan menambahkan alat analitik untuk melacak setiap sentuhan pengguna tanpa mempertimbangkan apa yang sebenarnya ingin mereka capai. Mereka mengumpulkan banyak data yang tidak mereka pahami dan tidak bisa mereka gunakan untuk memajukan bisnis mereka.
Jangan membuat kesalahan seperti itu! Pikirkan tentang tujuan Anda dan kekhususan industri pada setiap langkah proses Ilmu Data. Semakin kreatif Anda, semakin besar peluang Anda untuk sukses. Untuk membuktikannya, saya akan menunjukkan beberapa contoh inspiratif Data Science dalam aplikasi raksasa…
Bagaimana Memulai Petualangan Ilmu Data Anda
Anda pernah mendengar bahwa banyak perusahaan menggunakan ML untuk meningkatkan pendapatan mereka, tetapi Anda tidak tahu bagaimana memulainya? Agar tidak berakhir dengan infrastruktur yang mahal dan data yang tidak membantu (dalam memenuhi kebutuhan bisnis Anda), Anda harus mulai dengan memberikan jawaban atas pertanyaan-pertanyaan berikut:
Apa tujuan bisnis klien? Bagaimana kita bisa menggunakan data untuk mencapainya?
Kemudian Anda dapat mulai merencanakan data apa yang dapat dilacak dan digunakan.
Pengumpulan data
Data apa yang harus kita kumpulkan? Jawaban atas pertanyaan ini mungkin benar-benar mengejutkan Anda. Menurut Todd Yellin (VP of Product Innovation Netflix), ada dua jenis data yang dapat digunakan: eksplisit dan implisit [1]. Dalam kasus Netflix, eksplisit adalah ketika pengguna benar-benar menilai film. Implisit, di sisi lain, adalah data perilaku – berdasarkan klik pengguna dan penggunaan aplikasi. Jenis mana yang lebih berharga?
Tidak ada jawaban universal untuk pertanyaan ini, tetapi dalam banyak kasus, data implisit akan lebih berguna . Dan itu karena… orang berbohong.
Perhatikan contoh pria yang mengatakan bahwa dia menyukai film dokumenter dan yang menilainya 5/5. Tapi, seperti yang ditunjukkan data, dia menonton genre ini setahun sekali. Pada saat yang sama, ia menonton serial populer setiap Jumat malam. Dan itu karena dia lelah setelah bekerja dan hanya ingin bersantai di sofa. Jadi data apa yang harus digunakan untuk menyiapkan sistem rekomendasi seperti itu: peringkat atau perilaku pengguna?
Untuk menjawab pertanyaan ini, kita perlu memikirkan tujuan bisnis dari pengembangannya. Tujuan Netflix adalah mendorong pengguna untuk menonton lebih banyak film. Mereka telah memulai dengan sistem peringkat bintang lima yang populer. Ketika mereka menyadari bahwa kemungkinan besar pengguna yang disebutkan akan melihat Teman daripada film tentang Perang Dunia II, mereka telah mengembangkan sistem rekomendasi berdasarkan perilaku pengguna. Mereka juga telah menurunkan peringkat bintang lima dan menggantinya dengan sistem biner jempol ke atas, jempol ke bawah yang lebih sederhana.
Seperti yang ditunjukkan contoh ini, data yang dikumpulkan harus dipilih dengan pertimbangan kekhususan industri dan harus membawa informasi yang cukup untuk memahami keputusan dan kebutuhan pengguna. Tapi di sini kita menghadapi masalah lain: data perilaku, teks, dan data tidak terstruktur lainnya lebih sulit untuk dianalisis dan digunakan dalam model Machine Learning daripada yang terstruktur. Jadi sekarang saatnya berbicara tentang rekayasa fitur.
Rekayasa Fitur
Untuk menunjukkan betapa pentingnya rekayasa fitur dalam Ilmu Data, saya ingin mengutip Andrew Ng – salah satu pendiri dan pendiri deeplearning.ai Google Brain:
Menghasilkan fitur itu sulit, memakan waktu, membutuhkan pengetahuan ahli. Pembelajaran mesin terapan pada dasarnya adalah rekayasa fitur. [2].
https://forum.stanford.edu/events/2011/2011slides/plenary/2011plenaryNg.pdf
Contoh menarik dari pendekatan yang digerakkan oleh tujuan untuk pemrosesan data adalah Booking.com, di mana pengguna dapat menilai hotel dari 0 hingga 10. Tetapi jika hewan pesta memberi harga tinggi pada hotel, apakah itu pilihan yang baik untuk keluarga dengan anak-anak? Belum tentu.

Untungnya, ada juga komentar pengguna yang berisi lebih banyak informasi yang kami butuhkan. Booking.com menggunakan analisis sentimen dan pemodelan topik untuk mengekstrak kekuatan dan kelemahan hotel yang dikomentari, dan preferensi pengguna terkait akomodasi.
Mari kita pertimbangkan contoh ini:

Topik Fasilitas kamar memiliki sentimen negatif (pengguna mengeluh tentang shower, tempat tidur, wifi, dan AC). Pada saat yang sama, pengguna ini memuji Nilai untuk harga hotel, staf, dan makanan. Sistem juga menganalisis apa yang tidak disebutkan dalam komentar dan oleh karena itu mungkin tidak penting bagi pengguna – dalam contoh kami yang dapat berupa kehidupan malam.
Dengan wawasan ini, platform dapat menawarkan hotel yang lebih cocok untuk pengguna dengan profil serupa, dalam hal ini, keluarga dengan anak-anak yang mencari tempat untuk menghabiskan liburan di hotel yang tenang dengan harga yang wajar. Terlebih lagi, Booking.com mengurutkan komentar untuk menampilkan informasi paling menarik bagi pemirsa di bagian atas.
Ini mengarah pada situasi win-win: pengguna dapat menemukan penawaran yang disesuaikan untuk kebutuhan spesifik mereka dengan lebih cepat dan lebih mudah, dan platform menghasilkan keuntungan karena penawaran inilah yang kemungkinan besar akan dibeli oleh pengguna.

Penasaran dengan Ilmu Data?
Belajarlah lagiProduk Data
Anda telah menerapkan produk data dengan hasil yang memuaskan? Ini bukan waktunya untuk berpuas diri. Seperti yang ditunjukkan oleh contoh Netflix [3] , pekerjaan terus menerus untuk meningkatkan sistem dapat membawa keuntungan yang signifikan. Apakah rekomendasi film yang tepat sudah cukup? Apa lagi yang bisa kami lakukan?
Salah satu pendekatan Netflix out-of-the-box tidak hanya untuk merekomendasikan film tetapi juga untuk mengilustrasikannya dengan gambar yang paling menarik bagi pengguna tertentu. Katakanlah mereka merekomendasikan Anda Good Will Hunting . Jika Anda menonton banyak romcom di masa lalu, Anda mungkin melihat gambar pasangan berciuman, sedangkan jika Anda adalah penggemar komedi, kemungkinan besar Anda akan mendapatkan foto komedian Amerika yang populer:

Dengan pendekatan ini, pengguna yang menggulir berbagai pilihan jauh lebih mungkin untuk menemukan film yang menarik perhatian mereka.
Strategi rekomendasi ini dan lainnya memiliki hasil yang mencengangkan – lebih dari 80% konten platform didasarkan pada rekomendasi algoritmik . Artinya, sulit bagi pengguna untuk kehabisan tontonan. Ketika satu pertunjukan selesai, Netflix akan menyarankan yang berikutnya.
Dalam bisnis mereka yang memberikan keunggulan kompetitif karena pengguna cenderung tidak membatalkan langganan mereka. Aplikasi Ilmu Data yang sangat sukses ini sebagian besar dicapai dengan pemahaman yang baik tentang bisnis dan pengguna aplikasi mereka.
Ringkasan
Pada salah satu konferensi Ilmu Data tahun ini, seorang pembicara yang terlibat dalam prediksi risiko kredit mengatakan:
Ketika orang bertanya apa pekerjaan saya pada dasarnya, saya menjawab: Saya membawa nilai bisnis berdasarkan data.
Bagi saya, ini adalah salah satu definisi terbaik dari Ilmu Data. Seharusnya tidak hanya berorientasi pada landasan teoritisnya, tetapi terutama pada bisnis. Jika Anda ingin membuat aplikasi Machine Learning yang baik, Anda perlu memikirkan bagaimana perilaku pengguna di sistem Anda dan apa yang mereka butuhkan. Dengan mengingat hal itu, Anda akan mencapai tujuan bisnis Anda dengan sukses.