Ciencia de datos orientada a los negocios
Publicado: 2018-12-13Dicen que el científico de datos es el trabajo más sexy del siglo XXI (y todos los científicos de datos que he conocido en varias conferencias lo saben). Pero cuando hablan solo de la parte teórica del aprendizaje automático, a veces me pregunto si saben por qué su trabajo es candente. La razón es que un científico de datos sabe cómo combinar datos, habilidades técnicas y conocimientos estadísticos para lograr los objetivos comerciales. Entonces, para hacer bien la ciencia de datos, primero debe pensar en el negocio.
Conozco casos en los que las empresas agregaron herramientas analíticas para rastrear el toque de cada usuario sin tener en cuenta lo que realmente quieren lograr. Recopilaron una gran cantidad de datos que no entendían y no podían utilizar para hacer avanzar su negocio.
¡No cometas tales errores! Piense en sus objetivos y la especificidad de la industria en cada paso del proceso de ciencia de datos. Cuanto más creativo sea, mayores serán sus posibilidades de éxito. Para demostrarlo, les mostraré algunos ejemplos inspiradores de Data Science en las aplicaciones de los gigantes…
Cómo comenzar su aventura de ciencia de datos
¿Ha escuchado que muchas empresas usan ML para aumentar sus ingresos, pero no tiene idea de cómo comenzar? Para no terminar con una infraestructura costosa y datos inútiles (para satisfacer las necesidades de su negocio), debe comenzar brindando respuestas a las siguientes preguntas:
¿Cuáles son los objetivos comerciales del cliente? ¿Cómo podemos usar los datos para lograrlos?
Luego puede comenzar a planificar qué datos se pueden rastrear y usar.
Recopilación de datos
¿Qué datos debemos recopilar? La respuesta a esta pregunta podría sorprenderte. Según Todd Yellin (vicepresidente de innovación de productos de Netflix), hay dos tipos de datos que se pueden usar: explícitos e implícitos [1]. En el caso de Netflix, lo explícito es cuando el usuario califica literalmente una película. Implícitos, por otro lado, están los datos de comportamiento, basados en los clics del usuario y el uso de la aplicación. ¿Qué tipo es más valioso?
No existe una respuesta universal a esta pregunta, pero en la mayoría de los casos, los datos implícitos serían más útiles . Y eso es porque… la gente miente.
Considere el ejemplo del hombre que dice que ama los documentales y los califica con 5/5. Pero, como muestran los datos, ve este género una vez al año. Al mismo tiempo, ve series populares todos los viernes por la noche. Y es que está cansado después del trabajo y solo quiere relajarse en el sofá. Entonces, ¿qué datos deberían usarse para preparar un sistema de recomendación de este tipo: calificación o comportamiento del usuario?
Para responder a esta pregunta, debemos pensar en el objetivo comercial de su desarrollo. El objetivo de Netflix es animar a un usuario a ver más películas. Han comenzado con el popular sistema de calificación de cinco estrellas. Cuando se dieron cuenta de que es más probable que los usuarios mencionados vean Friends en lugar de una película sobre la Segunda Guerra Mundial, desarrollaron el sistema de recomendación basado en el comportamiento del usuario. También eliminaron la calificación de cinco estrellas y la reemplazaron con un sistema binario más simple de pulgar hacia arriba y pulgar hacia abajo.
Como muestra este ejemplo, los datos recopilados deben seleccionarse teniendo en cuenta la especificidad de la industria y deben aportar suficiente información para comprender las decisiones y necesidades de los usuarios. Pero aquí nos encontramos con otro problema: los datos de comportamiento, los textos y otros datos no estructurados son más difíciles de analizar y utilizar en los modelos de Machine Learning que en los estructurados. Así que ahora es el momento de hablar sobre la ingeniería de características.
Ingeniería de funciones
Para mostrar cuán importante es la ingeniería de funciones en la ciencia de datos, me gustaría citar a Andrew Ng, cofundador de Google Brain y fundador de deeplearning.ai:
Crear características es difícil, lleva mucho tiempo y requiere conocimientos expertos. El aprendizaje automático aplicado es básicamente ingeniería de funciones. [2].
https://forum.stanford.edu/events/2011/2011slides/plenary/2011plenaryNg.pdf
Un ejemplo interesante de un enfoque de procesamiento de datos basado en un propósito es Booking.com, donde los usuarios pueden calificar los hoteles del 0 al 10. Pero si un fiestero califica al hotel con una calificación alta, ¿es una buena opción para las familias con niños? No necesariamente.

Afortunadamente, también hay comentarios de usuarios que contienen más información que necesitamos. Booking.com utiliza el análisis de sentimientos y el modelado de temas para extraer las fortalezas y debilidades del hotel comentado y las preferencias de los usuarios con respecto al alojamiento.
Consideremos este ejemplo:

Un tema Instalaciones de la habitación tiene un sentimiento negativo (el usuario se queja de la ducha, la cama, el wifi y el aire acondicionado). Al mismo tiempo, este usuario elogia el Valor por el precio del hotel, el personal y la comida. El sistema también analiza lo que no se mencionó en el comentario y, por lo tanto, probablemente no sea importante para el usuario; en nuestro ejemplo, puede ser la vida nocturna.
Con estos insights, la plataforma puede ofrecer hoteles más adecuados para usuarios con un perfil similar, en este caso, una familia con niños que buscan un lugar para pasar sus vacaciones en un hotel tranquilo a un precio razonable. Además, Booking.com ordena los comentarios para mostrar la información más interesante para el espectador en la parte superior.
Esto conduce a una situación en la que todos ganan: los usuarios pueden encontrar ofertas adaptadas a sus necesidades específicas de manera más rápida y sencilla, y la plataforma obtiene ganancias porque estas ofertas son las que es más probable que los usuarios compren.

¿Tienes curiosidad por la ciencia de datos?
Aprende másProducto de datos
¿Ha implementado el producto de datos con resultados satisfactorios? No es el momento de ser complacientes. Como muestra el ejemplo de Netflix [3], el trabajo continuo para mejorar el sistema puede generar ganancias significativas. ¿Es suficiente una recomendación adecuada de una película? ¿Qué más podríamos hacer?
Uno de los enfoques listos para usar de Netflix no es solo recomendar películas, sino también ilustrarlas con una imagen que sea más atractiva para un usuario determinado. Digamos que te recomiendan Good Will Hunting . Si viste muchas comedias románticas en el pasado, es posible que veas una imagen de una pareja besándose, mientras que si eres fanático de la comedia, lo más probable es que obtengas una foto de un comediante estadounidense popular:

Con este enfoque, es mucho más probable que un usuario que se desplaza a través de una gran variedad de opciones encuentre una película que llame su atención.
Esta y otras estrategias de recomendación tienen resultados asombrosos: más del 80% del contenido de la plataforma se basa en recomendaciones algorítmicas . Significa que es difícil para un usuario quedarse sin cosas para ver. Cuando termina un programa, Netflix está allí para sugerir el siguiente.
En su negocio, eso les da una ventaja competitiva porque es mucho menos probable que los usuarios cancelen sus suscripciones. Esta aplicación extremadamente exitosa de Data Science se logró principalmente gracias a la buena comprensión de sus negocios y usuarios de aplicaciones.
El resumen
En una de las conferencias de ciencia de datos de este año, un orador dedicado a las predicciones de riesgo crediticio dijo:
Cuando la gente me pregunta cuál es básicamente mi trabajo, respondo: aporto valores empresariales basados en datos.
Para mí, esta es una de las mejores definiciones de Data Science. No debe orientarse sólo en sus fundamentos teóricos, sino especialmente en los negocios. Si desea crear una buena aplicación de aprendizaje automático, debe pensar en cómo se comportan los usuarios en su sistema y qué necesitan. Con eso en mente, logrará sus objetivos comerciales con éxito.