¿Cuántas pruebas A/B debería ejecutar al mes?

Publicado: 2023-01-19

¿Cuántas pruebas A:B debe realizar al mes?

Es una pregunta importante a considerar para el éxito de su programa de pruebas.

Ejecute demasiadas pruebas y puede desperdiciar recursos sin obtener mucho valor de ningún experimento individual.

Pero ejecute muy pocas pruebas y puede perder importantes oportunidades de optimización que podrían generar más conversiones.

Entonces, dado este enigma, ¿cuál es la cadencia de prueba ideal?

Para ayudar a responder a esa pregunta, hace $en$e mirar a algunos de los equipos de experimentación más exitosos y progresivos del mundo.

Amazon es uno de esos nombres que me viene a la mente.

El gigante del comercio electrónico también es un gigante de la experimentación. De hecho, se dice que Amazon realiza más de 12.000 experimentos al año. Esta cantidad se desglosa en unos mil experimentos al mes.

Se dice que empresas como Google y Bing de Microsoft mantienen un ritmo similar.

Según Wikipedia, los gigantes de los motores de búsqueda ejecutan cada uno más de 10.000 pruebas A/B al año o alrededor de 800 pruebas al mes.

Y no son sólo los motores de búsqueda los que funcionan a este ritmo.

Booking.com es otro nombre notable en la experimentación. Se informa que el sitio de reserva de viajes ejecuta más de 25,000 pruebas al año, lo que equivale a más de 2 mil pruebas al mes o 70 pruebas al día.

Sin embargo, los estudios muestran que la empresa promedio ejecuta solo 2-3 pruebas al mes.

Por lo tanto, si la mayoría de las empresas realizan solo unas pocas pruebas al mes, pero algunas de las mejores del mundo realizan miles de experimentos al mes, ¿cuántas pruebas debería ejecutar idealmente?

Al más puro estilo CRO, la respuesta es: depende.

¿De qué depende? Una serie de factores importantes que debe tener en cuenta.

La cantidad ideal de pruebas A/B para ejecutar está determinada por la situación específica y factores como el tamaño de la muestra, la complejidad de las ideas de prueba y los recursos disponibles.

Los 6 factores a tener en cuenta al realizar pruebas A/B

Hay 6 factores esenciales a considerar al decidir cuántas pruebas ejecutar al mes. Incluyen

Requisitos de tamaño de muestra
Madurez organizacional
Recursos disponibles
Complejidad de las ideas de prueba
Plazos de prueba
Efectos de interacción

Profundicemos en cada uno.

Requisitos de tamaño de muestra

En las pruebas A/B, el tamaño de la muestra describe la cantidad de tráfico que necesita para ejecutar una prueba confiable.

Para ejecutar un estudio estadísticamente válido, necesita una muestra grande y representativa de usuarios.

Si bien, en teoría, puede ejecutar un experimento con solo unos pocos usuarios, no obtendrá resultados muy significativos.

Los tamaños de muestra bajos aún pueden producir resultados estadísticamente significativos

Por ejemplo, imagine una prueba A/B en la que solo 10 usuarios vieron la versión A y la 2 convertidas. Y solo 8 usuarios vieron la versión B con 6 que se convirtieron.

Como muestra este gráfico, los resultados son estadísticamente significativos:

Ejemplo de resultados de prueba estadísticamente significativos

La versión B parece superar en un 275%. Pero, estos hallazgos no son muy confiables. El tamaño de la muestra es demasiado bajo para proporcionar resultados significativos.

El estudio tiene poca potencia. No contiene una muestra grande y representativa de usuarios.

Debido a que la prueba tiene poca potencia, los resultados son propensos a errores. Y no está claro si el resultado ocurrió solo por casualidad o si una versión es realmente superior.

Con esta pequeña muestra, es fácil sacar conclusiones incorrectas.

Pruebas correctamente alimentadas

Para superar este escollo, las pruebas A/B deben funcionar adecuadamente con una muestra grande y representativa de usuarios.

¿Qué tan grande es lo suficientemente grande?

Esta pregunta se puede responder haciendo algunos cálculos simples del tamaño de la muestra.

Para calcular más fácilmente sus requisitos de tamaño de muestra, sugiero usar una calculadora de tamaño de muestra. Hay muchos mas por ahi.

Mi favorito es el de Evan Miller porque es flexible y completo. Además, si puede entender cómo usarlo, puede comprender casi cualquier calculadora que exista.

Así es como se ve la calculadora de Evan Miller:

Calculadora de tamaño de muestra de Evan Miller

Si bien los cálculos en sí son bastante simples, comprender la terminología detrás de ellos no lo es. Así que he intentado aclarar el complejo:

Tasa de conversión de referencia

La tasa de conversión de referencia es la tasa de conversión existente del control o la versión original. Por lo general, se etiqueta como "versión A" cuando se configura una prueba A/B.

Debería poder encontrar esta tasa de conversión dentro de su plataforma de análisis.

Si nunca ha realizado una prueba A/B, o no conoce la tasa de conversión de referencia, haga su mejor suposición.

La tasa de conversión promedio, en la mayoría de los sitios, sectores verticales de la industria y tipos de dispositivos, se encuentra entre el 2 y el 5 %. Por lo tanto, si realmente no está seguro de su tasa de conversión de referencia, sea precavido y comience con una referencia del 2 %.

Cuanto menor sea la tasa de conversión de referencia, mayor será el tamaño de la muestra que necesitará. Y viceversa.

Efecto mínimo detectable (MDE)

El efecto mínimo detectable (MDE) suena como un concepto complicado. Pero se vuelve mucho más fácil de comprender si divide el término en sus tres partes:

Mínimo = más pequeño
Detectable = desea que esté tratando de detectar, o encontrar, ejecutando el experimento
Efecto = diferencia de conversión entre el control y el tratamiento

Por lo tanto, el efecto mínimo detectable es el aumento de conversión más pequeño que espera detectar al ejecutar la prueba.

Algunos puristas de datos argumentarán que esta definición en realidad describe el Efecto Mínimo de Interés (MEI). Como quiera llamarlo, el objetivo es anticipar qué tan grande es el aumento de conversión que espera obtener al ejecutar la prueba.

Si bien este ejercicio puede parecer muy especulativo, puede usar una calculadora de tamaño de muestra como esta o la calculadora estadística de prueba A/B de Convert para calcular el MDE anticipado.

Como regla general, un MDE de 2-5% se considera razonable. Cualquier cosa mucho más alta generalmente no es realista cuando se ejecuta una prueba verdaderamente impulsada correctamente.

Cuanto menor sea el MDE, mayor será el tamaño de muestra necesario. Y viceversa.

Un MDE se puede expresar como una cantidad absoluta o relativa.

Absoluto

Un MDE absoluto es la diferencia numérica sin procesar entre la tasa de conversión del control y la variante.

Por ejemplo, si la tasa de conversión de referencia es del 2,77 % y espera que la variante logre un MDE absoluto de +3 %, la diferencia absoluta es del 5,77 %.

Pariente

En cambio, un efecto relativo expresa la diferencia porcentual entre las variantes.

Por ejemplo, si la tasa de conversión de referencia es del 2,77 % y espera que la variante logre un MDE relativo del +3 %, la diferencia relativa es del 2,89 %.

En general, la mayoría de los experimentadores usan un porcentaje relativo de elevación, por lo que, por lo general, es mejor representar los resultados de esta manera.

Potencia estadística 1−β

El poder se refiere a la probabilidad de encontrar un efecto, o diferencia de conversión, suponiendo que realmente exista.

En las pruebas, su objetivo es asegurarse de tener suficiente poder para detectar significativamente una diferencia, si existe, sin error. Por lo tanto, un poder superior siempre es mejor. Pero la compensación es que requiere un tamaño de muestra más grande.

Una potencia de 0,80 se considera la mejor práctica estándar. Por lo tanto, puede dejarlo como el rango predeterminado en esta calculadora.

Esta cantidad significa que hay un 80 % de posibilidades de que, si hay un efecto, lo detecte con precisión y sin errores. Como tal, solo hay un 20% de posibilidades de que no detecte correctamente el efecto. Un riesgo que vale la pena correr.

Nivel de significación α

Como definición muy simple, el nivel de significación alfa es la tasa de falsos positivos, o el porcentaje de tiempo en que se detectará una diferencia de conversión, aunque en realidad no exista.

Como práctica recomendada de las pruebas A/B, su nivel de significación debe ser del 5 % o inferior. Así que puedes dejarlo como predeterminado en esta calculadora.

Un nivel de significación α del 5 % significa que hay un 5 % de posibilidades de que encuentre una diferencia entre el control y la variante, cuando en realidad no existe ninguna diferencia.

Una vez más, un riesgo que vale la pena correr.

Evaluación de los requisitos de tamaño de muestra

Con estos números conectados a su calculadora, ahora puede asegurarse de que su sitio tenga suficiente tráfico para ejecutar una prueba con la potencia adecuada durante un período de prueba estándar de 2 a 6 semanas.

Para verificar, ingrese a su plataforma de análisis preferida y mire la tasa de tráfico promedio histórica del sitio o página que desea probar, durante un período finito.

Por ejemplo, en esta cuenta de Google Analytics 4 (GA4), al ir a la pestaña Ciclo de vida > Adquisición > Descripción general de la adquisición, puede ver que había 365 000 usuarios en el período de tiempo histórico reciente entre octubre y noviembre de 2022:

Dimensión número de usuarios de GA4 — *Este intervalo de fechas se utilizó para evitar cambios en el tráfico estacional durante el período de vacaciones.*

Basado en una tasa de conversión de referencia existente del 3,5 %, con un MDE relativo del 5 %, con una potencia estándar del 80 % y un nivel de significación estándar del 5 %, la calculadora muestra que se necesita un tamaño de muestra de 174 369 visitantes por variante para ejecutar correctamente Prueba A/B alimentada:

Ejemplo de calculadora de tamaño de muestra de Evan Miller

Suponiendo que las tendencias de tráfico se mantengan relativamente estables durante los próximos meses, es razonable esperar que el sitio logre alrededor de 365 000 usuarios o (365 000/2 variantes) 182 000 visitantes por variante dentro de un marco de tiempo de prueba razonable.

Los requisitos de tamaño de la muestra son alcanzables, lo que da luz verde para continuar y ejecutar la prueba.

Una nota importante, este ejercicio de verificación de requisitos de tamaño de muestra siempre debe realizarse ANTES de ejecutar cualquier estudio para que sepa si tiene suficiente tráfico para ejecutar una prueba con la potencia adecuada.

Además, al ejecutar la prueba, NUNCA debe detenerla antes de alcanzar los requisitos de tamaño de muestra calculados previamente, incluso si los resultados parecen significativos antes.

Declarar prematuramente un ganador o perdedor antes de cumplir con los requisitos de tamaño de la muestra es lo que se conoce como "mirar a escondidas" y es una práctica de prueba peligrosa que puede llevarlo a realizar llamadas incorrectas antes de que los resultados se eliminen por completo.

¿Cuántas pruebas puede ejecutar si tiene suficiente tráfico?

Suponiendo que el sitio o la(s) página(s) que desea probar cumplen con los requisitos de tamaño de muestra, ¿cuántas pruebas puede ejecutar?

La respuesta es, de nuevo, depende.

Según una presentación compartida por Ronny Kohavi, exvicepresidente de experimentación de Bing de Microsoft, Microsoft suele realizar más de 300 experimentos al día.

Pero tienen el tráfico para hacerlo.

Cada experimento ve más de 100 mil usuarios:

Pruebas simultáneas de Microsoft Bing 300

Cuanto mayor sea el tráfico disponible, más pruebas podrá ejecutar.

Con cualquier prueba, debe asegurarse de tener un tamaño de muestra lo suficientemente grande para ejecutar un experimento con la potencia adecuada.

Si es una organización más pequeña con un tráfico más limitado, considere menos pruebas de mayor calidad.

Al final del día, no se trata realmente de cuántas pruebas está ejecutando, sino del resultado de sus experimentos.

Opciones si no puede cumplir con los requisitos de tamaño de muestra

Si descubre que no puede cumplir con los requisitos de tamaño de muestra, no se preocupe. La experimentación no está descartada para ti. Tiene algunas posibles opciones de experimentación disponibles:

Centrarse en la adquisición de tráfico

Incluso los sitios grandes pueden tener poco tráfico en ciertas páginas.

Si encuentra que el tráfico del sitio, o el tráfico en ciertas páginas, no cumple con los requisitos de tamaño de muestra, considere concentrar sus esfuerzos en adquirir más tráfico.

Para hacerlo, puede emprender tácticas agresivas de optimización de motores de búsqueda (SEO) para obtener una clasificación más alta en los motores de búsqueda y obtener más clics.

También puede adquirir tráfico pago a través de canales como Google Ads, anuncios de LinkedIn o incluso anuncios publicitarios.

Ambas actividades de adquisición pueden ayudar a impulsar el tráfico web y brindarle una mayor capacidad para probar qué convierte mejor con los usuarios.

Sin embargo, si utiliza tráfico pago para cumplir con los requisitos de tamaño de muestra, considere segmentar los resultados de la prueba por tipo de tráfico, ya que el comportamiento de los visitantes puede diferir según la fuente de tráfico.

Evalúe si las pruebas A/B son el mejor método de experimentación para usted

Si bien las pruebas A/B se consideran el estándar de oro de la experimentación, los resultados son tan buenos como los datos detrás de ellos.

Si descubre que no tiene suficiente tráfico para ejecutar una prueba con la potencia adecuada, es posible que desee considerar si la prueba A/B es realmente la mejor opción de experimentación para usted.

Hay otros enfoques basados en la investigación que requieren muestras mucho más pequeñas y aún pueden generar información de optimización increíblemente valiosa.

Las pruebas de experiencia del usuario (UX), las encuestas de consumidores, las encuestas de salida o las entrevistas con clientes son algunas otras modalidades de experimentación que puede probar como alternativa a las pruebas A/B.

Darse cuenta de que los resultados pueden proporcionar solo datos direccionales

Pero si sigue interesado en las pruebas A/B, aún puede ejecutar pruebas.

Solo tenga en cuenta que los resultados pueden no ser completamente precisos y solo proporcionarán "datos direccionales" que indiquen el resultado probable, en lugar de totalmente confiable.

Dado que los resultados pueden no ser del todo ciertos, querrá monitorear de cerca el efecto de conversión a lo largo del tiempo.

Dicho esto, lo que suele ser más importante que las cifras de conversión precisas son los números de la cuenta bancaria. Si están subiendo, sabes que el trabajo de optimización que estás haciendo está funcionando.

Prueba de madurez

Además de los requisitos de tamaño de la muestra, otro factor que influye en la cadencia de las pruebas es el nivel de madurez de la organización de pruebas.

Probar la madurez es un término que se usa para describir qué tan arraigada está la experimentación dentro de una cultura organizacional y qué tan avanzadas son las prácticas de experimentación.

Organizaciones como Amazon, Google, Bing y Booking, que realizan miles de pruebas al mes, cuentan con equipos de pruebas avanzados y maduros.

Eso no es coincidencia.

La cadencia de prueba tiende a estar estrechamente ligada al nivel de madurez de una organización.

Si la experimentación está arraigada dentro de la organización, la gerencia está comprometida con ella. Además, los empleados, en toda la organización, suelen ser alentados a apoyar y priorizar la experimentación, e incluso pueden ayudar a proporcionar ideas de prueba.

Cuando estos factores se juntan, es mucho más fácil ejecutar un programa de prueba conveniente.

Si espera aumentar las pruebas, puede ser útil observar primero el nivel de madurez de su organización.

Comience evaluando preguntas como

¿Qué tan importante es la experimentación para C-Suite?
¿Qué recursos se proporcionan para fomentar la experimentación?
¿Qué canales de comunicación están disponibles para comunicar las actualizaciones de las pruebas?

Si la respuesta es "ninguna" o casi, considere trabajar primero en crear una cultura de prueba.

A medida que su organización adopte una cultura de experimentación más progresiva, será naturalmente más fácil aumentar la cadencia de prueba.

Para obtener sugerencias sobre cómo crear una cultura de experimentación, consulte recursos como este artículo y este.

Restricciones de recursos

Suponiendo que ya tenga algún grado de compromiso organizativo, el próximo problema a combatir son las limitaciones de recursos.

El tiempo, el dinero y el poder humano son limitaciones que pueden limitar su capacidad para realizar pruebas. Y prueba rápidamente.

Para superar las limitaciones de recursos, puede ser útil comenzar evaluando la complejidad de la prueba.

Equilibrar pruebas simples y complejas

Como experimentador, puede optar por ejecutar pruebas que van desde súper simples hasta locamente complejas.

Las pruebas simples pueden incluir la optimización de elementos como copiar o colorear, actualizar imágenes o mover elementos individuales en una página.

Las pruebas complejas pueden implicar cambiar varios elementos, alterar la estructura de la página o actualizar el embudo de conversión. Este tipo de pruebas a menudo requieren un trabajo de codificación profundo.

A través de la ejecución de miles de pruebas A/B, me resultó útil tener una combinación de aproximadamente ⅗ pruebas más simples y ⅖ más complejas ejecutándose simultáneamente en todo momento.

Las pruebas más simples pueden brindarle ganancias rápidas y fáciles.

Pero las pruebas más grandes, con cambios más grandes, a menudo producen efectos más grandes. De hecho, de acuerdo con algunas investigaciones de optimización, cuantas más pruebas y más complejas ejecute, más probabilidades tendrá de éxito. Así que no tenga miedo de realizar grandes pruebas de swing con frecuencia.

Solo tenga en cuenta que la compensación es que gastará más recursos en el diseño y la creación de la prueba. Y no hay garantía de que gane.

Prueba basada en recursos humanos disponibles

Si eres un estratega de CRO en solitario o trabajas con un equipo pequeño, tu capacidad es limitada. Ya sea simple o complejo, puede encontrar de 2 a 5 pruebas por mes.

Por el contrario, si está en una organización que tiene un equipo dedicado de investigadores, estrategas, diseñadores, desarrolladores y especialistas en control de calidad, es probable que tenga la capacidad de ejecutar de docenas a cientos de pruebas al mes.

Para determinar cuántas pruebas debe ejecutar, evalúe la disponibilidad de sus recursos humanos.

En promedio, una prueba simple puede tomar de 3 a 6 horas para idear, estructurar, diseñar, desarrollar, implementar, realizar control de calidad y monitorear los resultados.

Por otro lado, una prueba muy compleja puede tardar entre 15 y 20 horas.

Hay alrededor de 730 horas en un mes, por lo que querrá ser muy calculador sobre las pruebas y la cantidad de pruebas que está ejecutando durante este tiempo precioso.

Planifique y priorice sus ideas de prueba

Para ayudarlo a trazar su estructura de prueba óptima, considere usar un marco de priorización de prueba, como PIE, ICE o PXL.

Estos marcos proporcionan una técnica cuantitativa para clasificar sus principales ideas de prueba, evaluar la facilidad de implementación y evaluar qué pruebas tienen más probabilidades de aumentar las conversiones.

Al realizar esta evaluación, su lista priorizada de ideas de prueba se verá así:

Con sus mejores ideas de prueba clasificadas, también se recomienda que cree una hoja de ruta de prueba para planificar visualmente su cronograma de prueba y los próximos pasos.

Su hoja de ruta puede ser algo como esto:

Debe incluir:

La lista de ideas que planea probar, por página.
Cuánto tiempo anticipa que tomará cada etapa de prueba (diseño, desarrollo, control de calidad, etc.).
Cuánto tiempo planea ejecutar cada prueba, según los requisitos de tamaño de muestra calculados previamente. Puede calcular los requisitos de duración de la prueba utilizando una calculadora de duración de la prueba como esta.

Al trazar sus ideas de prueba, podrá determinar con mayor precisión la cadencia y la capacidad de la prueba.

A medida que completa su hoja de ruta de prueba, puede quedar muy claro que la cantidad de pruebas que puede ejecutar se basa en los recursos que tiene disponibles.

¿Debe ejecutar varias pruebas a la vez?

Pero el hecho de que puedas hacer algo no siempre significa que debas hacerlo.

Cuando se trata de ejecutar varias pruebas a la vez, existe un gran debate sobre cuál es el mejor enfoque.

Los artículos, como este, del líder de Experiment Nation, Rommil Santiago, plantean una pregunta polémica: ¿está bien ejecutar varias pruebas A/B simultáneamente?

Algunos experimentadores dirán, ¡absolutamente no!

Argumentarán que solo debe ejecutar una prueba, una página a la vez. De lo contrario, no podrá aislar correctamente ningún efecto.

Solía estar en este campamento porque así me enseñaron hace casi una década.

Se me enseñó estrictamente que solo debe ejecutar una prueba, con un cambio, en una página, a la vez. Operé con esta mentalidad durante muchos años, para consternación de los clientes ansiosos que querían más resultados más rápido.

Sin embargo, este artículo de Timothy Chan, excientífico de datos en Facebook y ahora científico de datos líder en Statsig, me hizo cambiar de opinión por completo.

En su artículo, argumenta Chan, los efectos de interacción están sobrevalorados.

De hecho, ejecutar varias pruebas al mismo tiempo no solo no es un problema; es realmente la única manera de probar!

Esta postura está respaldada por datos de su tiempo en Facebook, donde Chan vio al gigante de las redes sociales ejecutar con éxito cientos de experimentos simultáneamente, muchos de ellos incluso en la misma página.

Los expertos en datos como Ronny Kohavi y Hazjier Pourkhalkhali están de acuerdo: los efectos de interacción son muy poco probables. Y, de hecho, la mejor manera de probar el éxito es ejecutar múltiples pruebas en múltiples momentos, de forma continua.

Por lo tanto, cuando considere evaluar la cadencia, no se preocupe por el efecto de interacción de las pruebas superpuestas. Prueba generosamente.

Resumen

En las pruebas A/B, no hay una cantidad óptima de pruebas A/B que debas ejecutar.

El número ideal es el adecuado para su situación particular.

Este número se basa en varios factores, incluidas las limitaciones de tamaño de muestra de su sitio, la complejidad de las ideas de prueba y el soporte y los recursos disponibles.

Al final, no se trata tanto de la cantidad de pruebas que ejecuta, sino de la calidad de las pruebas y los resultados que obtiene. Una sola prueba que aporta un gran impulso es mucho más valiosa que varias pruebas no concluyentes que no mueven la aguja.

¡La prueba realmente se trata de calidad sobre cantidad!

Para obtener más información sobre cómo obtener el máximo valor de su programa de pruebas A/B, consulte este artículo de Convert.