Semnificația statistică a testării A/B: cum și când se încheie un test

Publicat: 2020-05-22
Semnificația statistică a testării A/B: cum și când se încheie un test

În analiza noastră recentă a 28.304 de experimente desfășurate de clienții Convert, am constatat că doar 20% dintre experimente ating nivelul de semnificație statistică de 95%. Econsultancy a descoperit o tendință similară în raportul său de optimizare din 2018. Două treimi dintre respondenții săi văd un „câștigător clar și semnificativ din punct de vedere statistic” în doar 30% sau mai puțin din experimentele lor.

Deci majoritatea experimentelor (70-80%) sunt fie neconcludente, fie oprite mai devreme.

Dintre acestea, cele oprite mai devreme reprezintă un caz curios, deoarece optimizatorii preiau apelul pentru a încheia experimentele atunci când consideră că este potrivit. Ei fac acest lucru atunci când pot fie „vede” un câștigător (sau învins) clar, fie un test clar nesemnificativ. De obicei, au și niște date care să-l justifice.

Tabloul de bord pentru raportarea datelor
Sursa: https://unsplash.com

Acest lucru ar putea să nu fie atât de surprinzător, având în vedere că 50% dintre optimizatori nu au un „punct de oprire” standard pentru experimentele lor. Pentru cei mai mulți, acest lucru este o necesitate, datorită presiunii de a trebui să mențină o anumită viteză de testare (XXX teste/lună) și cursei pentru a-și domina competiția.

Apoi, există și posibilitatea ca un experiment negativ să afecteze veniturile. Cercetările noastre au arătat că experimentele necâștigătoare, în medie, pot provoca o scădere cu 26% a ratei de conversie !

Toate acestea fiind spuse, terminarea experimentelor devreme este încă riscantă...

… pentru că lasă probabilitatea ca experimentul să se desfășoare pe durata dorită, alimentată de dimensiunea potrivită a eșantionului, rezultatul său ar fi putut fi diferit.

Deci, cum știu echipele care încheie experimentele devreme când este timpul să le încheie? Pentru majoritatea, răspunsul constă în elaborarea unor reguli de oprire care accelerează luarea deciziilor, fără a compromite calitatea acesteia.

Îndepărtarea de la regulile tradiționale de oprire

Pentru experimentele web, o valoare p de 0,05 servește ca standard. Această toleranță la erori de 5% sau nivelul de semnificație statistică de 95% îi ajută pe optimizatori să mențină integritatea testelor lor. Ei se pot asigura că rezultatele sunt rezultate reale și nu întâmplări.

În modelele statistice tradiționale pentru testarea cu orizont fix – în care datele de testare sunt evaluate doar o dată la un moment fix sau la un anumit număr de utilizatori implicați – veți accepta un rezultat ca fiind semnificativ atunci când aveți o valoare p mai mică de 0,05. În acest moment, puteți respinge ipoteza nulă că controlul și tratamentul dumneavoastră sunt aceleași și că rezultatele observate nu sunt întâmplătoare.

Spre deosebire de modelele statistice care vă oferă posibilitatea de a vă evalua datele pe măsură ce sunt colectate, astfel de modele de testare vă interzic să examinați datele experimentului în timpul desfășurării acestuia. Această practică – cunoscută și sub denumirea de peeking – este descurajată în astfel de modele, deoarece valoarea p fluctuează aproape zilnic. Veți vedea că un experiment va fi semnificativ într-o zi, iar a doua zi, valoarea lui p va crește până la un punct în care nu mai este semnificativă.

semnificație statistică fluctuantă
Sursa: Varianceexplained.org

Simulări ale valorilor p reprezentate grafic pentru o sută de experimente (20 de zile); doar 5 experimente ajung să fie de fapt semnificative la 20 de zile, în timp ce multe ating ocazional pragul <0,05 între timp.

Dacă aruncați o privire la experimentele dvs. între timp, puteți arăta rezultate care nu există. De exemplu, mai jos aveți un test A/A folosind un nivel de semnificație de 0,1. Deoarece este un test A/A, nu există nicio diferență între control și tratament. Cu toate acestea, după 500 de observații în timpul experimentului în curs, există o șansă de peste 50% de a concluziona că sunt diferite și că ipoteza nulă poate fi respinsă:

Observații de testare A/A
Sursa: CodeCraft

Iată încă unul dintr-un test A/A de 30 de zile în care valoarea p scade la zona de semnificație de mai multe ori între timp, doar pentru a fi în sfârșit mult mai mare decât limita:

scăderi intermediare de semnificație
Sursa: Un articol pe Medium

Raportarea corectă a unei valori p dintr-un experiment cu orizont fix înseamnă că trebuie să vă angajați în prealabil pentru o dimensiune fixă ​​a eșantionului sau o durată de test. Unele echipe adaugă, de asemenea, un anumit număr de conversii la acest experiment, criterii de oprire și o lungime prevăzută.

Cu toate acestea, problema aici este că a avea suficient trafic de testare pentru a alimenta fiecare experiment pentru oprirea optimă a utilizării acestei practici standard este dificil pentru majoritatea site-urilor web.

Iată unde vă ajută folosirea metodelor de testare secvențială care acceptă reguli de oprire opționale.

Trecerea către reguli de oprire flexibile care permit luarea unor decizii mai rapide

Metodele de testare secvențială vă permit să accesați datele experimentelor așa cum apar și să utilizați propriile modele de semnificație statistică pentru a identifica câștigătorii mai repede, cu reguli de oprire flexibile.

Echipele de optimizare de la cele mai înalte niveluri de maturitate CRO își elaborează adesea propriile metodologii statistice pentru a sprijini astfel de testare. Unele instrumente de testare A/B au, de asemenea, acest lucru în ele și ar putea sugera dacă o versiune pare să fie câștigătoare. Iar unele vă oferă control deplin asupra modului în care doriți să fie calculată semnificația dvs. statistică, cu valorile dvs. personalizate și multe altele. Așa că poți să arunci o privire și să vezi un câștigător chiar și într-un experiment în desfășurare.

Statistician, autor și instructor al cursului popular CXL despre statisticile de testare A/B, Georgi Georgiev este potrivit pentru astfel de metode de testare secvențială care permit flexibilitate în ceea ce privește numărul și momentul analizelor intermediare:

Testarea secvențială vă permite să maximizați profiturile prin implementarea timpurie a unei variante câștigătoare, precum și să opriți testele care au probabilități reduse de a produce un câștigător cât mai curând posibil. Acesta din urmă minimizează pierderile din cauza variantelor inferioare și accelerează testarea atunci când este puțin probabil ca variantele să depășească controlul. Rigoarea statistic este menținută în toate cazurile.

Georgiev a lucrat chiar la un calculator care ajută echipele să renunțe la modelele fixe de testare a eșantionului pentru unul care poate detecta un câștigător în timp ce un experiment este încă în desfășurare. Modelul său ia în calcul o mulțime de statistici și vă ajută să apelați teste cu aproximativ 20-80% mai rapid decât calculele standard de semnificație statistică, fără a sacrifica calitatea.

analiză intermediară a câștigătorului semnificativă statistic
Sursa: Analytics Toolkit

Un test A/B adaptiv care arată un câștigător semnificativ statistic la pragul de semnificație desemnat după a opta analiză intermediară.

Deși astfel de testare vă pot accelera procesul de luare a deciziilor, există un aspect important care trebuie abordat: impactul real al experimentului . Încheierea unui experiment între timp vă poate determina să-l supraestimați.

Privirea estimărilor neajustate pentru mărimea efectului poate fi periculoasă, avertizează Georgiev. Pentru a evita acest lucru, modelul său utilizează metode de aplicare a ajustărilor care țin cont de părtinirea suferită din cauza monitorizării intermediare. El explică modul în care analiza lor agilă ajustează estimările „în funcție de stadiul de oprire și de valoarea observată a statisticii (depășire, dacă există).” Mai jos, puteți vedea analiza pentru testul de mai sus: (Rețineți că ridicarea estimată este mai mică decât cea observată și intervalul nu este centrat în jurul acestuia.)

statistică de analiză agilă

Deci, un câștig s-ar putea să nu fie atât de mare pe cât pare, pe baza experimentului tău mai scurt decât ți-a propus.

Pierderea, de asemenea, trebuie luată în considerare, deoarece este posibil să fi ajuns să numiți în mod eronat un câștigător prea devreme. Dar acest risc există chiar și în testarea cu orizont fix. Valabilitatea externă, totuși, poate fi o preocupare mai mare atunci când apelați experimente din timp, în comparație cu un test cu orizont fix de lungă durată. Dar aceasta este, după cum explică Georgiev, „ o simplă consecință a dimensiunii mai mici a eșantionului și, prin urmare, a duratei testului.

Până la urmă... Nu este vorba despre câștigători sau învinși...

… ci despre decizii de afaceri mai bune, așa cum spune Chris Stucchio.

Sau așa cum afirmă Tom Redman (autorul cărții Data Driven: Profiting from Your Most Important Business Asset) că în afaceri: „ există adesea criterii mai importante decât semnificația statistică. Întrebarea importantă este: „ Rezultatul rezistă pe piață, chiar dacă doar pentru o perioadă scurtă de timp? ”'

Și, cel mai probabil, și nu doar pentru o perioadă scurtă, notează Georgiev, „ dacă este semnificativă din punct de vedere statistic și considerentele de validitate externă au fost abordate într-un mod satisfăcător în etapa de proiectare”.

Întreaga esență a experimentării este de a împuternici echipele să ia decizii mai informate. Așadar, dacă puteți transmite mai devreme rezultatele - pe care le indică datele experimentelor dvs. - atunci de ce nu?

Ar putea fi un mic experiment cu interfața de utilizare pentru care practic nu puteți obține o dimensiune a eșantionului „suficientă”. Ar putea fi, de asemenea, un experiment în care adversarul tău zdrobește originalul și ai putea doar să pariezi!

După cum scrie Jeff Bezos în scrisoarea sa către acționarii Amazon, marile experimente plătesc foarte mult:

Având în vedere o șansă de zece la sută de a câștiga de 100 de ori, ar trebui să luați acel pariu de fiecare dată. Dar tot vei greși de nouă ori din zece. Știm cu toții că, dacă te balansezi pentru garduri, vei lovi foarte mult, dar vei lovi și niște home runs. Totuși, diferența dintre baseball și afaceri este că baseballul are o distribuție trunchiată a rezultatelor. Când faci swing, indiferent cât de bine te conectezi cu mingea, cele mai multe alergări pe care le poți obține sunt patru. În afaceri, din când în când, când pășiți în platou, puteți înscrie 1.000 de alergări. Această distribuție lungă a randamentelor este motivul pentru care este important să fii îndrăzneț. Marii câștigători plătesc pentru atâtea experimente.

Apelarea devreme la experimente, într-o mare măsură, este ca și cum ai arunca o privire în fiecare zi la rezultate și te oprești într-un punct care garantează un pariu bun.

Google Analytics
Google Analytics