Bez żargonu przewodnik krok po kroku dotyczący (dokładnego) zrozumienia metryk testów A/B
Bez żargonu przewodnik krok po kroku dotyczący (dokładnego) zrozumienia metryk testów A/B
Opublikowany: 2022-08-02
Świetnych treści nie tworzy osoba. Przywitaj się z ekspertami, dzięki którym ten przewodnik stał się możliwy. Ponad 80 lat doświadczenia w eksperymentach i testach A/B – w aminuta przeczytana.
Alex Birkett
Ben Labay
Curtis Stanier
Deborah O'Malley
Erik Bernhardsson
Justin Christianson
Max Bradley
Sumantha Shankaranarajana
Tim Mehta
Próba zrozumienia metryk testów A/B jest jak zagłębianie się w króliczą norę przesadnie skomplikowanych definicji, technicznego żargonu i niekończących się „opinii” ekspertów.
Nie obwiniamy Cię, jeśli wydałeś więcej niż jedno zirytowane westchnienie, próbując znaleźć coś wartościowego w Internecie.
Nawet jeśli jesteś przekonany, że chcesz przeprowadzać eksperymenty, może się wydawać, że ci, którzy wiedzą, przechowują informacje.
Ale jesteśmy zdeterminowani, aby to zmienić. Eksperymentowanie jest dla każdego i pod koniec tego też w to uwierzysz.
ukryć
Trudna prawda o rozpoczynaniu eksperymentów
Różne sposoby przeglądania wskaźników testów A/B
Przyczyna przejścia na strategię Insights First (z odpowiednimi wskaźnikami)
Dane wejściowe, wyjściowe i wynikowe: dekonstrukcja programów eksperymentów z Benem Labayem i Alexem Birkettem
Ramy Bena
Ramy Idź do Alexa
Cele, sterowniki i bariery ochronne: wskaźniki według zakresu
Wskaźniki celu lub gwiazdy północnej
Wskaźniki kierowcy
Wskaźniki poręczy
Filozoficzne podejście do metryk: 5 Ws
Wybieranie wskaźników, które mają wpływ na drzewo sterowników
Wykonaj te 3 kroki, aby rozpocząć swój program eksperymentów
Modele mentalne: jak profesjonaliści wybierają swoje wskaźniki w eksperymentach w świecie rzeczywistym
Ben Labay i mapowanie celów
Jak Deborah O'Malley pomogła zwiększyć CTR
Dlaczego Justin Christianson dodaje dodatkowe punkty danych
CXO: szczyt nauki pierwszych eksperymentów?
Trudna prawda o rozpoczynaniu eksperymentów
Zagłębimy się w to, jak dane są postrzegane przez różne soczewki, ale najpierw musimy wyjaśnić.
Zapewne słyszałeś już to stwierdzenie: „W testach A/B nie ma strat – tylko uczenie się”.
To częściowo prawda.
Niejednoznaczne (płaskie) testy, a nawet straty mogą pomóc Ci uzyskać jasny obraz tego, co nie działa dla Twojej grupy docelowej. Ale jeśli budujesz program eksperymentów i nie masz jeszcze wpisowego dla członków zarządu, przygotuj się na poruszanie się po trudnych wodach. Zrozum, że ci, którzy trzymają za sznurki, nie będą szczególnie zadowoleni z prowadzenia ezoterycznych dyskusji na temat „nauki” bez znacznego wykształcenia.
Aby uzyskać ich aprobatę, musisz najpierw wykazać szybkie i namacalne wygrane . Wyniki testów A/B, które twoi menedżerowie mogą zgłaszać kierownictwu, aby pokazać pewną wiarę w to, że w dużej mierze akademicka metoda eksperymentowania może rzeczywiście napędzać coś tak praktycznego, jak biznes.
A najłatwiej to zrobić?
Idź za najniższym wiszącym owocem: popraw współczynnik konwersji na wrażeniach użytkownika, które są dość zbliżone do wpływania na oferty lub zakupy. Powiedzmy, że wzrost o 1000 jednostek w złożonych zamówieniach (zgodnie z wynikiem testu) jest łatwy do przeliczenia na dolary i zyski.
Przynieś to sprawozdanie na posiedzenie zarządu, a sala będzie wibrować z podekscytowania — takiego, jakie wynika z odkrycia kolejnego „kanała pozyskiwania”, czyli CRO.
Ale kwartał nadejdzie i odejdzie, a ty nigdy nie zobaczysz obiecanego skoku. Menedżerowie, którzy okrzyknęli Cię przyszłością biznesu, będą bardzo rozczarowani. Nastąpią cięcia budżetowe. A ktoś wysoko (*kaszle* niepoprawny HiPPO *kaszle*) wypluwa bzdury o tym, że eksperymentowanie nigdy nie przebije tradycyjnych kanałów, takich jak reklamy i wydarzenia, które przetrwały próbę czasu.
[HiPPO = Najwyżej opłacana osoba z opinią]
Widzisz, co się właśnie stało? Aktywując wizję tunelu, zdegradowałeś eksperymentowanie do bycia po prostu CRO – czymś, co jest postrzegane (prawie) jako nowy kanał pozyskiwania, aby odzyskać pieniądze pozostawione na stole. A wraz z tym? Wszystkie duże roszczenia, oszustwa i pułapki, które mu towarzyszą.
Zakładka: Testy A/B: Kompletny przewodnik, który chcesz dodać do zakładek
Różne sposoby przeglądania wskaźników testów A/B
Eksperyment to maszyna. Ale większość ludzi źle rozumie, jak to działa.
Uważają, że dane wejściowe to problemy biznesowe, a dane wyjściowe to istotne statystycznie ważne rozwiązania biznesowe . I to może być idealny większy obraz.
Powiększona maszyna eksperymentalna przyjmuje naukę i wysiłek włożony w proces naukowy jako dane wejściowe i dostarcza metryki programu jako dane wyjściowe.
Ale jest tutaj duży IF: aby dane wyjściowe ostatecznie przyniosły oczekiwane i pożądane rezultaty, jakość programu eksperymentalnego jest najważniejsza.
TL; DR: Im lepsze dane wejściowe (zgromadzone dane, wykształcenie, certyfikaty, znajomość danych i procesy), tym lepsze wyniki (szybkość eksperymentu, wskaźnik wygranych, średnia wygrana na eksperyment) i tym większe szanse na osiągnięcie celu (s) z którymi dostosowałeś swój program eksperymentów.
Tylko wtedy, gdy masz obsesję na punkcie jakości eksperymentowania, masz większą szansę na zobaczenie wyniku, który może poruszyć igłę w dużych problemach związanych ze wzrostem i wydajnością, które wszystkie firmy chcą rozwiązać.
Sposobem na osiągnięcie tego celu jest posiadanie strategii metryk, która nie stawia wyników na piedestale.
Zamiast tego pomaga zespołowi mierzyć i śledzić dane wejściowe i wyjściowe (dane wejściowe są jedynym czynnikiem, który bezpośrednio kontroluje optymalizator) i wykorzystywać je jako miernik postępu. Droga do wyniku to nie sprint, to maraton, który przebiega w tle jako produkt uboczny dobrych eksperymentów.
Nie zrozum nas źle. Łatwiej to powiedzieć niż zrobić.
Często eksperymenty pokazują, że pewnych zmian nie należy wprowadzać.Nie należy wysyłać poszczególnych funkcji!Eksperymentowanie samo w sobie jest celowe… przeniesienie nacisku ze strategii „najpierw wysyłka” na analizę i strategię „najpierw uczenie się” (wsparte odpowiednimi wskaźnikami).
Wahanie się przed eksperymentami jest niezwykle powszechne wśród kadry kierowniczej. Większość założycieli ma lata budowania firmy bez eksperymentów i można odnieść wrażenie, że eksperymentowanie jest konserwatywną siłą, która stoi na przeszkodzie szybkości firmy, marketingu produktów i innowacjom typu moonshot.
Erik Bernhardsson, założyciel Modal Labs
Przyczyna przejścia na strategię Insights First (z odpowiednimi wskaźnikami)
Aby poczynić rzeczywiste postępy, musimy przejść z pogoni za strategią wysyłki na strategię metryczną. To decentralizuje strategię produktu, tj. spycha ideację na sam dół, co jest idealne. A przyjęcie strategii metrycznej nieodłącznie oznacza eksperymentowanie. Nie możesz się powstrzymać przed testowaniem, jak nowe zmiany w produktach wpływają na Twoją firmę.
Dobra lektura: kompletny przewodnik po testach na wielu odmianach w 2022 r.
„Dlaczego” Twojego programu eksperymentów jest zakodowane w strategii dotyczącej danych.
Czy cały twój wysiłek koncentruje się na szybkich wygranych i przychodach?
Czy eksperymentowanie jest sposobem na zrozumienie klientów i oferowanie im wartości przez cały cykl życia?
A może celem samym w sobie jest eksperymentowanie, gdzie im lepiej testujesz, tym bardziej wiarygodne spostrzeżenia generujesz, a Twoim obowiązkiem jest utrzymywanie tego koła w ruchu bez negatywnego wpływu na istniejące doświadczenia?
Więcej o tym później z Benem Labayem ze Speero.
Na zasadzie eksperyment-eksperyment metryki utrwalają Twoje (rzeczywiste) skupienie. Możesz mieć 10-stronicowy manifest mówiący o osadzeniu eksperymentów w DNA Twojej firmy w celu przyspieszenia innowacji, ale jeśli Twoim głównym celem jest zawsze nastawienie na konwersję, wtedy Twój program testowy jest zasadniczo programem CRO. To może być to, co chcesz osiągnąć, ale pamiętaj o ograniczeniach, które pojawią się w dalszej kolejności, w tym o myśleniu o testach A/B jako sługusach pozyskiwania/przychodu — szczerze mówiąc, tak nie jest.
Różne klasy metryk umożliwiają śledzenie wskaźników, które mają znaczenie dla zespołu zarządzającego, przy jednoczesnej optymalizacji programu pod kątem testów wyższej jakości, wglądu przyczynowego i przechodzenia przez różne iteracje w celu poprawy wewnętrznego działania maszyny, aby dane wyjściowe mogły zacząć generować wyniki w końcu.
Ten film z Timem Mehtą jest szczerym spojrzeniem na to, dlaczego narracja eksperymentalna, która koncentruje się wyłącznie na uczeniu się, nie jest praktyczną postawą.
Myślę, że naprawdę fajnie jest zdobyć wszystkie te informacje na temat zaangażowania, ale aby właściciel firmy mógł wiedzieć, jak kontynuować tworzenie zasobów dla programu i uzyskać na niego budżet, zasadniczo wiesz, że musisz się upewnić, że jesteś być w stanie przynajmniej wykazać, że z biznesowego punktu widzenia wartość w dolarach, jaką daje eksperyment, zapewnia tobie program.
Myślę więc, że w przypadku wielu eksperymentów chodzi bardziej o ogólną metodę naukową wszystkiego, co próbujesz zrobić, to dowiedzieć się, że to jest to, że wiesz, że nie jest to tyle wygranych/przegranych, co hipoteza potwierdzona uh wiesz, że została udowodniona lub odrzucona um podczas gdy to, co robimy dobrze, większość z nas jest po stronie marketingu, więc naturalnie musimy być w stanie przekazać jakiś rodzaj wygranej lub wartości przychodów, aby móc kontynuować.
Tim Mehta, dyrektor ds. marketingu wzrostu w Lucid Software
Na bardziej praktycznym poziomie metryki utrzymują uczenie się. Przeprowadzasz płaskie testy od tyłu? Może to być problem ze sposobem zbierania danych (problem skoncentrowany na instrumencie) lub sposobem projektowania eksperymentów. Metryki pomagają znaleźć igłę w stogu siana i działać lepiej.
TL i DR; Metryki pomagają testerom uchwycić różne aspekty eksperymentów i przekazać ich wpływ interesariuszom w języku, który rozumieją, cenią i cenią. Strategia metryczna wykracza daleko poza „cele” i stawkę w terenie, względem której oceniane są warianty wygranych i przegrane.
Dzięki metrykom programy eksperymentalne żyją, dojrzewają, ewoluują i odnoszą sukces (lub zawodzą).
Dane wejściowe, wyjściowe i wynikowe: dekonstrukcja programów eksperymentów z Benem Labayem i Alexem Birkettem
Istnieje wiele definicji dotyczących metryk podstawowych, drugorzędnych i poręczy. Ale każdy, kto prowadził program eksperymentów, wie, że muszą istnieć ramy do definiowania różnych poziomów celów.
Dlatego zadaliśmy Benowi Labayowi, dyrektorowi zarządzającemu Speero i Alexowi Birkettowi, współzałożycielowi Omniscient to pytanie:
Jaka jest Twoja podstawa metryk do mapowania zmiennych mierzonych na wpływ wielowarstwowych eksperymentów?
Ramy Bena
1. Kategorie metryk programu
To „etapowo” należy traktować lekko. Chcesz to wszystko monitorować cały czas, ale FOCUS jest nieco inny w zależności od etapu programu.
2. Zacznij od taksonomii metrycznej najwyższego poziomu, oto moja:
Następnie dla każdego
3. Przykłady metryki celu:
Następnie
4. Przykłady metryki kierowcy
Następnie
5. Programuj wskaźniki poręczy
Więc…. WTEDY masz składniki strategii metrycznej:
Uwaga: Eksperymenty na wczesnym etapie powinny koncentrować się na metrykach wejściowych, ale musisz radzić sobie z presją uzyskiwania wyników, które się nie zmaterializują, jeśli nie masz odpowiedniego wykształcenia, ludzi i procesów.
To cykl autodestrukcji. Ponadto metryki wyników nie powinny być celebrowane od razu, zwłaszcza jeśli planujesz „przychody”.
Najlepszym sposobem na zrozumienie tego jest przyjrzenie się, jak Airbnb przeszło na strategię metryczną:
„Goście musieli najpierw poprosić gospodarzy o pozwolenie na pozostanie w ich Airbnb, a gospodarze mogli zdecydować, czy podoba im się prośba o rezerwację. Stworzyło to mnóstwo tarcia, było strasznym przeżyciem dla gości i otworzyło drzwi dla niewłaściwej stronniczości, aby wejść do procesu.
Strategia wysyłki produktu wymagałaby dostarczenia wielu funkcji. Ale Airbnb stworzył silny zespół ze strategią metryczną: spraw, aby Airbnb osiągnął 100% natychmiastowej rezerwacji.
Rezultatem była strategia oparta na eksperymentach, która łącznie przesunęła rynek. Zmiany w produkcie obejmowały ranking wyszukiwania, wprowadzanie hosta i podstawowe funkcje hosta (np. kontrola gości, zasady dotyczące domu, ustawienia czasu realizacji itp.), które pozwoliły hostom odnieść sukces w świecie, w którym goście natychmiast rezerwują swój dom.
Erik Bernhardsson
Ramy Idź do Alexa
Moje podstawowe zasady mapowania metryk eksperymentalnych są proste: metryki wejściowe i wyjściowe .
Interesariusze dbają o wskaźniki wyjściowe. Są one wykorzystywane w obliczeniach ROI i dowodzą wartości programu – takich jak współczynnik konwersji witryny, współczynnik konwersji lejka, wysokiej jakości leady itp.
Osobiście uważam, że są one przeceniane na poziomie programistycznym i niedoceniane na poziomie eksperymentu. Rozumiem przez to, że jeśli śledzisz współczynnik konwersji swoich stron internetowych z kwartału na kwartał, eksperymenty nie będą jedyną rzeczą, która miała miejsce w tym okresie. Pozyskiwanie funduszy, trendy makroekonomiczne, przesuwanie kanałów akwizycji – wszystko to może być ogromnymi czynnikami zakłócającymi. Możesz obejść niektóre z nich, stosując zestawy wstrzymywania lub ponownie testując podstawową wersję swojego cyfrowego doświadczenia.
Są niedoceniane na podstawie każdego eksperymentu, ponieważ ludzie zwykle nie zastanawiają się nad głównym wskaźnikiem KPI eksperymentu, zamiast tego decydują się na uwzględnienie różnych celów i wybierają ten, który pasuje do ich narracji. Naprawdę trudno jest wymyślić złożony cel, ogólne kryterium oceny, aby zdefiniować eksperyment. Metryki wejściowe są dla mnie lepszym sposobem na uzyskanie wskaźnika w naszym programie. Główne trzy, na które patrzę, to a) prędkość eksperymentu b) wskaźnik wygranych eksperymentu i c) średnia wygrana na eksperyment.
Jeśli przesunę igłę na którymkolwiek z nich, prawdopodobnie przesunę igłę na moich metrykach wyjściowych
Cele, sterowniki i bariery ochronne: wskaźniki według zakresu
Ben Labay posługuje się analogią samochodu, aby wyjaśnić te wskaźniki:
Sednem tego jest to, że masz długoterminowe wskaźniki, takie jak wskaźniki celu, a to jest twój GPS lub system nawigacji, tj. Wskaźniki gwiazdy północnej (NSM).
Jest to w przeciwieństwie do wskaźników kierowcy, które są wskaźnikami krótkoterminowymi, znanymi również jako prędkościomierz. Na przykład optymalizacja współczynnika konwersji dla średniej wartości zamówienia (AOV).
Umieść to w dalszym kontraście do wskaźników alertów i wyrównania, takich jak obrotomierz lub miernik ciepła; to są twoje wskaźniki poręczy.
PS Obejrzyj ten film Bena, aby lepiej zrozumieć te kategorie:
Wskaźniki celu lub gwiazdy północnej
Wskaźnik North Star lub wskaźnik opóźniony lub o szerokim zasięgu, zgodnie z definicją Bena, ma charakter bardziej strategiczny niż taktyczny.
Na przykład testy A/B Netflix nie mają na celu poprawy zaangażowania — mają na celu zwiększenie retencji. Jeśli utrzymują klientów, oznacza to, że subskrybenci angażują się w produkt i znajdują w nim wartość. Tak więc retencja zawiera kilka taktycznych wskaźników, takich jak odsetek użytkowników, którzy płacą lub oglądają więcej niż 3 elementy treści.
Czytaj dalej: Kompletny przewodnik po korzystaniu z celów w testach A/B (i jak konwertować cele asów)
Wskaźniki kierowcy
Te wiodące wskaźniki są tym, na czym koncentrujesz się w krótkim okresie, tj. współczynnik odrzuceń i współczynnik konwersji. Czasami posiadanie jednego wskaźnika nie wystarcza do oceny wyniku. W tym miejscu w grę wchodzi ogólne kryterium oceny lub OEC .
Znana również jako zmienna odpowiedzi lub zmienna zależna, zmienna wyniku lub metryka wydajności, OEC jest zasadniczo kombinacją różnych ważonych KPI jako pojedynczy główny KPI.
Pojedyncza metryka wymusza dokonywanie jednorazowych kompromisów w przypadku wielu eksperymentów i ukierunkowuje organizację na jasny cel. Dobra OEC nie powinna skupiać się na krótkich terminach (np. kliknięcia); wręcz przeciwnie, powinien zawierać czynniki, które przewidują cele długoterminowe, takie jak przewidywana wartość życia i powtarzające się wizyty.
Ronny Kohavi
Wskaźniki poręczy
Według Ronny'ego Kohaviego,
Metryki Guardrail to krytyczne metryki, które mają na celu ostrzeganie eksperymentatorów o naruszonych założeniach. Wskaźniki Guardrail zapewniają to, co Spitzer (2007) nazywa „zdolnością do inicjowania świadomego działania”. Gdy efekt leczenia nieoczekiwanie przesunie metrykę bariery ochronnej, możesz chcieć zmniejszyć zaufanie do wyników lub przerwać eksperyment w przypadku wyrządzenia szkody użytkownikom lub organizacji.
Istnieją dwa typy metryk poręczy: metryki poręczy związane z zaufaniem i organizacyjne metryki poręczy. Zaczynamy od tego, co naszym zdaniem jest najważniejszą metryką bariery ochronnej, jaką powinien posiadać każdy eksperyment: współczynnikiem próby, a następnie kontynuujemy z innymi metrykami bariery ochronnej i organizacyjnymi wskaźnikami bariery ochronnej.
Stosunek próbki = W kontrolowanym eksperymencie stosunek próbki jest równy stosunkowi alokacji wielkości próbki między różne grupy testowe: kontrolna i warianty
Filozoficzne podejście do metryk: 5 Ws
Sumantha Shankaranarayana, założycielka EndlessROI, inaczej postrzega metryki.
Wartość metryk polega na ich zdolności do przewidywania zachowań użytkowników. W interpretacji metryk celem nie jest pytanie „Ile?” ale raczej zapytać „dlaczego tak?”. Metryki to ślad pozostawiony przez umysł użytkownika.
Filozoficznie metryki można podzielić na cztery podstawowe kategorie:
Grupa 1 – Kwota (Gdzie i Kiedy)
Wyświetlenia strony (unikalne i nie niepowtarzalne)
Odwiedzający witrynę (nowi i powracający)
Odwiedziny
Łączne przychody
Dożywotnia wartość
Skumulowane przychody z koszyka dla kohorty eksperymentów
Grupa 2 – Natura (dlaczego)
Śledzenie zdarzeń
Przeglądarka/platforma
Czas na stronie
Szczegóły transakcji
Błędy ładowania strony
Rozdzielczość ekranu
Wyjdź ze strony
Grupa 3 – Źródło (Kto)
Osoby polecające
Wyszukiwane hasła
Kraj/ języki
Organizacje
Najlepsze strony docelowe
Poprzednie strony
Grupa 4 – Wyniki (Co)
Zapisy
Liczba odsłon
Zamówienia
Kliknięcia
Próby
Następne strony
Utrzymanie użytkowników
Podczas gdy porównujemy dane i zaczynamy sprawdzać, jak działa hipoteza, musimy wziąć pod uwagę wszystkie zagrożenia dla ważności, takie jak:
efekty historyczne (wydarzenia medialne, konkurencyjne inicjatywy marketingowe, wewnętrzne inicjatywy marketingowe, zmiany sezonowe, zmiany gospodarcze),
efekt oprzyrządowania (ustawienie testowe, za pomocą podwójnego sterowania),
efekt selekcji (różne przedziały ufności i ufności dla kontroli i wariantów), oraz
efekt zniekształcenia próbkowania (duża wariancja, brak pewności statystycznej).
W oparciu o powyższe kategorie, jedną z metryk może być metryka podstawowa, powiedzmy, zamówienia (współczynnik konwersji).
Otrzymane próbki – Aktualny poziom ruchu i planowana liczba zabiegów
Wielkość różnicy w wielkości głównej metryki między Kontrolą a Wariantem oraz sposób, w jaki wpływa to na cele biznesowe.
Niemniej jednak zbieranie danych z metryk wtórnych pomoże w interpretacji wyniku testu.
Interpretacja może opierać się na:
ROI testu
Zebrane kluczowe spostrzeżenia zwykle odpowiadają na pytania takie jak
Co ten test mówi o moich klientach?
Co motywuje moich klientów?
Jak reagują na określone elementy?
Co cenią moi klienci?
Co wywołuje w nich największy niepokój?
Dlaczego w pewnym momencie odpadają?
Gdzie oni są w rozmowie?
Kolejne testy: Gdzie jeszcze ta nauka może być pomocna?
Co ważne, testowanie elementów na wczesnym etapie procesu konwersji pozwala na większy ruch, a testowanie elementów w dalszej części procesu konwersji ma większy potencjalny wpływ na przychody. Dlatego też, w oparciu o etapy ścieżki, nasze dane powinny również odzwierciedlać cel, do którego dążymy.
Czytaj dalej: 7 kluczowych kroków do nauki i doskonalenia się na podstawie wyników testu A/B
Inne spojrzenie na dane pochodzi od Avinasha Kaushika, ewangelisty marketingu cyfrowego w Google.
W ostatnim wydaniu swojego biuletynu, The Marketing <> Analytics Intersect, zaleca ignorowanie wskaźników próżności, takich jak polubienia i obserwujący, oraz fałszywych bogów, takich jak odsłony i „zaangażowanie”.
Zamiast tego skup się na mikro-wynikach, takich jak zapisy do newslettera i wskaźniki wykonania zadań, cyfrowe makro-wyniki, takie jak przychody i przychody z konwersji, oraz wskaźniki mające wpływ na wyniki finansowe, takie jak zysk i wartość od początku śledzenia.
Jeszcze inne spojrzenie na dane pochodzi od Simona Girardina z Conversion Advocates:
Pracując z metrykami, zaczniesz widzieć, jak są ze sobą powiązane. Większość wskaźników kierowców to wskaźniki wyników. Guardrails są często powiązane z metrykami wyjściowymi. Możesz chcieć przeprowadzić swoich kierowców przez 5Ws, gdy przejdziesz do nakrętek i śrub wyboru metryk do testów. Zrozumienie podstaw pozwala kreatywnie tworzyć interpretacje.
Wybieranie wskaźników, które mają wpływ na drzewo sterowników
Stworzenie solidnej strategii wskaźników sprowadza się do zrozumienia, czym jest drzewo kierowców.
Drzewo Kierowców to mapa pokazująca, jak różne wskaźniki i dźwignie w organizacji pasują do siebie. Po lewej stronie masz nadrzędny wskaźnik, którym chcesz kierować. To jest ostateczny cel, nad którym powinny pracować wszystkie zespoły.
Źródło
Gdy poruszasz się w prawo, stajesz się bardziej szczegółowy, jeśli chodzi o to, jak chcesz osiągnąć ten cel. Każda gałąź daje ci wskaźnik części składowych, które składają się na „co” nad nimi.
Curtis Stanier, dyrektor ds. produktu w Delivery Hero
Drzewo sterowników w połączeniu z metrykami może pomóc w identyfikacji potencjalnych obszarów możliwości i poprowadzić Cię do rozwiązania.
Curtis wyjaśnia to na przykładzie. Na przykład, jeśli Twoim celem jest zwiększenie liczby rejestracji e-mail. Załóżmy, że tylko połowa klientów z powodzeniem kliknęła wysłany przez Ciebie link potwierdzający wiadomość e-mail. Istnieją dwa możliwe scenariusze — albo klienci nie otrzymują wiadomości e-mail, albo jej nie klikają. Te sterowniki mogą mieć różne czynniki wpływające.
Kiedy zmapujesz przebieg procesu na drzewo sterowników, możesz dotrzeć do głównej przyczyny. Być może dostawca poczty e-mail, z którego korzystasz, ma 10% współczynnik błędów, co oznacza, że wiadomość e-mail nigdy nie została wysłana. Ten konkretny problem staje się okazją do naprawienia dla Twojego zespołu.
Źródło
Oto konkretny przykład dzięki uprzejmości Bhavika Patela, kierownika działu analizy produktów w Hopin, aby zilustrować, w jaki sposób można odwzorować cel, taki jak prędkość testu, tj. liczbę testów przeprowadzanych na wskaźniki kierowcy i poręczy.
Źródło
Wykonaj te 3 kroki, aby rozpocząć swój program eksperymentów
1.Wybierz cel swojego programu eksperymentów
Zaangażuj HiPPO aka swojego kierownictwa, abyś nie gonił za wskaźnikiem gwiazdy północnej, którym przywództwo jest bezinteresowne. W przeciwnym razie twój program eksperymentów nigdy nie ujrzy światła dziennego. Zapętlaj ludzi, którzy rozumieją, że duże problemy wymagają innowacyjnych rozwiązań, a nie bezpiecznej zabawy.
Zgodnie z ogólną zasadą Ben Labay mówi, że opóźniony, długoterminowy cel Twojego programu eksperymentów może być jedną z trzech rzeczy – przychodem, klientem lub procesem eksperymentu .
Na przykład Booking.com ma jakość eksperymentu jako wskaźnik gwiazdy północnej. Dlatego:
To, co naprawdę się dla nas liczy, to nie to, ile decyzji produktowych jest podejmowanych, ani jak szybko są podejmowane, ale jak dobre są te decyzje.
Choć stosowanie eksperymentów w ramach rozwoju produktu i podejmowania decyzji jest w dzisiejszych czasach powszechną praktyką, samo w sobie nie gwarantuje, że podejmowane są dobre decyzje. Prawidłowe wykonanie eksperymentu może być trudne, a dane uzyskane z eksperymentu są tak wiarygodne, jak samo wykonanie eksperymentu. Prowadzenie złych eksperymentów to po prostu bardzo kosztowny i zawiły sposób na podejmowanie nierzetelnych decyzji.
Christophe Perrin, Group Product Manager w Booking.com
Czytaj dalej: Kompletny przewodnik po korzystaniu z celów w testach A/B (i jak konwertować cele asów)
Tim Mehta zaleca stosowanie prędkości testu jako miernika bariery ochronnej z zastrzeżeniem, tj. tylko wtedy, gdy integralność testu jest dobra lub spełnia standardy. Jeśli nie przeprowadzasz testów jakości, każda wybrana metryka stanie się metryką próżności.
Podobnie jak Tim, Ben Labay sugeruje również posiadanie prędkości testowej wraz z tymi innymi metrykami jako działający zestaw metryk poręczy:
Źródło
3.Wybierz swoje wskaźniki kierowcy indywidualnie dla każdego przypadku
Nie wszystkie metryki są dobrymi metrykami. Po przeprowadzeniu tysięcy testów A/B firma Microsoft zidentyfikowała sześć kluczowych właściwości dobrej metryki A/B:
Wrażliwość
Solidność
Efektywność
Możliwość debugowania
Interpretowalność i wykonalność
Inkluzywność i uczciwość
Możesz użyć STEDII do doprecyzowania metryk do śledzenia i mierzenia zmian.
Źródło
Max Bradley, starszy menedżer ds. optymalizacji sieci w firmie Zendesk, uważa, że należy elastycznie podchodzić do wskaźników kierowców, aby móc myśleć w sposób nieszablonowy i nieszablonowy:
Zauważyliśmy, że pole tworzenia subdomeny (pokazane poniżej) było zdecydowanie najtrudniejszym polem formularza w naszej próbnej procedurze rejestracji dla odwiedzających. Wskaźnik spadku na tym polu był znacznie wyższy niż na jakimkolwiek innym polu.
Co najważniejsze, wprowadziliśmy śledzenie, które pozwoliło nam w pierwszej kolejności przyjrzeć się działaniu formularza. Jeśli zaczynasz, ten poziom śledzenia jest mało prawdopodobny do osiągnięcia na krótką metę, ale zachęcam do „wchodzenia w chwasty” wraz z upływem czasu.
Po zidentyfikowaniu problemu podjęliśmy szereg kroków w celu określenia podejścia, które chcielibyśmy przetestować. Przyjrzeliśmy się temu, co robiły inne firmy w przypadku subdomeny, sugerowałbym, aby nie ograniczać się do konkurencji. Uznaliśmy, że użytkownik nie musi zajmować się tworzeniem subdomeny, wprowadza kolejny obszar, w którym użytkownik może się zatrzymać i pomyśleć, zwiększając obciążenie poznawcze. Możemy stworzyć ich subdomenę z nazwy firmy, którą już podali i ukryć pole subdomeny przed użytkownikami.
Oczywiście spodziewaliśmy się, że ta zmiana zwiększy liczbę użytkowników pomyślnie rejestrujących się na okres próbny, byliśmy w stanie oszacować oczekiwany wzrost dzięki wspomnianemu śledzeniu.
Jednak w tym momencie nie wiedzieliśmy, jaki będzie ogólny wpływ, jaki będzie to miało na biznes. Spodziewaliśmy się wzrostu liczby konwersji próbnych, ale czy przełoży się to na całą ścieżkę do zwycięstwa?
Dodatkowo, ukrywając pole subdomeny i automatycznie generując subdomenę dla użytkownika, chcieliśmy mieć pewność, że ten problem nie zostanie po prostu przeniesiony na inny obszar działalności. Wiązało się to z zaangażowaniem rzecznictwa i obsługi klienta od samego początku.
Uważaliśmy, że główne obszary, które będą ważne przy określaniu wpływu tego eksperymentu, były następujące:
Wskaźnik rejestracji próbnej dla odwiedzających formularz
Potencjalni klienci, MQL, szanse i wygrane
Zmiany wprowadzone przez użytkowników w nazwie subdomeny w po rejestracji produktu
Liczba biletów otrzymanych przez rzeczników klientów w celu zmiany nazwy subdomeny.”
W zależności od wybranego celu i sposobu, w jaki konsekwentnie podchodzisz do kierowców, Twoja osobowość eksperymentalna i trajektoria programu mogą przebiegać na kilka różnych sposobów. Spójrz na ten wykres od Bena Labaya:
Modele mentalne: jak profesjonaliści wybierają swoje wskaźniki w eksperymentach w świecie rzeczywistym
Poprosiliśmy ekspertów, aby przedstawili nam przykład, w którym dostrzegli problem, zaprojektowali hipotezę, a następnie wybrali wskaźniki do pomiaru sukcesu i konsolidacji uczenia się.
Oto, co powiedzieli:
Ben Labay i mapowanie celów
Wyjaśnij, dokąd zmierza firma i dlaczego.
Jaka jest strategia rozwoju biznesu? Czy w przyszłym roku zwiększą się o 20%, pozyskując więcej użytkowników? Czy skupią się na nowych produktach czy monetyzacji istniejącej bazy użytkowników? Dzięki tym informacjom wiesz, gdzie zorientować program optymalizacyjny, powinieneś wiedzieć, gdzie w lejku lub na jakich głównych kanałach się skupić.
Dla wielu firm eCommerce w 2021 roku było to pozyskiwanie i konwersja nowych użytkowników. Pod koniec 2022 r. jest skoncentrowany na AOV, skupiając się na rentowności i efektywności akwizycji.
W przypadku SaaS w ciągu ostatnich kilku lat istniał wzorzec koncentrowania się na wzroście opartym na produktach, a więc skupieniu się na próbach i onboardingu, szczególnie w przypadku segmentów niższego rynku.
Uzyskaj jasne zrozumienie zachowania klienta (porzucenia, wzorce nawigacji itp.) i percepcji (motywacje vs FUD, lęki, niepewność i wątpliwości).
Mamy świetny model danych na ten temat, ResearchXL, który nie tylko zbiera dane na temat zachowań i percepcji, ale także przenosi dane przez informacje do spostrzeżeń, które budują priorytetową mapę drogową.
Połącz kroki 2 i 3 i połącz tematy problemów/szans, które tworzysz na podstawie badań klientów z celami biznesowymi na mapie drzewa celów.
Oto zbliżenie tej mapy drzewa celów, na której można zobaczyć eksperymenty powiązane z danymi postępu strony kasy, która była centralnym punktem dla tego klienta eCommerce:
Czytaj dalej: Jak pracować z narzędziami do testów A/B w celu pomyślnej optymalizacji? 6 najważniejszych wyjaśnionych czynników
Kiedy byłem w Workato, chcieliśmy dowiedzieć się jak najwięcej o tworzeniu interaktywnej wycieczki po produkcie. Biorąc pod uwagę, że nie mieliśmy wersji freemium, wielu potencjalnych klientów chciało zobaczyć, jak produkt faktycznie działa.
To, czego chcieliśmy się dowiedzieć, określiło KPI dla każdego eksperymentu.
W jednym eksperymencie chcieliśmy tylko sprawdzić, czy w przeciwieństwie do innych głównych przycisków wezwania do działania w witrynie, takich jak „poproś o demo”, ludzie są w ogóle zainteresowani koncepcją prezentacji produktu. Był to rodzaj testu „pomalowanych drzwi”, chociaż w rzeczywistości zbudowaliśmy już minimalną opłacalną wycieczkę po produkcie. W tym eksperymencie śledziliśmy po prostu proporcję kliknięć do prezentacji produktu i przeprowadziliśmy eksperyment dotyczący braku niższości na potencjalnych klientach (po prostu nie chcieliśmy, aby spadły).
Następnie, optymalizując samą wycieczkę, wykorzystaliśmy główny makro KPI dotyczący współczynnika konwersji witryny (potencjalnych klientów) i podzieliliśmy tych, którzy kliknęli na prezentację produktu, aby sprawdzić, czy istnieje również wysoka korelacja, a także makro poprawa naszego podstawowego KPI ”.
Jak Deborah O'Malley pomogła zwiększyć CTR
Metryki są często oparte na klientach. Zwykle są powiązane z przychodami. Czasami jednak klienci chcą po prostu zwiększyć zaangażowanie.
W tym przykładzie klient z sektora edukacyjnego chciał zwiększyć współczynniki klikalności (CTR) ze strony wyjaśniającej program edukacyjny do strony, na której potencjalni studenci mogliby dowiedzieć się więcej o programie i zastosować się do niego.
Na podstawie analizy opartej na danych postawiono hipotezę, że na stronie jest tak wiele konkurencyjnych informacji, że użytkownicy nie wiedzą, jak postępować ani gdzie kliknąć, aby dowiedzieć się więcej.
Stosując opisaną powyżej pięciostopniową strukturę, zdecydowano, że najlepiej sformatowane i ustawione w czasie wyskakujące okienko lub wysuwane powiadomienie będzie najlepiej informować odwiedzających, gdzie kliknąć, aby dowiedzieć się więcej.
Przeprowadzono zatem serię eksperymentów, aby określić optymalny format i czas wyświetlania wyskakującego powiadomienia. Zmierzono współczynniki klikalności.
Jak pokazują wyniki studium przypadku (test 1, test 2), optymalizacja miejsca i czasu wyświetlania wyskakującego okienka miała niezwykle pozytywny wpływ na konwersje CTR.
Jednak chociaż wyniki okazały się pozytywne, ostatecznie złożone aplikacje były miarą, która naprawdę przesunęła igłę dla szkoły. W związku z tym należy przeprowadzić dodatkowe testy, aby określić optymalny sposób zwiększenia liczby składanych wniosków.
Kluczowym wnioskiem z tego przykładu jest to, że klienci często mają pomysł na to, co chcą poprawić. Twoim zadaniem jako eksperymentatora jest spełnianie ich oczekiwań, ale pchanie dalej. Zwiększone CTR są miłe. Staraj się jednak zwiększać konwersje w dalszej części ścieżki. Wciskaj jak najniżej do wskaźników zarabiania pieniędzy na ostatnim ścieżce, takich jak ukończone aplikacje lub ukończenie kasy. Zmierz ukończenia i oceń swój sukces.
Dlaczego Justin Christianson dodaje dodatkowe punkty danych
Nasze cele opieramy na celach. Nie możesz myśleć tylko o sprzedaży i przychodach. Ogólnie rzecz biorąc, naszym podstawowym wskaźnikiem będą zarówno konwersje sprzedaży, jak i RPV, ale nie zawsze daje to najpełniejszy obraz interakcji użytkowników.
W tym celu lubimy ustawić dodatkowe punkty danych, takie jak dodanie do koszyka, kliknięcia elementów, wizyty na niektórych stronach, takich jak koszyk lub kasa. Cele drugorzędne zmieniają się nieznacznie w zależności od strony lub rodzaju testu. Czasami sprzedaż i przychody nie są tym, do czego dążysz pod względem wyników.
Korzystamy z naszych eksperymentów, aby naprawdę pomóc zrozumieć, na czym zależy odwiedzającym, które elementy mają znaczenie w ogólnym UX, a następnie zbudować strategię opartą na tych wynikach. Nasza hipoteza na ogół zawsze zadaje pytanie, dlaczego lub co w danej sytuacji. Może to być coś tak prostego jak przeniesienie sekcji na stronie głównej, wtedy naszym celem będą kliknięcia w tę sekcję, sprzedaż, przychody, wizyty na stronach produktów. Następnie, jak interpretować dane, byłoby to, że jeśli odwiedzający wykazali większe zaangażowanie poprzez przesunięcie sekcji, to ta sekcja ma wagę, dlatego odwiedzający wolą tę ogólną ścieżkę. Przykładem może być przedstawienie podziału kolekcji w porównaniu z pokazywaniem rzeczywistych bloków produktów na stronie sklepu internetowego.
Czytaj dalej: Potrzebujesz repozytorium edukacyjnego do testowania A/B, aby przeprowadzać eksperymenty oparte na doświadczeniu (tak mówią eksperci)
CXO: szczyt nauki pierwszych eksperymentów?
Współczynnik konwersji nie jest wskaźnikiem próżności. Stał się jednak terminem wąskim.
Annika Thompson, dyrektor ds. obsługi klienta w Speero
Problem, wyjaśnia Annika, nie polega na tym, że CRO jest nieważne, ale na tym, że ma tonę bagażu. To tylko migawka w czasie i bez kontekstu, może być nieistotna i wręcz niebezpieczna.
Z drugiej strony, CXO lub optymalizacja obsługi klienta skupia się na wydobywaniu wysokiej jakości spostrzeżeń na temat preferencji i zachowań klientów – karmiąc wszystko, od eksperymentów niszczących bloki konwersji po solidną strategię biznesową. To po prostu więcej pieniędzy na testowanie.