Wszystkie rodzaje testów, które możesz przeprowadzać w swojej witrynie (+ kiedy je przeprowadzać)

Opublikowany: 2022-09-20

Świat eksperymentów w większości wyszedł poza proste testy kolorów przycisków A/B.

Mogą mieć swoje miejsce w portfolio przeprowadzanych przez Ciebie eksperymentów, ale miejmy nadzieję, że w tym momencie nie są synonimem eksperymentowania lub CRO.

Eksperymenty mogą być o wiele większe.

Korzystając z różnych rodzajów eksperymentów, możemy poznać różnice w naszych witrynach, testować nowe doświadczenia, odkrywać nowe ścieżki stron, dokonywać dużych skoków lub małych kroków i identyfikować optymalną kombinację elementów na stronie.

To, czego oczekujesz od eksperymentu, powinno znaleźć odzwierciedlenie w jego projekcie, a projektowanie eksperymentów znacznie wykracza poza zwykłe testowanie A w porównaniu z B przy użyciu konkretnej hipotezy.

W rzeczywistości istnieje cała poddziedzina badań znana jako projektowanie eksperymentów (DoE), która obejmuje to.

ukryć

Projektowanie eksperymentów: wprowadzenie do projektowania eksperymentalnego
16 powszechnych typów eksperymentów
- 1. Test A/A
- 2. Prosty test A/B
- 3. Test A/B/n
- 4. Test wielowymiarowy
- 5. Test celowania
- 6. Test bandytów
- 7. Algorytmy ewolucyjne
- 8. Test podzielonej ścieżki strony
- 9. Test na istnienie
- 10. Test drzwi malowanych
- 11. Test na odkrycie
- 12. Test iteracyjny
- 13. Innowacyjny test
- 14. Test równoważności
- 15. Flaga funkcji
- 16. Quasi eksperymenty
Wniosek

Projektowanie eksperymentów: wprowadzenie do projektowania eksperymentalnego

Projektowanie eksperymentów (DoE) to naukowa metoda stosowana do określania relacji między czynnikami wpływającymi na proces a wynikami tego procesu.

Projektowanie eksperymentów to koncepcja spopularyzowana przez statystyka Rona Fishera w latach 20. i 30. XX wieku.

DoE pozwala nam zrozumieć, w jaki sposób różne zmienne wejściowe wpływają na wynik procesu, systematycznie zmieniając dane wejściowe i obserwując wynikające z tego zmiany w danych wyjściowych. Takie podejście można wykorzystać do optymalizacji procesu, opracowywania nowych produktów lub funkcji lub uczenia się, które elementy działają najlepiej w połączeniu ze sobą.

W marketingu używamy DoE, aby lepiej zrozumieć, w jaki sposób różne elementy na stronie (czynniki) wpływają na współczynniki konwersji (wyniki). Skutecznie projektując eksperymenty, możemy określić, które elementy mają największy wpływ na współczynniki konwersji.

Istnieje wiele różnych rodzajów eksperymentów, a każdy z nich może posłużyć do poznania różnych informacji o witrynie lub aplikacji.

W tym artykule omówię 16 rodzajów eksperymentów.

Nitpickers może zauważyć, że nie wszystkie są zasadniczo różnymi projektami eksperymentalnymi; niektóre są raczej różnymi „typami” ze względu na sposób, w jaki generujesz swoją hipotezę lub jakie ramy leżą u podstaw przeprowadzenia eksperymentu.

Niektóre dodatkowo nie są całkiem „eksperymentami”, ale raczej regułami optymalizacji zbudowanymi na modelach uczenia maszynowego.

Mimo to, każdy z poniższych ma inny cel i może być postrzegany jako unikalne narzędzie w zestawie narzędzi eksperymentatora.

16 powszechnych typów eksperymentów

Istnieje wiele różnych typów kontrolowanych eksperymentów, które możesz przeprowadzić w swojej witrynie, ale oto 16 najczęstszych z nich:

1. Test A/A
2. Prosty test A/B
3. Test A/B/n
4. Test wielowymiarowy
5. Test celowania
6. Test bandytów
7. Algorytmy ewolucyjne
8. Test podzielonej ścieżki strony
9. Test na istnienie
10. Test drzwi malowanych
11. Test na odkrycie
12. Test przyrostowy
13. Innowacyjny test
14. Test równoważności
15. Flaga funkcji
16. Quasi eksperymenty

1. Test A/A

testy do uruchomienia na Twojej stronie Test A/A

Test A/A to prosta koncepcja: testujesz dwie identyczne wersje strony.

Dlaczego miałbyś to zrobić?

Istnieje wiele powodów, głównie w dążeniu do kalibracji i zrozumienia podstawowych danych, zachowań użytkowników i mechanizmów randomizacji narzędzia testowego. Testy A/A mogą pomóc:

Określ poziom wariancji swoich danych
Zidentyfikuj błędy próbkowania w swoim narzędziu testowym
Ustal podstawowe współczynniki konwersji i wzorce danych.

Przeprowadzanie testów A/A jest dziwnie kontrowersyjne. Niektórzy na to przysięgają. Niektórzy mówią, że to strata czasu.

Moje podanie? Zapewne warto przynajmniej raz uruchomić, ze wszystkich wyżej wymienionych powodów. Innym powodem, dla którego UWIELBIAM przeprowadzać testy A/A, jest wyjaśnianie statystyk nowicjuszom.

Kiedy pokazujesz komuś „istotny” eksperyment z zebranymi danymi z dwóch dni, aby później ujawnić, że był to test A/A, interesariusze zwykle rozumieją, dlaczego należy przeprowadzić eksperyment do końca.

Jeśli chcesz przeczytać więcej o testach A/A (właściwie to ogromny temat), Convert ma na ich temat szczegółowy przewodnik.

Przypadki użycia: kalibracja i określanie wariancji danych, audytowanie błędów platformy eksperymentalnej, określanie bazowego współczynnika konwersji i wymagań dotyczących próbek.

2. Prosty test A/B

testy do uruchomienia w witrynie Test A/B

Każdy wie, czym jest prosty test A/B: testujesz dwie wersje strony, jedną ze zmianą, a drugą bez.

Testy A/B to chleb powszedni eksperymentów. Są proste w konfiguracji i łatwe do zrozumienia, ale mogą być również używane do testowania dużych zmian.

Testy A/B są najczęściej używane do testowania zmian w interfejsie użytkownika, a celem prostego testu A/B jest prawie zawsze poprawa współczynnika konwersji na danej stronie.

Nawiasem mówiąc, współczynnik konwersji to ogólna miara, która obejmuje różne proporcje, takie jak współczynnik aktywacji nowych użytkowników produktów, współczynniki monetyzacji użytkowników freemium, współczynniki konwersji leadów w witrynie i współczynniki klikalności.

Za pomocą prostego testu A/B masz pojedynczą hipotezę i zmieniasz jeden element na raz, aby dowiedzieć się jak najwięcej o przyczynowych elementach swojej zmiany. Może to być coś takiego jak zmiana nagłówka, zmiana koloru lub rozmiaru przycisku, dodanie lub usunięcie filmu lub naprawdę cokolwiek.

Kiedy mówimy „test A/B”, używamy głównie ogólnego terminu, który obejmuje większość pozostałych typów eksperymentów, które wymienię w tym poście. Zwykle używa się go jako ogólnego terminu, który oznacza „zmieniliśmy *coś* – duże, małe lub wiele elementów – w celu ulepszenia metryki”.

Przypadki użycia: Wiele! Zwykle w celu przetestowania pojedynczej zmiany w cyfrowym doświadczeniu opartym na konkretnej hipotezie. Testy A/B są zwykle przeprowadzane w celu poprawy metryki, ale także w celu poznania wszelkich zmian zachodzących w zachowaniu użytkownika podczas interwencji.

3. Test A/B/n

Testy A/B/n są bardzo podobne do testów A/B, ale zamiast testować dwie wersje strony, testujesz wiele wersji.

Testy A/B/n są pod pewnymi względami podobne do testów wielowymiarowych (które omówię dalej). Jednak zamiast testu „wielowariantowego” uznałbym je za test wielowariantowy.

Testy wielowymiarowe są przydatne do zrozumienia relacji między różnymi elementami na stronie. Na przykład, jeśli chcesz przetestować różne nagłówki, obrazy i opisy na stronie produktu, a także chcesz zobaczyć, które kombinacje wydają się najlepiej współdziałać, użyj testu na wielu odmianach.

Testy A/B/n są przydatne do testowania wielu wersji jednego elementu i nie przejmują się tak bardzo efektami interakcji między elementami.

Na przykład, jeśli chcesz przetestować trzy różne nagłówki na stronie docelowej, użyj testu A/B/n. Możesz też po prostu przetestować siedem zupełnie różnych wersji strony. To tylko test A/B z przetestowanymi więcej niż dwoma doświadczeniami.

Testy A/B/n są dobrym wyborem, gdy masz duży ruch i chcesz efektywnie przetestować kilka wariantów. Oczywiście statystyki trzeba poprawić dla wielu wariantów. Toczy się również wiele dyskusji na temat tego, ile wariantów należy uwzględnić w teście A/B/n.

Często podczas testowania kilku doświadczeń naraz można przeforsować bardziej oryginalne i kreatywne warianty, w przeciwieństwie do wielu prostych testów A/B.

Przypadek użycia: gdy masz dostępny ruch, wiele wariantów świetnie nadaje się do testowania szerokiego asortymentu doświadczeń lub wielu iteracji elementu.

4. Test wielowymiarowy

Test na wielu odmianach to eksperyment z wieloma zmianami. Tam, gdzie test A/B/n testuje złożone wersje każdego wariantu w porównaniu z innymi wariantami, test wielowymiarowy ma również na celu określenie efektów interakcji między testowanymi elementami.

Wyobraź sobie na przykład, że zmieniasz projekt strony głównej. Przeprowadziłeś badania konwersji i odkryłeś problemy z przejrzystością nagłówka, ale masz też pewne hipotezy dotyczące poziomu kontrastu i przejrzystości w CTA.

Nie tylko jesteś zainteresowany ulepszeniem każdego z tych dwóch elementów w izolacji, ale również wydajność tych elementów jest prawdopodobnie zależna. Dlatego chcesz zobaczyć, która kombinacja nowych nagłówków i CTA działa najlepiej.

Projekt eksperymentu staje się znacznie bardziej skomplikowany, gdy wchodzisz na terytorium wielowymiarowe. Istnieje kilka różnych typów konfiguracji eksperymentu na wielu zmiennych, w tym pełny projekt czynnikowy, częściowy lub ułamkowy projekt czynnikowy oraz testowanie Taguchi.

I tak jak w przypadku statystycznego zdrowego rozsądku, testy wielowymiarowe prawie na pewno wymagają większego ruchu niż proste testy A/B. Każdy dodatkowy element lub doświadczenie, które zmienisz, zwiększa ruch potrzebny do uzyskania prawidłowego wyniku.

Przypadki użycia: eksperymenty na wielu odmianach wydają się szczególnie korzystne dla optymalizacji doświadczenia poprzez dostosowanie kilku małych zmiennych. Zawsze, gdy chcesz określić optymalną kombinację elementów, należy rozważyć testy wielowymiarowe.

5. Test celowania

Testy targetowania, lepiej znane jako personalizacja, polegają na pokazywaniu właściwej wiadomości właściwej osobie we właściwym czasie.

Za pomocą testu kierowania możesz tworzyć różne wersje strony i wyświetlać każdą wersję innej grupie osób. Celem jest zwykle zwiększenie współczynników konwersji poprzez pokazywanie odpowiednich treści każdemu użytkownikowi.

Pamiętaj, że personalizacja i eksperymentowanie nie są synonimami. Możesz spersonalizować doświadczenie, nie traktując go jako eksperymentu. Na przykład możesz zdecydować, że bez danych lub zamiaru zbierania danych będziesz używać tokena imienia w wiadomościach e-mail, aby spersonalizować wiadomości z imieniem i nazwiskiem odbiorcy.

Personalizacja? TAk. Eksperymentowanie? Nie.

Ale możesz też przeprowadzać eksperymenty kierowane na określone segmenty użytkowników. Jest to szczególnie powszechne w przypadku eksperymentów z produktami, gdzie można wyodrębnić kohorty na podstawie ich poziomu cenowego, czasu rejestracji, źródła rejestracji itp.

Te same statystyki dotyczą eksperymentów personalizacyjnych, dlatego ważne jest, aby wybrać odpowiednie segmenty, na które chcesz kierować reklamy. Jeśli zastosujesz zbyt szczegółowe podejście – powiedzmy, że będziesz kierować reklamy na użytkowników mobilnego Chrome z obszarów wiejskich Kansas, którzy mają od 5 do 6 sesji – nie tylko nie będzie można określić statystycznego wpływu, ale raczej nie będzie to miało znaczącego wpływu na działalność biznesową.

Personalizacja jest zwykle postrzegana jako naturalne rozszerzenie prostych testów A/B, ale pod wieloma względami wprowadza mnóstwo nowej złożoności. Dla każdej nowej reguły personalizacji, którą stosujesz, jest to nowy „wszechświat”, który utworzyłeś, aby użytkownicy mogli zarządzać, aktualizować i optymalizować.

Narzędzia do predykcyjnej personalizacji pomagają zidentyfikować segmenty docelowe, a także doświadczenia, które wydają się lepiej z nimi współpracować. W przeciwnym razie reguły personalizacji są często identyfikowane poprzez segmentację posttestową.

Przypadki użycia: izoluj zabiegi do określonych segmentów bazy użytkowników.

6. Test bandytów

Test bandytów lub użycie algorytmów bandytów jest trochę techniczny. Ale zasadniczo różnią się od testów A/B, ponieważ ciągle się uczą i zmieniają, który wariant jest pokazywany użytkownikom.

Testy A/B to zazwyczaj eksperymenty o „stałym horyzoncie” (z technicznym zastrzeżeniem stosowania testów sekwencyjnych), co oznacza, że podczas przeprowadzania testu określasz z góry okres próbny. Po zakończeniu podejmujesz decyzję, czy wprowadzić nowy wariant, czy powrócić do oryginału.

Testy bandytów są dynamiczne. Stale aktualizują przydział ruchu do każdego wariantu na podstawie jego wydajności.

Teoria brzmi następująco: wchodzisz do kasyna i natrafiasz na kilka automatów do gry (wielorękich bandytów). Zakładając, że każda maszyna ma różne nagrody, problem bandytów pomaga „zdecydować, na których maszynach grać, ile razy grać na każdej maszynie i w jakiej kolejności oraz czy kontynuować grę na obecnej maszynie, czy wypróbować inną”.

Proces decyzyjny jest tutaj podzielony na „eksplorację”, w której próbujesz zbierać dane i informacje, oraz „eksploatację”, która wykorzystuje tę wiedzę, aby uzyskać ponadprzeciętne nagrody.

Tak więc test bandytów na stronie internetowej miałby na celu znalezienie w czasie rzeczywistym optymalnego wariantu i skierowanie do niego większego ruchu.

Przypadki użycia: krótkie eksperymenty z wysoką „nietrwałością” (co oznacza, że wnioski wyciągnięte z wyników nie będą sięgać daleko w przyszłość) oraz długoterminowa dynamiczna optymalizacja „ustaw i zapomnij”.

7. Algorytmy ewolucyjne

Algorytmy ewolucyjne są rodzajem kombinacji testów wielowymiarowych i testów bandytów. W kontekście eksperymentów marketingowych algorytmy ewolucyjne pozwalają na jednoczesne testowanie dużej liczby wariantów.

Celem algorytmu ewolucyjnego jest znalezienie optymalnej kombinacji elementów na stronie. Działają, tworząc „populację” wariantów, a następnie testując je wszystkie ze sobą. Najskuteczniejszy wariant jest następnie wykorzystywany jako punkt wyjścia dla następnej generacji.

Jak sugeruje nazwa, wykorzystuje iteracje ewolucyjne jako model optymalizacji. Masz mnóstwo różnych wersji nagłówków, przycisków, treści i filmów, które łączysz ze sobą, tworząc nowe mutacje, i dynamicznie próbujesz zabić słabe warianty i wysłać większy ruch do silnych wariantów.

Przypomina to wielowymiarowe testowanie na sterydach, aczkolwiek z mniejszą przejrzystością efektów interakcji (a tym samym mniejszym potencjałem uczenia się).

Te eksperymenty wymagają również sporego ruchu w witrynie, aby działały dobrze.

Przypadki użycia: masowe testowanie na wielu odmianach, łączenie kilku wersji kreacji i znajdowanie wyłaniającego się zwycięzcy wśród wszystkich kombinacji.

8. Test podzielonej ścieżki strony

ilustracja testu ścieżki podzielonej strony

Test podzielonej ścieżki strony jest również bardzo popularnym rodzajem testów A/B.

Zamiast zmieniać element na jednej stronie, zmieniasz całą ścieżkę, którą użytkownik przechodzi przez Twoją witrynę.

oryginał i odmiana ilustracji testowej ścieżki podzielonej strony

W teście podzielonej ścieżki strony zasadniczo testujesz dwie różne wersje swojej witryny, produktu lub ścieżki. Celem jest zwykle znalezienie wersji, która zapewnia więcej konwersji lub sprzedaży. Może również pomóc w identyfikacji punktów porzucenia na ścieżce, które mogą diagnozować obszary zainteresowania w celu dalszej optymalizacji.

Zasadniczo, zamiast zmieniać kopię na przycisku, zmieniasz następną stronę, do której przycisk odsyła cię po kliknięciu. To skuteczny sposób na eksperymentowanie z podróżą klienta.

Przypadki użycia: zidentyfikuj i ulepsz ścieżki stron i ścieżki użytkownika w produkcie lub na stronie internetowej.

9. Test na istnienie

Testowanie istnienia to ciekawa koncepcja. To, co próbujesz zrobić, to ilościowe określenie wpływu (lub jego braku) danego elementu na Twój produkt lub witrynę.

Zgodnie z artykułem CXL „Mówiąc najprościej, usuwamy elementy Twojej witryny i sprawdzamy, co dzieje się z Twoim współczynnikiem konwersji”.

Innymi słowy, testujesz, czy zmiana w ogóle ma jakikolwiek wpływ.

Strategicznie jest to taka niedoceniana strategia. Często za pomocą własnej heurystyki lub badań jakościowych zakładamy, które elementy są najważniejsze na stronie.

Z pewnością wideo demonstracyjne produktu jest ważne. Testowanie istnienia to sposób na zakwestionowanie tego przekonania i szybkie uzyskanie odpowiedzi.

Po prostu usuwasz wideo i widzisz, co się stanie.

Wzrost czy spadek współczynnika konwersji? Interesujące – oznacza to, że zajmowany element lub nieruchomość ma w jakiś sposób wpływ.

Bez wpływu? To też jest interesujące. W takim przypadku wskazałbym, że mój zespół skupił się na innych częściach cyfrowego doświadczenia, wiedząc, że nawet całkowite usunięcie tego elementu nie wpływa na nasze KPI.

Przypadki użycia: „Mapowanie sygnału konwersji”. Zasadniczo może to powiedzieć o elastyczności elementów na Twojej stronie internetowej, AKA, czy są one wystarczająco ważne, aby skoncentrować się na optymalizacji?

10. Test drzwi malowanych

Test malowanych drzwi jest w pewnym sensie podobny do testu istnienia. Są one bardzo powszechne w przypadku testowania nowych ofert, a także testowania zapotrzebowania na nowe funkcje produktów.

Zasadniczo test pomalowanych drzwi jest eksperymentem mającym na celu sprawdzenie, czy ludzie faktycznie użyją nowej funkcji, czy nie. W rzeczywistości nie poświęcasz czasu ani zasobów na *tworzenie* nowej oferty lub funkcji. Zamiast tego tworzysz „pomalowane drzwi”, aby zobaczyć, czy przechodzący obok ludzie będą próbowali je otworzyć (tj. tworzysz przycisk lub stronę docelową i sprawdzasz, czy ludzie w ogóle je klikają, wywołując zainteresowanie).

Celem testu pomalowanych drzwi jest sprawdzenie, czy istnieje zapotrzebowanie na testowany przedmiot. Jeśli ludzie faktycznie korzystają z nowej funkcji, to wiesz, że warto się nią zająć. Jeśli nie, to wiesz, że nie warto poświęcać czasu i możesz porzucić ten pomysł.

Są one również znane jako testy dymne .

Testy malowanych drzwi to świetny sposób na przetestowanie nowych pomysłów bez inwestowania dużej ilości czasu i pieniędzy.

Ponieważ w rzeczywistości nie masz oferty ani doświadczenia w tworzeniu, zwykle nie możesz używać wskaźników KPI, takich jak współczynnik konwersji. Zamiast tego musisz wymodelować swój minimalny próg oczekiwanej wartości. Na przykład utworzenie funkcji X będzie kosztować Y, więc biorąc pod uwagę nasze istniejące dane bazowe, musimy zobaczyć współczynnik klikalności Y, aby zapewnić „prawdziwe” wrażenia.

Lista oczekujących przed startem jest w pewnym sensie testem pomalowanych drzwi (ze słynnym przykładem są brzytwy Harry'ego).

przykład listy oczekujących na test drzwi przed uruchomieniem — Źródło obrazu

Przypadki użycia: udowodnij, że warto zainwestować czas i zasoby w tworzenie nowej funkcji, oferty lub doświadczenia.

11. Test na odkrycie

Testy odkrywcze, które zaczerpnąłem z Metodologii testowania opartej na dyscyplinie Andrew Andersona, polegają na zwiększeniu zakresu możliwych opcji.

Są prawie zawsze wersją testów A/B/n z wieloma wariantami, ale niekoniecznie muszą być zaprojektowane w ten sposób. Większym celem jest przetestowanie opcji wykraczających poza zakres, który normalnie uznalibyście za rozsądne. To łagodzi twoje własne uprzedzenia, które mogą ograniczać zakres opcji, które kiedykolwiek rozważasz.

Zamiast wąsko definiować hipotezę, masz nadzieję wyjść poza własne uprzedzenia i potencjalnie nauczyć się czegoś zupełnie nowego na temat tego, co działa z Twoimi odbiorcami.

Aby przeprowadzić test odkrywania, bierzesz kawałek nieruchomości w swoim produkcie lub witrynie i generujesz kilka różnych wariantów. Celem jest to, że każdy wariant jest zupełnie inny od poprzedniego, co daje szeroką gamę niepodobnych opcji. Celem jest znalezienie czegoś, co działa, nawet jeśli nie wiesz z wyprzedzeniem, co to jest.

W testach odkrywania ważne jest, aby zmapować eksperyment na makro-KPI i nie optymalizować pod kątem mikrokonwersji. Ważne jest również, aby przeprowadzić testy na znaczących doświadczeniach o dużym natężeniu ruchu, ponieważ potrzebujesz odpowiedniej mocy statystycznej, aby odkryć wzrosty wśród wielu wariantów.

Aby zobaczyć przykład takiego eksperymentu, sprawdź przykład Andrew Andersona z Malwarebytes, gdzie przetestowali 11 bardzo różnych wariantów.

Przypadki użycia: uwolnij swoje eksperymenty od stronniczych hipotez i znajdź nieszablonowe rozwiązania, które, choć mogą być sprzeczne z Twoją intuicją, ostatecznie wpływają na wyniki biznesowe.

12. Test iteracyjny

W informatyce istnieje pojęcie znane jako „problem wspinaczki górskiej”. Zasadniczo algorytmy wspinaczki pod górę starają się znaleźć najwyższy punkt w krajobrazie, zaczynając od dołu i stale przesuwając się w górę.

Ta sama koncepcja może być zastosowana do eksperymentów marketingowych.

W teście iteracyjnym zaczynasz od małej zmiany, a następnie zwiększasz ją, aż osiągniesz punkt malejących zwrotów. Ten punkt malejących zysków nazywany jest „lokalnym maksimum”. Lokalne maksimum to najwyższy punkt w krajobrazie, do którego można dotrzeć z punktu początkowego.

Celem testu iteracyjnego jest znalezienie lokalnego maksimum dla danej zmiany. Może to być bardzo skuteczny sposób testowania takich rzeczy, jak zmiany oferty lub zmiany cen, a także każdy element, który okazał się mieć wpływ poprzez badania lub testy istnienia.

Zasadniczo wiesz, że element X ma znaczenie i wiesz, że istnieje dodatkowe pole manewru, aby poprawić KPI Y poprzez ulepszenie elementu X. Więc robisz kilka małych i iteracyjnych pchnięć przy zmianie elementu X, aż okaże się, że nie możesz już poprawić metryki (lub jest to niezmiernie trudne).

Prosty przykład testu iteracyjnego pochodzi z mojej własnej strony internetowej. Uruchamiam wyskakujące okienka lead magnet. Wiem, że wysyłają e-maile i prawdopodobnie istnieje punkt zmniejszania się zwrotów, ale nie sądzę, abym jeszcze go uderzył. Więc co kilka miesięcy zmieniam jedną zmienną – albo nagłówek, samą ofertę, albo obraz, w nadziei na niewielki wzrost.

przykład testu iteracyjnego na stronie internetowej

Przypadki użycia: zoptymalizuj docelowe elementy lub doświadczenia, testując kolejno kilka małych iteracji doświadczenia, aby osiągnąć lokalne maksimum.

13. Innowacyjny test

rodzaj randomizowanego kontrolowanego testu innowacyjny test

W przeciwieństwie do testów iteracyjnych, innowacyjne testy mają na celu znalezienie zupełnie nowych wzgórz do pokonania.

Zgodnie z artykułem CXL, innowacyjne testy „są przeznaczone do eksploracji niezbadanych terytorium i znajdowania nowych możliwości”.

Innowacyjne testy polegają na wypróbowaniu czegoś zupełnie nowego. Zwykle są nieco bardziej ryzykowne niż inne rodzaje eksperymentów, ale mogą też być bardzo satysfakcjonujące. Jeśli szukasz wielkich wygranych, najlepszym rozwiązaniem są innowacyjne testy.

Całkowite przeprojektowanie strony głównej lub strony docelowej należy do tej kategorii. Testy typu Discovery to forma innowacyjnego testowania. Testy kolorów przycisków byłyby dokładnym przeciwieństwem testu innowacyjnego.

Innowacyjny test powinien sprawić, że Ty lub Twoi interesariusze poczujesz się nieco nieswojo (ale pamiętaj, że piękno eksperymentów polega na tym, że są one ograniczone czasowo i ograniczają Twoje wady).

CXL podała przykład innowacyjnego testu, który przeprowadzili dla klienta tutaj:

przykład innowacyjnego testu od CXL — Źródło obrazu

Przypadki użycia: zrób duży zamach i znajdź nowe „wzgórze”, na które można się wspiąć. Załóż kilka hipotez i drastycznie zmień doświadczenie.

14. Test równoważności

Test równoważności służy do określenia, czy nowe leczenie nie jest gorsze od standardowego leczenia.

Celem testu non-inferiority jest wykazanie, że nowe leczenie jest co najmniej tak samo skuteczne jak leczenie standardowe.

Dlaczego miałbyś przeprowadzić taki test?

Wiele powodów. Najlepsze, o jakim przychodzi mi do głowy, to wariant, który jest „lepszy” w jakimś innym wymiarze (jest tańszy w utrzymaniu, lepiej spełnia standardy marki itp.), ale chcesz się upewnić, że nie zaszkodzi kluczowe wskaźniki efektywności biznesowej.

Albo wyobraź sobie, w świetle medycznych badań klinicznych, że opracowano lek, który kosztuje 1/10 tego, co zwykle przepisywane leki. Dopóki nie działa *gorzej* niż istniejący lek, jego przystępność cenowa oznacza, że jest znacznie lepszą opcją do wprowadzenia.

Innym powodem, dla którego je przeprowadzam, jest to, że leczenie jest bardzo faworyzowane przez dyrektora lub interesariusza. Nienawidzę ci tego zdradzać, ale tylko dlatego, że jako profesjonaliści od eksperymentów mamy dostęp do danych, nie oznacza to, że unikamy bałaganu związanego z tendencyjnym myśleniem i ludzką polityką.

Cieszę się, że mogę od czasu do czasu poddawać się testowi przesłanemu przez HiPPO i przeprowadzać go przez niższy próg pewności, jak test niegorszości. Tak długo, jak nie psuje *moich* kluczowych wskaźników wydajności, nie ma nic złego w jego wdrażaniu i zyskuje przychylność polityczną.

Przypadki użycia: ogranicz minusy eksperymentów, w których inny wymiar jest lepszy (koszt, preferencje interesariuszy, wrażenia użytkownika, marka itp.).

15. Flaga funkcji

Flagi funkcji to technika tworzenia oprogramowania, która umożliwia włączanie i wyłączanie niektórych funkcji lub funkcji oraz testowanie nowych funkcji w środowisku produkcyjnym.

Bez zagłębiania się w szczegóły techniczne pozwalają testować funkcje w środowisku produkcyjnym lub powoli wprowadzać je do mniejszych podzbiorów użytkowników, zachowując jednocześnie możliwość szybkiego skalowania wstecz lub wyłączania funkcji, jeśli nie działa.

Pod wieloma względami są metodologią zapewniania jakości. Ale z drugiej strony, pod wieloma względami, tak samo są z testami A/B.

Termin „flaga funkcji” jest w pewnym sensie terminem zbiorczym, który obejmuje wiele powiązanych funkcji „przełączania”, takich jak wydania kanarkowe, testowanie w produkcji, ciągły rozwój, wycofywanie i bramy funkcji.

Przypadki użycia: przetestuj nowe funkcje lub środowiska przed wdrożeniem nowego kodu do środowiska produkcyjnego.

16. Quasi eksperymenty

Wreszcie najbardziej skomplikowana, szeroka i najtrudniejsza do zdefiniowania kategoria eksperymentów: quasi-eksperymenty.

Quasi-eksperymenty są często używane, gdy nie można losowo przypisywać użytkowników do grup testowych.

Na przykład, jeśli testujesz nową funkcję w swojej witrynie, możesz przeprowadzić test A/B, flagę funkcji, a nawet ramię personalizacji.

Ale co, jeśli chcesz przetestować kilka zmian SEO i zobaczyć ich wpływ na ruch? A może jeszcze dalej, ich wpływ na konwersje blogów? Co zrobić, jeśli chcesz przetestować skuteczność zewnętrznych reklam billboardowych?

W zaskakująco dużej liczbie przypadków trudno jest, jeśli nie niemożliwe, zorganizować ściśle zorganizowany i naprawdę kontrolowany eksperyment.

W takich przypadkach projektujemy quasi-eksperymenty, aby poradzić sobie z tym, co mamy.

W przypadku zmian SEO możemy użyć narzędzi takich jak Wpływ przyczynowy, aby określić ilościowo zmiany w szeregu czasowym. Zwłaszcza jeśli kontrolujemy nasz eksperyment na podstawie stron lub innego możliwego do zidentyfikowania wymiaru, da nam to dobre wyobrażenie o tym, czy nasza interwencja zadziałała, czy nie.

W przypadku reklam radiowych lub billboardowych możemy spróbować wybrać reprezentatywne geolokalizacje i określić ilościowo efekt w czasie, korzystając z podobnych statystyk bayesowskich.

To złożony temat, więc połączę się z dwoma świetnymi zasobami:

Jak Netflix przeprowadza quasi-eksperymenty
Jak Shopify przeprowadza quasi-eksperymenty

Przypadki użycia: ilościowe określenie wpływu, gdy randomizowane badanie z grupą kontrolną nie jest możliwe lub wykonalne.

Wniosek

Mam nadzieję, że przekonało Cię to, że testy A/B wykraczają daleko poza zmianę nagłówka lub przycisku CTA w celu optymalizacji współczynników konwersji.

Kiedy poszerzysz swoją perspektywę tego, co może osiągnąć eksperymentowanie, zdasz sobie sprawę, że to niesamowite narzędzie do nauki.

Możemy mapować wpływowe elementy na landing page, identyfikować optymalną kombinację elementów, wymyślać nową i ulepszoną ścieżkę strony użytkownika, rozwijać nowe funkcje i doświadczenia bez narażania się na dług techniczny lub kiepski user experience, a nawet testować nowe kanały marketingowe oraz interwencje poza naszą witryną internetową lub poza naszym produktem.