사이트에서 실행할 수 있는 모든 다양한 유형의 테스트(+ 실행 시기)

게시 됨: 2022-09-20

실험 세계는 대부분 단순한 버튼 색상 A/B 테스트를 넘어섰습니다.

그들은 당신이 실행하는 실험 포트폴리오에서 자신의 위치를 차지할 수 있지만 희망적으로 이 시점에서 실험 또는 CRO와 동의어가 아닙니다.

실험은 훨씬 더 커질 수 있습니다.

다양한 유형의 실험을 사용하여 웹사이트의 변화에 대해 배우고, 새로운 경험을 테스트하고, 새로운 페이지 경로를 발견하고, 큰 도약 또는 작은 단계를 수행하고, 페이지에서 최적의 요소 조합을 식별할 수 있습니다.

실험에서 배우고자 하는 바가 실험 설계에 반영되어야 하며 실험 설계는 구체적인 가설을 사용하여 단순히 A 대 B를 테스트하는 것 이상입니다.

사실, 이를 다루는 실험 설계(DoE)로 알려진 전체 연구 하위 분야가 있습니다.

숨다

실험 설계: 실험 설계 소개
16 일반적인 실험 유형
- 1. A/A 테스트
- 2. 간단한 A/B 테스트
- 3. A/B/n 테스트
- 4. 다변수 테스트
- 5. 타겟팅 테스트
- 6. 산적 테스트
- 7. 진화 알고리즘
- 8. 페이지 분할 경로 테스트
- 9. 존재 테스트
- 10. 도장된 도어 테스트
- 11. 발견 테스트
- 12. 반복 테스트
- 13. 혁신적인 테스트
- 14. 비열등성 시험
- 15. 기능 플래그
- 16. 유사 실험
결론

실험 설계: 실험 설계 소개

실험 설계(DoE)는 프로세스에 영향을 미치는 요인과 해당 프로세스의 결과 간의 관계를 결정하는 데 사용되는 과학적 방법입니다.

실험계획법(Design of Experiments)은 1920년대와 1930년대에 통계학자 론 피셔(Ron Fisher)에 의해 대중화된 개념입니다.

DoE를 사용하면 입력을 체계적으로 변경하고 출력의 결과 변경을 관찰함으로써 다양한 입력 변수가 프로세스 출력에 어떻게 영향을 미치는지 이해할 수 있습니다. 이 접근 방식은 프로세스를 최적화하거나, 새로운 제품이나 기능을 개발하거나, 어떤 요소가 서로 결합하여 가장 잘 작동하는지 알아보는 데 사용할 수 있습니다.

마케팅에서 DoE를 사용하여 페이지의 다양한 요소(요인)가 전환율(출력)에 미치는 영향에 대한 이해를 높입니다. 실험을 효과적으로 설계함으로써 전환율에 가장 큰 영향을 미치는 요소를 식별할 수 있습니다.

다양한 실험 유형이 있으며 각 유형을 사용하여 웹사이트나 앱에 대해 다양한 정보를 얻을 수 있습니다.

이 기사에서는 16가지 유형의 실험을 다룰 것입니다.

Nitpickers는 이것이 모두 근본적으로 다른 실험 설계가 아니라는 점에 주목해야 합니다. 오히려 일부는 가설을 생성하는 방법이나 실험을 실행하는 이유의 기초가 되는 프레임워크 때문에 다른 "유형"입니다.

또한 일부는 "실험"이 아니라 기계 학습 모델에 구축된 최적화 규칙입니다.

그럼에도 불구하고 다음 각각은 고유한 목적을 가지고 있으며 실험자의 툴킷에서 고유한 도구로 볼 수 있습니다.

16 일반적인 실험 유형

웹사이트에서 실행할 수 있는 통제된 실험에는 여러 가지 유형이 있지만 다음은 가장 일반적인 16가지입니다.

1. A/A 테스트
2. 간단한 A/B 테스트
3. A/B/n 테스트
4. 다변수 테스트
5. 타겟팅 테스트
6. 산적 테스트
7. 진화 알고리즘
8. 분할 페이지 경로 테스트
9. 존재시험
10. 도장 도어 테스트
11. 발견 테스트
12. 증분 테스트
13. 혁신적인 테스트
14. 비열등성 시험
15. 기능 플래그
16. 준 실험

1. A/A 테스트

A/A 테스트는 간단한 개념입니다. 동일한 페이지의 두 가지 버전을 테스트하는 것입니다.

왜 이렇게 하시겠습니까?

주로 교정을 추구하고 기본 데이터, 사용자 행동 및 테스트 도구의 무작위화 메커니즘을 이해하기 위한 여러 가지 이유가 있습니다. A/A 테스트는 다음과 같은 도움을 줄 수 있습니다.

데이터의 분산 수준 결정
테스트 도구 내에서 샘플링 오류 식별
기준 전환율 및 데이터 패턴을 설정합니다.

A/A 테스트를 실행하는 것은 이상하게 논쟁의 여지가 있습니다. 일부는 맹세합니다. 어떤 사람들은 시간 낭비라고 말합니다.

내 테이크? 앞서 언급한 모든 이유로 인해 적어도 한 번은 실행해 볼 가치가 있습니다. 내가 A/A 테스트를 실행하는 것을 좋아하는 또 다른 이유는 테스트 초보자에게 통계를 설명하기 위해서입니다.

이틀 동안 수집된 데이터가 포함된 "중요한" 실험을 누군가에게 보여주고 나중에 A/A 테스트임을 밝히면 이해 관계자는 일반적으로 실험을 완료해야 하는 이유를 이해합니다.

A/A 테스트에 대해 더 자세히 알고 싶다면(실제로는 방대한 주제임), Convert에 이에 대한 심층 가이드가 있습니다.

사용 사례: 데이터 변동 보정 및 결정, 실험 플랫폼 버그 감사, 기준 전환율 및 샘플 요구 사항 결정.

2. 간단한 A/B 테스트

누구나 간단한 A/B 테스트가 무엇인지 알고 있습니다. 페이지의 두 가지 버전을 테스트하고 있습니다. 하나는 변경 사항이 있고 다른 하나는 변경 사항이 없습니다.

A/B 테스트는 실험의 빵과 버터입니다. 설정하기 쉽고 이해하기 쉽지만 큰 변경 사항을 테스트하는 데 사용할 수도 있습니다.

A/B 테스트는 사용자 인터페이스의 변경 사항을 테스트하는 데 가장 일반적으로 사용되며 간단한 A/B 테스트의 목표는 거의 항상 주어진 페이지의 전환율을 높이는 것입니다.

그런데 전환율은 신제품 사용자의 활성화율, 프리미엄 사용자의 수익화 비율, 웹사이트의 리드 전환율 및 클릭률과 같은 모든 종류의 비율을 포괄하는 일반적인 메트릭입니다.

간단한 A/B 테스트를 통해 단일 가설을 세우고 변경의 원인 요소에 대해 최대한 많이 배우기 위해 한 번에 하나의 요소를 변경합니다. 이것은 헤드라인 변경, 버튼 색상 또는 크기 변경, 비디오 추가 또는 제거 또는 실제로 모든 것이 될 수 있습니다.

"A/B 테스트"라고 할 때 이 게시물에 나열할 나머지 실험 유형의 대부분을 포괄하는 일반적인 용어를 주로 사용합니다. 일반적으로 "측정항목을 개선하기 위해 *뭔가*(크거나, 작거나, 많은 요소)를 변경했습니다."를 의미하는 포괄적인 용어로 사용됩니다.

사용 사례: 많다! 일반적으로 구체적인 가설에 따라 디지털 경험에 대한 단일 변경을 테스트합니다. A/B 테스트는 일반적으로 메트릭을 개선하기 위한 목적으로 실행되지만 개입으로 인해 사용자 행동에서 발생하는 모든 변경 사항에 대해서도 학습합니다.

3. A/B/n 테스트

A/B/n 테스트는 A/B 테스트와 매우 유사하지만 페이지의 두 가지 버전을 테스트하는 대신 여러 버전을 테스트합니다.

A/B/n 테스트는 어떤 면에서 다변수 테스트와 유사합니다(다음에 살펴보겠습니다). 그러나 "다변량" 테스트보다는 이러한 다변량 테스트를 고려하겠습니다.

다변수 테스트는 페이지의 여러 요소 간의 관계를 이해하는 데 유용합니다. 예를 들어 제품 페이지에서 다양한 헤드라인, 이미지 및 설명을 테스트하고 어떤 조합이 가장 상호 작용하는지 확인하려는 경우 다변수 테스트를 사용합니다.

A/B/n 테스트는 단일 요소의 여러 버전을 테스트하는 데 유용하며 요소 간의 상호 작용 효과에 대해서는 그다지 신경 쓰지 않습니다.

예를 들어 방문 페이지에서 세 가지 다른 헤드라인을 테스트하려는 경우 A/B/n 테스트를 사용합니다. 또는 완전히 다른 7가지 버전의 페이지를 테스트할 수 있습니다. 2개 이상의 경험을 테스트한 A/B 테스트일 뿐입니다.

A/B/n 테스트는 트래픽이 많고 여러 변형을 효율적으로 테스트하려는 경우 확실한 선택입니다. 물론 여러 변종에 대해 통계를 수정해야 합니다. A/B/n 테스트에 포함해야 하는 변형의 수에 대해서도 많은 논쟁이 있습니다.

여러 개의 간단한 A/B 테스트에서 반복적으로 수행하는 것과는 반대로 한 번에 여러 경험을 테스트할 때 더 독창적이고 창의적인 변형을 푸시할 수 있는 경우가 많습니다.

사용 사례: 사용 가능한 트래픽이 있는 경우 여러 변형을 사용하여 다양한 경험을 테스트하거나 요소를 여러 번 반복하는 것이 좋습니다.

4. 다변수 테스트

다변수 테스트는 여러 변경 사항이 있는 실험입니다. A/B/n 테스트가 각 변형의 복합 버전을 서로의 변형에 대해 테스트하는 경우 다변수 테스트는 테스트된 요소 간의 상호 작용 효과를 결정하는 것도 목표로 합니다.

예를 들어, 홈페이지를 재설계한다고 상상해 보십시오. 전환 조사를 수행하고 헤드라인의 명확성 문제를 발견했지만 CTA의 대비 및 명확성 수준에 대한 몇 가지 가설도 있습니다.

이 두 요소 각각을 개별적으로 개선하는 데 관심이 있을 뿐만 아니라 이러한 요소의 성능도 달라질 수 있습니다. 따라서 새로운 헤드라인과 CTA의 어떤 조합이 가장 효과적인지 확인하려고 합니다.

다변수 영역에 들어가면 실험 설계가 훨씬 더 복잡해집니다. 전체 요인 설계, 부분 또는 부분 요인 설계, Taguchi 검정을 비롯한 몇 가지 다른 유형의 다변량 실험 설정이 있습니다.

그리고 통계적 상식과 마찬가지로 다변수 테스트는 단순한 A/B 테스트보다 더 많은 트래픽을 필요로 합니다. 추가 요소 또는 환경을 변경할 때마다 유효한 결과에 필요한 트래픽 양이 늘어납니다.

사용 사례: 다변수 실험은 몇 가지 작은 변수를 조정하여 경험을 최적화하는 데 특히 유용합니다. 최적의 요소 조합을 결정할 때마다 다변량 테스트를 고려해야 합니다.

5. 타겟팅 테스트

개인화로 더 잘 알려진 타겟팅 테스트는 적시에 적절한 사람에게 적절한 메시지를 표시하는 것입니다.

타겟팅 테스트를 사용하면 페이지의 다른 버전을 만들고 각 버전을 다른 그룹의 사람들에게 보여줄 수 있습니다. 목표는 일반적으로 각 사용자에게 관련 콘텐츠를 표시하여 전환율을 높이는 것입니다.

개인화와 실험은 동의어가 아닙니다. 실험으로 취급하지 않고 경험을 개인화할 수 있습니다. 예를 들어, 데이터가 없거나 데이터를 수집할 의도로 이메일에 이름 토큰을 사용하여 받는 사람의 이름으로 메시지를 개인화하도록 결정할 수 있습니다.

개인화? 예. 실험? 아니.

그러나 특정 사용자 세그먼트를 대상으로 실험을 실행할 수도 있습니다. 이는 가격 책정 계층, 가입 시간, 가입 소스 등을 기반으로 집단을 분리할 수 있는 제품 실험에서 특히 일반적입니다.

개인화 실험에도 동일한 통계가 적용되므로 타겟팅할 의미 있는 세그먼트를 선택하는 것이 중요합니다. 세션이 5~6회인 시골 Kansas 모바일 Chrome 사용자를 타겟팅하는 경우와 같이 너무 세분화하면 영향을 통계적으로 정량화하는 것이 불가능할 뿐만 아니라 의미 있는 비즈니스 영향도 없을 것입니다.

개인화는 일반적으로 단순한 A/B 테스트의 자연스러운 확장으로 간주되지만 여러 면에서 새로운 복잡성을 도입합니다. 사용하는 각각의 새로운 개인화 규칙에 대해 사용자가 관리, 업데이트 및 최적화할 수 있도록 만든 새로운 "우주"입니다.

예측적 개인화 도구는 타겟 세그먼트와 함께 더 잘 작동하는 경험을 식별하는 데 도움이 됩니다. 그렇지 않으면 사후 테스트 세분화를 수행하여 개인화 규칙을 식별하는 경우가 많습니다.

사용 사례: 치료를 사용자 기반의 특정 세그먼트로 분리합니다.

6. 산적 테스트

밴디트 테스트 또는 밴딧 알고리즘을 사용하는 것은 약간 기술적입니다. 그러나 기본적으로 사용자에게 표시되는 변형을 지속적으로 학습하고 변경하기 때문에 A/B 테스트와 다릅니다.

A/B 테스트는 일반적으로 "고정 기간" 실험(순차 테스트 사용에 대한 기술적 주의 사항 포함)입니다. 즉, 테스트를 실행할 때 평가판 기간을 미리 결정해야 합니다. 완료되면 새 변형을 출시할지 아니면 원본으로 되돌릴지 결정합니다.

산적 테스트는 동적입니다. 성능에 따라 각 변형에 대한 트래픽 할당을 지속적으로 업데이트합니다.

이론은 다음과 같습니다. 카지노에 들어가 여러 슬롯 머신(다중 무장 도적)을 발견합니다. 각 기계에 서로 다른 보상이 있다고 가정하면 적기 문제는 "어떤 기계를 재생할지, 각 기계를 몇 번이고 어떤 순서로 재생할지, 현재 기계를 계속 사용할지 아니면 다른 기계를 시도할지 결정"하는 데 도움이 됩니다.

여기에서 결정 프로세스는 데이터와 정보를 수집하려고 시도하는 "탐색"과 평균 이상의 보상을 생성하기 위해 해당 지식을 활용하는 "착취"로 나뉩니다.

따라서 웹사이트의 밴딧 테스트는 최적의 변종을 실시간으로 찾고 해당 변종에 더 많은 트래픽을 전송하려고 합니다.

사용 사례: "변질 가능성"이 높은 짧은 실험(결과에서 얻은 학습 내용이 미래로 멀리 확장되지 않음을 의미), 장기적으로 "설정하고 잊어버리기" 동적 최적화.

7. 진화 알고리즘

진화 알고리즘은 일종의 다변수 테스트와 밴딧 테스트의 조합입니다. 마케팅 실험의 맥락에서 진화 알고리즘을 사용하면 동시에 많은 수의 변형을 테스트할 수 있습니다.

진화 알고리즘의 목표는 페이지에서 최적의 요소 조합을 찾는 것입니다. 그들은 변형의 "집단"을 만든 다음 서로에 대해 모두 테스트하여 작동합니다. 그런 다음 최고 성능의 변형이 다음 세대를 위한 시작점으로 사용됩니다.

이름에서 알 수 있듯이 진화적 반복을 최적화 모델로 사용합니다. 헤드라인, 버튼, 본문, 동영상의 다양한 버전이 있고 각각을 연결하여 새로운 돌연변이를 만들고 약한 변형을 제거하고 강력한 변형에 더 많은 트래픽을 보내려고 동적으로 시도합니다.

스테로이드에 대한 다변량 테스트와 비슷하지만 상호 작용 효과의 투명성이 낮기 때문에 학습 가능성이 낮습니다.

또한 이러한 실험이 제대로 작동하려면 상당한 양의 웹사이트 트래픽이 필요합니다.

사용 사례: 대규모 다변수 테스트, 여러 버전의 크리에이티브를 결합하고 모든 조합 중에서 떠오르는 승자를 찾습니다.

8. 페이지 분할 경로 테스트

분할 페이지 경로 테스트는 A/B 테스트의 매우 일반적인 유형이기도 합니다.

단일 페이지의 요소를 변경하는 대신 사용자가 웹사이트를 통해 이동하는 전체 경로를 변경하는 것입니다.

분할 페이지 경로 테스트를 사용하면 기본적으로 두 가지 버전의 웹사이트, 제품 또는 유입경로를 테스트하게 됩니다. 목표는 일반적으로 더 많은 전환 또는 판매로 이어지는 버전을 찾는 것입니다. 또한 유입경로에서 이탈 지점을 식별하는 데 도움이 될 수 있으므로 추가 최적화를 위해 중점 영역을 진단할 수 있습니다.

기본적으로 버튼의 사본을 변경하는 대신 버튼을 클릭하면 버튼이 보내는 다음 페이지를 변경합니다. 고객 여정을 실험할 수 있는 강력한 방법입니다.

사용 사례: 제품 또는 웹사이트에서 페이지 경로와 사용자 유입경로를 식별하고 개선합니다.

9. 존재 테스트

존재 테스트는 흥미로운 개념입니다. 당신이 하려고 하는 것은 당신의 제품이나 웹사이트에서 주어진 요소의 영향(또는 그것의 부족)을 정량화하는 것입니다.

CXL 기사에 따르면 "간단히 말하면 사이트의 요소를 제거하고 전환율이 어떻게 되는지 확인합니다."

즉, 변경 사항이 전혀 영향을 미치지 않는지 확인하기 위해 테스트하고 있습니다.

전략적으로 이것은 과소평가된 전략입니다. 우리는 종종 우리 자신의 발견적 방법이나 질적 연구를 통해 어떤 요소가 페이지에서 가장 중요한지 가정합니다.

확실히 제품 데모 영상이 중요합니다. 실존 테스트는 그 믿음에 의문을 제기하고 신속하게 답을 얻는 방법입니다.

비디오를 제거하고 무슨 일이 일어나는지 보기만 하면 됩니다.

전환율 증가 또는 감소? 흥미롭다는 것은 그것이 차지하는 요소나 부동산이 어떤 식으로든 영향력이 있다는 것을 의미합니다.

영향이 없습니까? 그것도 흥미롭다. 이 경우 요소를 완전히 제거해도 KPI에 아무런 영향을 미치지 않는다는 사실을 알고 있는 팀이 디지털 경험의 다른 부분에 초점을 맞추고 있음을 알려드립니다.

사용 사례: "전환 신호 매핑." 본질적으로 이것은 웹사이트에 있는 요소의 탄력성을 알려줄 수 있습니다. 최적화 노력에 집중할 만큼 충분히 중요합니까?

10. 도장된 도어 테스트

도장된 도어 테스트는 어떤 면에서 존재 테스트와 유사합니다. 새로운 제안을 테스트하고 새로운 제품 기능에 대한 수요를 테스트하는 데 매우 일반적입니다.

기본적으로 페인팅 도어 테스트는 사람들이 실제로 새로운 기능을 사용할지 여부를 확인하는 실험입니다. 실제로 새로운 제안이나 기능을 *생성*하는 데 시간과 리소스를 소비하지 않습니다. 오히려, 지나가는 사람들이 그것을 열려고 시도하는지 보기 위해 "페인트된 문"을 만듭니다(즉, 버튼이나 방문 페이지를 만들고 사람들이 관심을 가지고 클릭하는지 확인합니다).

페인트 칠한 문 테스트의 목표는 테스트 중인 항목에 대한 수요가 있는지 확인하는 것입니다. 사람들이 실제로 새 기능을 사용하고 있다면 추구할 가치가 있음을 알 수 있습니다. 그렇지 않은 경우 시간 가치가 없다는 것을 알고 아이디어를 폐기할 수 있습니다.

연기 테스트 라고도 합니다.

페인트칠된 도어 테스트는 많은 시간이나 돈을 투자하지 않고도 새로운 아이디어를 테스트할 수 있는 좋은 방법입니다.

실제로 제안이나 생성 경험이 없기 때문에 일반적으로 전환율과 같은 KPI를 사용할 수 없습니다. 오히려 기대값의 최소 임계값을 모델링해야 합니다. 예를 들어 X 기능을 만드는 데 비용이 Y이므로 기존 기준 데이터가 주어지면 "실제" 경험을 만들려면 Y 클릭률을 확인해야 합니다.

출시 전 대기자 명단은 어떤 면에서는 페인트칠한 문 테스트입니다(유명한 예로 해리의 면도칼이 있습니다).

사용 사례: 새로운 기능, 제안 또는 경험을 만드는 데 시간과 리소스를 투자하는 비즈니스 사례를 증명합니다.

11. 발견 테스트

Andrew Anderson의 Discipline-Based Testing Methodology에서 가져온 디스커버리 테스트는 모두 가능한 옵션의 범위를 늘리는 것입니다.

거의 항상 여러 변형이 있는 A/B/n 테스트 버전이지만 반드시 그런 식으로 설계할 필요는 없습니다. 이것의 더 큰 목적은 일반적으로 합리적이라고 생각했던 범위를 벗어나는 옵션을 테스트하는 것입니다. 이렇게 하면 고려하는 옵션의 범위를 제한할 수 있는 자신의 편견이 완화됩니다.

좁게 가설을 정의하는 대신 자신의 편견에서 벗어나 잠재고객에게 효과가 있는 것에 대해 완전히 새로운 것을 배우기를 희망합니다.

검색 테스트를 수행하기 위해 제품이나 웹 사이트의 일부를 가져와서 다양한 변형을 생성합니다. 목표는 각 변형이 마지막 변형과 상당히 다르기 때문에 다양한 유사하지 않은 옵션을 제공하는 것입니다. 목표는 그것이 무엇인지 미리 알지 못하더라도 작동하는 것을 찾는 것입니다.

발견 테스트에서는 실험을 거시적 KPI에 매핑하고 미시적 전환에 최적화하는 것이 중요합니다. 또한 의미 있고 높은 트래픽 경험을 테스트하는 것도 중요합니다. 많은 변형 중에서 상승도를 발견하기 위해 적절한 통계적 검정력이 필요하기 때문입니다.

이와 같은 실험의 예를 보려면 Malwarebytes의 Andrew Anderson이 11가지 매우 다른 변종을 테스트한 예를 확인하십시오.

사용 사례: 편향된 가설에서 실험 노력을 제한하고 직관에 어긋날 수 있지만 궁극적으로 비즈니스 결과를 이끌어내는 상자 밖에서 솔루션을 찾으십시오.

12. 반복 테스트

컴퓨터 과학에서 "힐 클라이밍 문제"로 알려진 개념이 있습니다. 기본적으로 언덕 등반 알고리즘은 바닥에서 시작하여 지속적으로 위로 이동하여 풍경에서 가장 높은 지점을 찾습니다.

마케팅 실험에도 동일한 개념을 적용할 수 있습니다.

반복 테스트를 사용하면 작은 변경으로 시작한 다음 수익 체감 지점에 도달할 때까지 계속 더 크게 변경합니다. 이 수익 체감 지점을 "로컬 최대값"이라고 합니다. 로컬 최대값은 시작 지점에서 도달할 수 있는 랜드스케이프의 가장 높은 지점입니다.

반복 테스트의 목표는 주어진 변화에 대한 극대값을 찾는 것입니다. 이것은 제안 변경 또는 가격 변경과 같은 항목은 물론 조사 또는 존재 테스트를 통해 영향력 있는 것으로 밝혀진 요소를 테스트하는 매우 효과적인 방법이 될 수 있습니다.

기본적으로 X 요소가 중요하다는 것을 알고 있으며 요소 X를 개선하여 KPI Y를 개선할 수 있는 추가적인 흔들림의 여지가 있다는 것을 알고 있습니다. 따라서 더 이상 메트릭을 개선할 수 없는 것처럼 보일 때까지 요소 X를 변경할 때 몇 번 작고 반복적으로 찌릅니다. 그렇게 하는 것은 매우 어렵습니다).

반복 테스트의 쉬운 예는 내 웹사이트에서 가져온 것입니다. 리드 마그넷 팝업을 실행합니다. 그들이 이메일을 주도한다는 것을 알고 있고 수익이 감소하는 지점이 있을 가능성이 있지만 아직까지 도달하지 못했다고 생각합니다. 그래서 저는 몇 달에 한 번씩 헤드라인, 제안 자체 또는 이미지 중 하나를 변경합니다.

사용 사례: 로컬 최대값에 도달하기 위해 경험에 대한 여러 작은 반복을 연속적으로 테스트하여 대상 요소 또는 경험을 최적화합니다.

13. 혁신적인 테스트

반복적인 테스트와 달리 혁신적인 테스트는 완전히 새로운 언덕을 찾는 방법을 모색합니다.

CXL 기사에 따르면 혁신적인 테스트는 "미지의 영역을 탐색하고 새로운 기회를 찾기 위해 설계되었습니다."

혁신적인 테스트는 완전히 새로운 것을 시도하는 것입니다. 일반적으로 다른 유형의 실험보다 약간 더 위험하지만 매우 보람 있을 수도 있습니다. 큰 성공을 원하신다면 혁신적인 테스트가 정답입니다.

완전한 홈페이지 또는 방문 페이지 재설계가 이 범주에 속합니다. 발견 테스트는 혁신적인 테스트의 한 형태입니다. 버튼 색상 테스트는 혁신적인 테스트와 정반대입니다.

혁신적인 테스트는 귀하 또는 귀하의 이해 관계자를 약간 불편하게 해야 합니다(그러나 실험의 장점은 기간이 제한되어 있고 단점이 있다는 점을 기억하십시오).

CXL은 여기에서 고객을 위해 실행한 혁신적인 테스트의 예를 제공했습니다.

사용 사례: 큰 스윙을 하고 등반할 새로운 "언덕"을 찾으십시오. 몇 가지 가설을 정리하고 경험을 극적으로 바꿉니다.

14. 비열등성 시험

비열등성 검사는 새로운 치료법이 표준 치료법보다 나쁘지 않은지 확인하는 데 사용됩니다.

비열등성 검사의 목표는 새로운 치료법이 최소한 표준 치료법만큼 효과적임을 보여주는 것입니다.

왜 이런 테스트를 했을까요?

많은 이유. 내가 생각할 수 있는 가장 좋은 방법은 다른 차원에서 "더 나은" 변형이 있지만(유지 관리 비용이 더 저렴하고 브랜드 표준을 더 잘 준수하는 등), 귀하의 핵심 비즈니스 KPI.

또는 의료 임상 시험의 렌즈에서 일반적으로 처방되는 약의 1/10 가격인 약이 개발되었다고 상상해 보십시오. 기존 약물보다 *나쁜* 성능을 나타내지 않는 한, 경제성은 출시하기에 훨씬 더 나은 옵션임을 의미합니다.

내가 이것을 실행하는 또 다른 이유는 처리가 경영진이나 이해 관계자에 의해 크게 선호되는 경우입니다. 그것을 깨뜨리는 것은 싫지만 실험 전문가로서 데이터에 접근할 수 있다고 해서 우리가 편향된 사고와 인간 정치의 혼란을 피할 수 있다는 의미는 아닙니다.

나는 가끔 HiPPO에서 제출하는 테스트를 받아 비열등성 테스트와 같은 더 낮은 확실성의 임계값을 통해 실행하게 되어 기쁩니다. *나의* KPI를 엉망으로 만들지 않는 한, 그것을 공개하는 데 아무런 해가 없으며 정치적인 호의를 얻습니다.

사용 사례: 다른 차원(비용, 이해 관계자의 선호도, 사용자 경험, 브랜드 등)이 더 우수한 실험의 단점을 상쇄합니다.

15. 기능 플래그

기능 플래그는 특정 기능을 켜거나 끄고 프로덕션 환경에서 새 기능을 테스트할 수 있는 소프트웨어 개발 기술입니다.

기술적인 세부 사항을 많이 다루지 않고도 프로덕션에서 기능을 테스트하거나 더 작은 사용자 하위 집합에게 천천히 롤아웃하는 동시에 기능이 작동하지 않을 경우 기능을 빠르게 축소하거나 종료할 수 있는 기능을 유지할 수 있습니다.

여러 면에서 품질 보증 방법론입니다. 그러나 여러 면에서 A/B 테스트도 마찬가지입니다.

"기능 플래그"라는 용어는 카나리아 릴리스, 프로덕션 테스트, 지속적인 개발, 롤백 및 기능 게이트와 같은 많은 관련 "토글" 기능을 포함하는 포괄적인 용어입니다.

사용 사례: 새 코드를 프로덕션에 배포하기 전에 새 기능이나 경험을 테스트합니다.

16. 유사 실험

마지막으로, 가장 복잡하고 광범위하며 정의하기 어려운 실험 범주인 유사 실험.

유사 실험은 사용자를 테스트 그룹에 무작위로 할당할 수 없을 때 자주 사용됩니다.

예를 들어 웹사이트에서 새로운 기능을 테스트하는 경우 A/B 테스트, 기능 플래그 또는 개인화 부문을 실행할 수 있습니다.

하지만 SEO 변경 사항을 테스트하고 트래픽에 미치는 영향을 확인하려면 어떻게 해야 할까요? 또는 더 나아가 블로그 전환에 미치는 영향? 옥외 광고판 광고의 효과를 테스트하고 싶다면?

놀라울 정도로 많은 경우에, 엄격하게 조직되고 진정으로 통제된 실험을 설정하는 것이 불가능하지는 않더라도 어렵습니다.

이러한 경우 우리는 우리가 가지고 있는 것과 관련이 있는 유사 실험을 설계합니다.

SEO 변경의 경우 인과적 영향과 같은 도구를 사용하여 시계열의 변경을 수량화할 수 있습니다. 특히 페이지 또는 식별 가능한 다른 차원을 기반으로 실험을 제어하는 경우 개입이 효과가 있었는지 여부에 대한 종단적 아이디어를 얻을 수 있습니다.

라디오나 광고판 광고의 경우 유사한 베이지안 통계를 사용하여 대표적인 지리적 위치를 선택하고 시간 경과에 따른 효과를 정량화할 수 있습니다.

이것은 복잡한 주제이므로 두 가지 훌륭한 리소스를 링크하겠습니다.

Netflix가 유사 실험을 실행하는 방법
Shopify가 준 실험을 실행하는 방법

사용 사례: 무작위 대조 시험이 불가능하거나 실현 가능하지 않을 때 영향을 정량화합니다.

결론

이것이 A/B 테스트가 전환율을 최적화하기 위해 헤드라인이나 CTA 버튼을 변경하는 것 이상의 의미가 있다는 것을 확신하셨기를 바랍니다.

실험이 달성할 수 있는 것에 대한 시야를 넓힐 때 실험이 놀라운 학습 도구라는 것을 깨닫게 됩니다.

우리는 방문 페이지에서 영향력 있는 요소를 매핑하고, 요소의 최적 조합을 식별하고, 새롭고 향상된 사용자 페이지 경로를 파악하고, 기술적 부채나 열악한 사용자 경험의 위험 없이 새로운 기능과 경험을 개발하고, 새로운 마케팅 채널을 테스트할 수도 있습니다. 및 당사 웹사이트 외부 또는 당사 제품 외부의 개입.