A/B Test

A/B Test

정의

- AB Test란 온라인으로 접속한 사용자를 임의로 여러개의 그룹으로 분리하고 각 사용자 그룹에게 서로 다른 UI나 알고리즘을 노출시키고 비교함으로써 여러 안 중 가장 효과가 좋은 안을 찾아내는 것을 말한다.
- 마케팅과 웹 분석에서 쓰인 종합 대조 실험(Controlled Experiment)이다. 디지털 환경에서 전체 실사용자를 대상으로 대조군(Control Group)과 실험군(Experimental Group)으로 그룹을 나누어 특정한 UI나 알고리즘의 효과를 비교하는 방법론이다. 기획자는 사용자경험에 영향을 주는 기능이나 제품 기획 시 기존의 방식을 사용한 대조군 A와 새로운 기능이 동반된 실험군 B로 유저 그룹을 나누어 이를 비교하는 것이다. AB 테스트를 사용하면 새로운 기능이 원했던 목적대로 특정 문제를 해결하는지, 문제 해결에 얼마나 효과적인지 등을 측정할 수 있다. 많은 경우 AB 테스트는 특정 지표의 전환율 상승을 목표로 진행된다. 이러한 AB 테스트를 진행하기에 앞서 해당 테스트가 합리적이고 유의미하게 분석되었는지를 사전에 테스트를 거쳐 검증할 수 있다. 왜냐하면 데이터가 잘못되었거나, 목적과 다른 지표를 설정했다거나, 마케팅 효과 등의 변수나 모수가 적은 등 실험 진행 과정에서 방생하는 요인에 의해 영향을 받을 수 있기 떄문이다.

abtest


AB Test 검증 방법

- AB 테스트를 수행하고 그 결과값을 받앗을 때 의사결정자가 그 테스트가 합리적이고 유의미하게 분석되었다고 판단할 수 있으려면 결과값을 검증해야한다. 가장 많이 활용되는 방법은 AA 테스트와 P-value 분석이다.

- AA 테스트

- AA 테스트란 AB테스트를 진행하기 전에 변화가 없는 같은 페이지를 두고 실시하는 실험이다. 분산된 트래픽에 대해 동일한 Variation을 동시에 보여주고 차이의 유무를 먼저 확인하는 것이다. AA 테스트 결과가 차이가 없는 경우 AB 테스트를 진행하여 차이점을 찾을 수 있다. AA 테스트는 서비스 체험기간에 진행하여 구매 및 구축 전 미리 해당 플랫폼의 신뢰도를 측정하는 것을 권장한다. 더부러어 이미 검증하여 사용하는 플랫폼이라고 하더라도 종종 AA테스트를 진행하여 해당 실험 결과의 신뢰도를 유지할 수 있다면 바람직할 것이다. 다만 AA테스트는 많은 모수를 필요로 하기 떄문에 충분한 기간을 두고 진행하는 것이 바람직하다.

P-value 분석

- P-value분석은 통계 분석에서 널리 쓰이는 유의성 검증 방식이다. 통계적인 관점으로 AB 테스트를 살펴보면 모집단(전체 기간에 대한 이상적 실제값)을 샘플(AB테스트가 진행되는 특정 기간)의 값을 활용하여 추정한다고 할 수 있다. 관례적으로 P-value가 0.05미만이면 두 집단의 평균 차이가 허용 가능한 수준으로 여긴다. 일반적으로 AB테스트의 결과를 평가하는 지표는 전환율을 사용한다. 이 통계의 차이가 유의미한지를 평가하는 방안으로 P-value를 활용할 수 있다. 하지만 P-value만으로 결과를 신뢰할 수 있을만큼 평가하기는 어렵다. 샘플의 수가 너무 적으면 P-value 의 값이 너무 크게 나올 수도 있기 때문이다. A집단과 B집단 모두 10일 때 각각 7명,5명씩 전환했다고 할 때와 각 집단의 전체 샘플의 수가 1000명일 때의 결과는 다르다. 표본의 수를 늘리고 전환 수에 변화를 주면 그 결과값도 달라지며 결과에 영향을 주는 요인들이 무엇인지 살표보며 면밀하게 분석하는 것이 필요하다. AB테스트를 진행할 때 있어서 유의 수준, 검정력, 탐지하고자 하는 원하는 효과의 크기를 정하고 이를 토대로 실험 규모를 정할 수 있어야한다. P-value는 통계적 유의성 확보를 위한 도구이지 실험 결과의 중요성을 평가하는 지표가 아니다. 실험 결과가 현실적으로 어떤 중요성을 갖는지 판단해야하고 그 뒤에 그 결과를 얼마나 신뢰할 수 있는지 평가하는 것이 시간과 비용을 절약할 수 있는 지름길이라고 할 수 있다.

AB Test 프로세스

1. 데이터 수집 : 전환율이 낮은 트래픽 구역을 찾고 데이터를 수집
2. 목표 설정 : ex) 버튼 클릭, 구매링크 클릭, 회원 가입
3. 가설 수립 : 기존 버전보다 나을 것 같은 아이디어를 기준으로 가설 수립
4. 비교 버전 만들기 : AB Test 소프트웨어 이용하여 비교 버전 만들기 ex) CTA 버튼 색깔 변경, 문구 변경
5. 실험 수행 : 페이지 방문자들에게 랜덤으로 페이지 배정 (A or B)하여 테스트
6. 결과 분석 : 두 버전의 퍼포먼스 비교하여 분석 결과가 통계적으로 유의미한지 확인(일반적으로 P-value, AA Test를 통해 통계적으로 유의미성을 확인한다.)