5 eksempler på A/B-testing som bør gi deg lyst til å prøve selv.
Mye av kunnskapen jeg har om brukervennlighet bygger på observasjoner fra vanlige kvalitative brukertester.
Det finnes imidlertid andre metoder som bør supplere brukertestene når vi samler inn kunnskap om hva som fungerer og hva som ikke fungerer.A/B-testing er en av dem.
A/B–testing går ut på å lage to alternative løsninger og så måle hvilken versjon som fungerer best. Det er mange måter å gjøre dette på, men siden man ofte trenger et stort antall testbrukere for å få et pålitelig resultat er det vanlig å teste ”live” på nettsidene og bruke webstatistikkverktøy for å gjøre målingene.
Her er noen eksempler:
ABtests.com
På abtests.com kan hvem som helst dele resultatene fra sine A/B-tester. Luke Stevens laget først en grundig designet versjon av en sign up-side for en boklansering. Så laget han en mer uformell versjon av den samme siden og fordelte de to versjonene på halvparten av de besøkende. Den uformelle versjonen viste seg å gi over dobbelt så mange påmeldinger til e-postvarslingen.
Marian Steinbach hadde opprinnelig en produktside med to lenker for nedlasting av fonter. De laget en versjon der den mest brukte lenken ble erstattet med en stor grønn knapp. Versjonen med knapp hadde 6.5 % bedre konvertering.
Med A/B-testing kan man se at små variasjoner kan gi tydelige utlsag i hvor godt sidene fungerer.
Det er verdt å merke seg at resultatene ikke nødvendigvis er stabile over tid. I eksemplet over gav versjon B dårligere konvertering i starten, og det tok over 2 måneder før resultatet stabiliserte seg på bedre konvertering for versjon B.
Bing
Microsoft brukte A/B-testing for å ta viktige valg da de lanserte søkemotoren Bing.
Dersom man sammenligner visningen av søketreffet hos Google, Yahoo og Bing ser man at det ikke er store forskjeller:
Bing eksperimenterte med ulike farger på lenkene og også ulike sjatteringer av blåfarger. Konklusjonen var at for Microsoft var den nøyaktige blåfargen #0033CC verdt 80 millioner dollar. Med tydelige resultater fra A/B-testing slapp de å sitte i lange møter og diskutere lenkefarger. De fant også ut at Arial var den mest effektive fonten.
Bing brukte flere målekriterier for å måle hvilke varianter av søkemotoren som fungerte best, blant annet lojalitet (basert på hvor ofte brukerne kom tilbake til siden), tid før første klikk, fortjeneste fra klikk på annonser osv.
Amazon
Amazon.com er en av de største suksessene på nettet og er stadig til inspirasjon for andre. Dette gjelder også hvordan de gjør endringer. Amazon har aldri gjort en komplett relansering av nettstedet, men har istedet gjort små inkrementelle forbedringer.
Jared Spool snakker i det legendariske foredraget ” Revealing Design Treasures from the Amazon” om hvordan Amazon i 2007 gikk fra fane-navigasjon til venstrenavigasjonen de bruker i dag.
Amazon faset den nye navigasjonen inn i fem faser:
- Fase 1: Den nye navigasjonen ble vist til 5000 besøkende hver dag, men bare til besøkende uten støtte for cookies i nettleseren, noe som vil si nye kunder som ikke har kjøpt hos Amazon tidligere. (Det tar Amazon ca 45 sekunder å få 5000 besøkende)
- Fase 2: Den nye navigasjonen ble vist til 20% av de besøkende uten støtte for cookies i nettleseren.
- Fase 3: Den nye navigasjonen ble vist til 5000 besøkende med støtte for cookies hver dag.
- Fase 4: Den nye navigasjonen ble vist til 20% av alle de besøkende.
- Fase 5: Den nye navigasjonen ble vist til alle.
Alt sammen tok 12 uker, og Amazon kunne hele tiden kunne gjøre små forandringer og sammenligne den nye navigasjonsløsningen med den eksisterende.
Tidligere har Amazon til og med gjort A/B testing på prisene, altså vist ulike priser til kundene. Dette var ikke spesielt populært.
Bring
Noen ganger kan webstatistikk brukes for å gi et godt bilde av hvilken variant som er best. Men noen ganger er det vanskelig å gjøre gode målinger.
Jeg har jobbet med bring.com, og ett av målene våre var å redusere tiden det tar kundene å finne fram til rett produkt.
Vi laget et fasettert søk der kunden angir sitt behov og får en kortere liste over produkter. Vi fant at kundene i gjennomsnitt brukte 25% kortere tid på å finne korrekt produkt enn tidligere.
Vi hadde ikke muligheten til å utnytte statistikkverktøy, så vi observerte brukerne og tok tiden med stoppeklokke. Det var vanskelig å få tilstrekkelig antall observasjoner til at resultatet ble reliabelt, men så lenge forbedringene er store, kan slike målinger være tilstrekkelig.
Dette bør du tenke på når du skal gjennomføre en A/B-test.
Den største styrken til A/B-tester er at man ganske enkelt kan kåre en vinner. Dette kan gjerne sette en stopper for lange diskusjoner, men man må være klar over at A/B-testing ikke kan brukes til alt.
A/B-testing fungerer best:
- På nettsider med mye trafikk.
- På varianter som har små og tydelige forskjeller (dersom alt er forskjellig aner man ikke hva som gjør utslaget).
- For å avgjøre en beslutning du ellers ikke klarer å ta.
Ikke bli låst til å bare finpusse på det som enkelt lar seg måle. Man trenger også en god porsjon kreativt pågangsmot for å lage et godt nettsted. Det er flott at du kan endre lenkefarge og øke konverteringen med 6%. Men kunne du økt den med 60% dersom du gjorde noe som ikke er like lett å måle?
Amazon og Bing har ekstremt stor trafikk på sidene sine, noe som gjør det enklere å gjennomføre A/B-tester. Har man mindre trafikk, tar det lengre tid før man kan få entydige resultater. En tommelfingelregel er at man minst må ha 10 tilfeller av konvertering før man kan trekke en konklusjon på hvilken versjon som fungerer best.
De interesserte kan finne ut hvordan man kan bruke G-testen fra statistikken for å finne ut når man har nok testpersoner. Et annet triks er å kjøre en A/B/A-test. Si f.eks. at du viser versjon A til 5000 brukere, versjon B til 5000 brukere, og versjon A til 5000 nye brukere igjen. Dersom de to målingene av verson A er veldig forskjellige, kan du ikke stole på at forskjellen mellom A og B er reell heller.
Dersom du har lyst til å lære mer, kan Joshua Porters workshop om Webanalyse og “metrics-driven design” på Webdagene 2010 være en god begynnelse.
Har dere noen eksempler på bruk av A/B-testing?