A/B Test Metodolojisi: Veriyle Karar Verme Rehberi

"Ürün sayfasındaki butonu yeşil yaparsam satış artar" cümlesi bir tahmindir; A/B testi ise o tahmini kanıta ya da çürütülmüş bir efsaneye dönüştüren yöntemdir. Çoğu satıcı butonu değiştirir, ertesi gün satış arttı diye sevinir ve kararı oraya bağlar. Oysa o artış mevsim, kampanya ya da sadece şansla da gelmiş olabilir. A/B testinin tüm meselesi, gözlemlediğiniz farkın gerçek mi yoksa tesadüf mü olduğunu ayırt edebilmektir.

Sektör araştırmaları, iyi kurgulanmış testlerin dönüşüm oranında anlamlı iyileştirmeler getirebildiğini, buna karşılık testlerin büyük bölümünün yöntemsel hatalar yüzünden yanlış sonuç ürettiğini gösteriyor. Yani sorun "test yapmak" değil, "testi doğru kurmak". Bu rehberde istatistiksel anlamlılık, test süresi, tek değişken kuralı, mobil ayrımı, doğru alan seçimi ve sonuçların raporlanmasını Türkiye e-ticaret bağlamında ele alıyoruz.

A/B Testi Nedir, Ne Değildir?

A/B testi, aynı sayfanın ya da öğenin iki (ya da daha fazla) versiyonunu, gerçek ziyaretçilere eşzamanlı ve rastgele göstererek hangisinin daha iyi performans verdiğini ölçen kontrollü bir deneydir. Kontrol grubu (A) mevcut haldir; varyasyon (B) test etmek istediğiniz değişikliktir. Trafiği rastgele bölersiniz, böylece iki grup arasındaki tek anlamlı fark sizin değiştirdiğiniz şey olur.

A/B testi bir görüş yarışması değildir. "Bence bu daha güzel" tartışmasını bitirmek için vardır. Ama şu da değildir: her küçük değişiklik için zorunlu bir ritüel. Günde birkaç yüz ziyaretçi alan bir mağazada saçından tırnağına her şeyi test etmeye kalkmak, sonuç vermeyen aylara mal olur. Test, yeterli trafiğin olduğu ve kararın gerçekten para anlamına geldiği yerlerde değerlidir.

İstatistiksel Anlamlılık: İşin Kalbi

Bir testin "kazandı" diyebilmeniz için gözlemlediğiniz farkın tesadüfle açıklanamayacak kadar güçlü olması gerekir. Burada üç kavram devreye girer:

Güven seviyesi (confidence): Genel kabul gören eşik %95'tir. Bu, "bu fark tesadüf olsaydı, bu kadar belirgin görünme ihtimali %5'in altında" demektir.
p-değeri (p-value): Farkın tesadüfen oluşma olasılığıdır. p < 0,05 ise sonucu istatistiksel olarak anlamlı kabul edersiniz.
Örneklem büyüklüğü: Güvenilir bir sonuç için her varyasyona yeterince ziyaretçi düşmelidir. Pratik bir referans olarak varyasyon başına 30.000 civarı ziyaretçi hedefi, küçük farkları bile güvenle yakalayabilmek için sağlam bir taban sayılır. Beklediğiniz iyileşme ne kadar küçükse, ihtiyaç duyduğunuz örneklem o kadar büyür.

İstatistiksel anlamlılık olmadan açıklanan her "kazanan", aslında bir yazı-tura sonucunu strateji sanmaktır. Test bittiğinde kafanızda "acaba" kalıyorsa, test bitmemiştir.

Önemli bir tuzak: Testi günlük kontrol edip "B öne geçti, durduralım" demek. Buna "erken bakma" (peeking) denir ve anlamlılığı sahteleştirir. Test, baştan belirlediğiniz örnekleme ve süreye ulaşmadan sonlandırılmaz.

Test Süresini Doğru Hesaplamak

Süre, örneklem ve trafik hacminin bir fonksiyonudur. Çok kısa test gürültü ölçer; gereğinden uzun test ise karar verme hızınızı yavaşlatır. Pratik bir başlangıç çerçevesi şöyle kurulabilir:

Haftalık dönüşüm hacmi	Önerilen test süresi	Notlar
1.000 dönüşümün altı	4-8 hafta	Düşük trafik; sabır ve büyük etkili değişiklikler şart
1.000 - 10.000 dönüşüm	2-4 hafta	Çoğu orta ölçekli mağazanın bandı
10.000 dönüşüm üzeri	1-2 hafta	Hızlı iterasyon mümkün

İki kural her zaman geçerli: Test en az bir tam hafta (tercihen iki) sürmeli ki hafta içi ve hafta sonu davranış farkları, maaş günü etkisi gibi döngüler dengelensin. İkincisi, testi bir kampanya, indirim ya da özel gün (Black Friday, Efsane Cuma) ortasında başlatıp bitirmeyin; o dönemin alıcısı sizin normal alıcınızı temsil etmez.

Tek Değişken Kuralı

En sık yapılan ve en pahalı hata budur. Başlığı, buton rengini ve fiyatı aynı anda değiştirip B kazanınca "hangisi kazandırdı?" sorusuna cevabınız olmaz. Sonuç muğlaktır, çıkarımı bir sonraki sayfaya taşıyamazsınız.

Kural nettir: Bir testte tek bir değişkeni değiştirin. Buton rengini test edeceksiniz, başlık aynı kalsın. Başlığı test edeceksiniz, görsel sabit kalsın. Birden fazla öğeyi bilinçli ve birlikte test etmek istiyorsanız bunun adı çok değişkenli (multivariate) testtir ve katlanarak daha fazla trafik gerektirir; küçük-orta mağazalar için çoğu zaman doğru araç değildir.

Pratik yaklaşım

Bir hipotez yazın: "CTA butonunu daha kontrast bir renge çevirmek tıklamayı artırır çünkü mevcut renk arka planla kayboluyor."
Yalnızca o öğeyi değiştirin.
Önceden başarı metriğini belirleyin (tıklama değil, sepete ekleme ya da satış gibi paraya yakın bir metrik).
Sonucu kaydedin, bir sonraki hipoteze geçin.

Mobil ve Masaüstünü Ayrı Test Edin

Türkiye'de e-ticaret trafiğinin çok büyük bölümü mobilden geliyor; özellikle pazaryeri uygulamaları içi davranış masaüstünden epey farklı. Masaüstünde işe yarayan bir düzen, küçük ekranda parmakla kaydırılan bir akışta tam tersi etki yapabilir. Araştırmalar, testlerin önemli bir kısmında mobil ve masaüstü sonuçlarının birbirinden ayrıştığını gösteriyor.

Bu yüzden mobil ve masaüstünü tek bir havuzda toplayıp ortalama almayın. En azından şunu yapın:

Sonuçları cihaza göre ayrı ayrı raporlayın (segmentasyon).
Trafiğiniz yetiyorsa mobil için ayrı bir test kurun.
Mobilde kazanan bir varyantı masaüstüne, masaüstünde kazananı mobile sormadan taşımayın.

Aynı mantık kanal için de geçerli: Kendi web sitenizdeki davranışla Trendyol veya Hepsiburada vitrinindeki davranış aynı değildir. Pazaryerinde zaten sayfa düzenine müdahaleniz sınırlıdır; orada test edebileceğiniz şey daha çok görsel, başlık metni ve fiyat-kargo kombinasyonudur. Birden fazla kanalı birlikte yönetiyorsanız çoklu pazaryeri yönetimi disiplini, hangi kanalda neyi test ettiğinizi karıştırmamak için kritik.

Yüksek Etkili Alanları Seçmek

Sınırlı trafiğiniz varsa onu en çok kazandıracak yere harcamalısınız. "Footer'daki link rengi" gibi düşük etkili testler, aylarınızı yer ve neredeyse hiç fark yaratmaz. ROI'si yüksek alanlar genellikle şunlardır:

Test alanı	Tipik etki potansiyeli	Neden önemli
CTA (harekete geçirici buton)	Yüksek	Renk, metin ve konum doğrudan tıklamayı etkiler; düşük maliyetli değişiklik
Ürün sayfası	Yüksek	Görsel sırası, başlık, açıklama, sosyal kanıt; satın alma kararının merkezi
Ödeme / sepet (checkout)	Çok yüksek	Buradaki her terk, kaybedilmiş hazır müşteri demek
Fiyat ve kargo sunumu	Yüksek	"Ücretsiz kargo" eşiği ve KDV dahil gösterim algıyı belirler

Checkout özellikle değerlidir çünkü oraya gelen kullanıcı zaten satın almaya niyetlidir; küçük bir sürtünmeyi azaltmak doğrudan ciroya yansır. Fiyat ve kargo sunumunu test ederken, KDV dahil gösterim ve ücretsiz kargo eşiği gibi unsurların alıcı algısını ne kadar değiştirebildiğini unutmayın. Fiyatla oynarken kâr tarafını da gözden kaçırmamak için kâr marjının nasıl korunacağını bilmek, "dönüşüm arttı ama kâr eridi" tuzağından korur.

Test Sonuçlarını Yönetmek ve Raporlamak

Test bitince iş bitmez; asıl değer sonucu hayata geçirmek ve öğrenmeyi biriktirmektir. Disiplinli bir kapanış şöyle olur:

Kazanan varyantı uygulayın. Anlamlı kazanan çıktıysa kalıcı hale getirin ve eski hali arşivleyin.
Kaybeden varyantı boşa atmayın. Neden kaybettiğini not edin; bu, bir sonraki hipotezin tohumudur. Bazen "kaybeden" fikir küçük bir revizyonla yeni bir teste dönüşür.
Anlamsız sonucu da kaydedin. "Fark yok" da bir bilgidir: O öğeye daha fazla kaynak harcamayın.
Rapor hazırlayın. Hipotez, test süresi, örneklem, sonuç, p-değeri ve aksiyon kararını tek bir tabloda tutun. Bu kayıt zamanla mağazanızın kendi "neyin işe yaradığı" bilgi bankası olur.

Bir test takvimi ve sonuç günlüğü tutmak, ekibinizin altı ay sonra aynı testi tekrar tekrar konuşmasını engeller. Karar verme süreçlerinizi sezgiden veriye taşıdıkça, mağazanın tümünde bir kültür oluşur.

Sık Yapılan Hatalar

Testi birkaç gün sonra "hisle" durdurmak (peeking).
Aynı anda birden çok öğe değiştirmek.
Mobil ve masaüstünü tek havuzda ölçmek.
Kampanya/özel gün ortasında test başlatmak.
Tıklama gibi ara metriği nihai başarı sanmak; paraya yakın metriği ölçmemek.
Düşük trafikte mikro değişiklikler test edip ay kaybetmek.

Sıkça Sorulan Sorular

Çok düşük trafiğim var, yine de A/B testi yapabilir miyim?

Klasik anlamda zorlanırsınız; yeterli örnekleme ulaşmak haftalar, hatta aylar alır. Bu durumda iki yol var: Ya yalnızca büyük, cesur değişiklikleri test edin (küçük farkları zaten yakalayamazsınız) ya da testi bırakıp en iyi uygulamaları doğrudan uygulayın. Trafiği büyütmek, test yapabilmenin ön koşuludur.

p-değeri 0,05'in biraz üstünde çıktı, kazananı uygulasam olmaz mı?

Riskli. 0,05 eşiğini geçememek, "fark tesadüf olabilir" demektir. Karar paraysa, ya testi biraz daha uzatın ya da "anlamlı kazanan yok" deyip mevcut halde kalın. Eşiğe yaklaşmak, kanıt değildir.

A/B testi ile çok değişkenli (multivariate) test arasındaki fark ne?

A/B testi tek bir değişkeni karşılaştırır ve daha az trafik ister. Çok değişkenli test birden çok öğenin kombinasyonlarını aynı anda dener; hangi kombinasyonun en iyi olduğunu söyler ama katlanarak daha fazla ziyaretçi gerektirir. Küçük-orta mağazalar için neredeyse her zaman A/B testi doğru başlangıçtır.

Pazaryerinde (Trendyol, Hepsiburada) A/B testi yapabilir miyim?

Site düzeyinde sayfa düzenine müdahaleniz sınırlı olduğu için klasik bir A/B aracı kuramazsınız. Ama görsel, başlık metni, fiyat ve kargo kombinasyonlarını dönemsel olarak değiştirip dönüşüm/satış üzerindeki etkisini gözlemleyebilirsiniz. Burada tek değişken kuralına uymak ve dönemleri karıştırmamak daha da kritiktir.

Sonucu ne zaman güvenle "kazandı" diyebilirim?

Üç koşul birlikte sağlandığında: önceden belirlediğiniz örnekleme ulaştınız, test en az bir-iki tam hafta sürdü ve sonuç %95 güven / p < 0,05 eşiğini geçti. Bunlardan biri eksikse sonuç "umut verici" olabilir ama "kanıtlanmış" değildir.

Özet

A/B testi, e-ticarette "bence" tartışmalarını bitirip kararları veriye bağlamanın en güçlü aracıdır. Ama gücü, doğru kurulmasına bağlıdır: yeterli örneklem ve %95 güven, en az bir-iki haftalık dengeli süre, her testte tek değişken, mobil ile masaüstünün ayrı ölçülmesi ve trafiği yüksek etkili alanlara (CTA, ürün sayfası, checkout) yönlendirmek. Her testi hipotez-süre-sonuç-aksiyon formatında raporlayıp biriktirdiğinizde, mağazanız zamanla yanılmaktan çıkar ve kendi kanıtlarıyla büyür.

A/B Test Metodolojisi: Yanılmaktan Çıkıp Veriyle Kararlar Vermenin Rehberi