- Metodologia eksperymentu
- Próbowanie
- Wyniki
- Testowanie AA
- Walidacja po zakończeniu eksperymentu
- Dyskusja
- Na wynos
Наша команда-партнер Artmisto
Zewnętrzne wyszukiwarki, takie jak Google i Bing, są głównym źródłem ruchu dla Etsy, zwłaszcza dla naszych dłuższych, trudniejszych do znalezienia przedmiotów, a zatem Search Engine Optimization (SEO) jest ważny w skutecznym odkrywaniu aukcji na naszej platformie.
Chcemy mieć pewność, że nasza strategia SEO jest oparta na danych i że możemy być bardzo pewni, że wszelkie wprowadzone przez nas zmiany przyniosą pozytywne wyniki. W Etsy stale prowadzimy eksperymenty, aby zoptymalizować wrażenia użytkownika i odkrycia na naszej platformie, dlatego naturalnie zwróciliśmy się w stronę eksperymentów, aby poprawić naszą wydajność SEO. Mimo że skonfigurowanie eksperymentu na miejscu na naszych własnych stronach i aplikacjach jest stosunkowo proste, przeprowadzenie eksperymentów z SEO wymaga zmiany sposobu wyświetlania stron Etsy w wynikach wyszukiwania, nad którymi nie mieliśmy bezpośredniej kontroli.
Aby przezwyciężyć to ograniczenie, zaprojektowaliśmy nieco zmodyfikowaną strukturę eksperymentalną, która pozwala nam skutecznie testować, jak zmiany na naszych stronach wpływają na wydajność SEO. Ten post wyjaśnia metodologię naszych testów SEO, wyzwania, z jakimi się zetknęliśmy i jak je rozwiązaliśmy.
Metodologia eksperymentu
W jednym z naszych eksperymentów postawiliśmy hipotezę, że zmiana tytułów wyświetlanych w naszych wynikach wyszukiwania (zwanych też „tagami tytułowymi”) może zwiększyć ich współczynnik klikalności. Etsy ma miliony stron wygenerowanych z treści generowanych przez użytkowników, które nadają się do testu. Wiele z tych stron uzyskuje większość ruchu za pośrednictwem SEO.
Poniżej znajduje się przykład szablonu, którego używaliśmy podczas tworzenia eksperymentu z tagiem tytułu SEO.
Zainspirowały nas testy SEO na Pinterest i Pinezka i postanowiliśmy przeprowadzić podobny eksperyment, w którym losowo przypisaliśmy nasze strony do różnych grup i zastosowaliśmy różne frazowanie tagów tytułowych pokazane powyżej. Mierzylibyśmy sukces każdej grupy testowej pod względem natężenia ruchu w stosunku do grup kontrolnych. W tym eksperymencie ustawiliśmy również dwie grupy kontrolne, aby mieć większy stopień zaufania do naszych wyników i móc sprawdzać jakość naszego losowego pobierania próbek po rozpoczęciu eksperymentu.
Próbowanie
Zrobiliśmy niewielką próbkę stron podobnego typu, jednocześnie upewniając się, że nasza próbka była wystarczająco duża, aby umożliwić osiągnięcie istotności statystycznej w rozsądnym czasie.
Ponieważ wizyty na poszczególnych stronach są bardzo zmienne, z wieloma wartościami odstającymi i wahaniami z dnia na dzień, musieliśmy stworzyć stosunkowo duże grupy po 1000 stron, aby szybko osiągnąć znaczenie. Ponadto, ze względu na wysoki stopień zmienności na naszych stronach, proste losowe próbkowanie naszych stron w grupy testowe polegało na tworzeniu grup testowych różniących się od siebie w istotny statystycznie sposób, jeszcze przed rozpoczęciem eksperymentu.
Aby upewnić się, że nasze grupy testowe były bardziej porównywalne ze sobą, użyliśmy próbkowanie warstwowe , gdzie najpierw ocenialiśmy strony jako część testu poprzez odwiedziny, podzieliliśmy je na grupy ntile, a następnie losowo przypisywaliśmy strony z każdej grupy ntile do jednej z grup testowych, zapewniając pobranie strony z każdej grupy ntile . Zapewniło to, że nasze grupy testowe były konsekwentnie reprezentatywne dla całej próbki i bardziej do siebie podobne.
Następnie przyjrzeliśmy się statystykom statystycznym dla każdej grupy testowej w poprzednim okresie, obliczając wartości odchyleń średnich i standardowych przez miesiąc i przeprowadzając testy t, aby upewnić się, że grupy nie różnią się od siebie w sposób istotny statystycznie. Wszystkie grupy testowe zdały ten test.
Szacowanie wpływu przyczynowego
Chociaż grupy testowe w naszym eksperymencie nie różniły się od siebie na poziomie istotnym statystycznie przed eksperymentem, występowały niewielkie różnice, które uniemożliwiły oszacowanie dokładnego wpływu przyczynowego po leczeniu. Na przykład grupa testowa XYZ może zauważyć wzrost w stosunku do grupy kontrolnej B, ale jeśli kontrola B była nieco lepsza niż grupy testowe XYZ jeszcze przed rozpoczęciem eksperymentu, po prostu uwzględnienie różnicy między dwiema grupami nie byłoby najlepszym oszacowaniem różnicy zabieg się zakończył.
Wspólnym podejściem do rozwiązania tego problemu jest obliczenie różnicy różnic między grupą testową a kontrolną przed i po leczeniu.
Chociaż takie podejście sprawdziłoby się dobrze, mogłoby to spowodować powstanie dwóch różnych szacowanych wielkości efektu leczenia przy porównywaniu grup testowych z dwiema różnymi grupami kontrolnymi. Zdecydowaliśmy, że zamiast tego, stosując analizę bayesowskich szeregów czasowych w celu stworzenia syntetycznej grupy kontrolnej zawierającej informacje z obu grup kontrolnych, uzyskamy czystszą analizę wyników.
W tym podejściu model uczenia maszynowego jest szkolony przy użyciu danych przed leczeniem w celu przewidzenia wydajności każdej grupy testowej w oparciu o jej kowariancję względem jej predyktorów - w naszym przypadku dwóch grup kontrolnych. Po przeszkoleniu modelu jest on używany do generowania kontrfaktycznych, syntetycznych grup kontrolnych dla każdej grupy testowej, symulując to, co by się stało, gdyby leczenie nie zostało zastosowane.
Analiza wpływu przyczynowego w tym eksperymencie została wdrożona przy użyciu CausalImpact pakiet Google.
Wyniki
Efekty naszych zabiegów testowych zaczęliśmy obserwować już po kilku dniach od daty rozpoczęcia eksperymentu. Nawet pozornie bardzo subtelne zmiany tagów tytułu powodowały duże i istotne statystycznie zmiany w ruchu na naszych stronach.
W niektórych grupach testowych zaobserwowaliśmy znaczny wzrost ruchu.
Podczas gdy w innych nie widzieliśmy zmian.
W niektórych innych zaobserwowaliśmy nawet silną negatywną zmianę ruchu.
Testowanie AA
Dwie grupy kontrolne w tym teście nie wykazały statystycznie istotnej różnicy w porównaniu do siebie po eksperymencie. Chociaż wykryto niewielką zmianę, efekt nie osiągnął znaczenia.
Walidacja po zakończeniu eksperymentu
Po zidentyfikowaniu najlepiej działającego tagu tytułowego leczenie zostało wdrożone we wszystkich grupach testowych. Inne grupy doświadczyły podobnego uniesienia w ruchu i zniknęła zmienność między pojemnikami, co dodatkowo potwierdziło nasze wyniki.
Fakt, że nasze dwie grupy kontrolne nie zauważyły żadnych zmian w porównaniu ze sobą, a także fakt, że inne wiadra doświadczyły takiej samej poprawy wydajności po zastosowaniu najlepiej działającego leczenia, dało nam mocną podstawę do zaufania do ważności naszego wyniki.
Dyskusja
W naszych wynikach okazało się, że krótsze tagi tytułowe działały lepiej niż dłuższe. Może to być spowodowane tym, że w przypadku krótszych, lepiej ukierunkowanych tagów tytułów istnieje większe prawdopodobieństwo dopasowania procentowego (które można obliczyć za pomocą metryki takiej jak Odległość Levenshteina między wyszukiwanym hasłem a tagiem tytułu) przeciwko wyszukiwanemu użytkownikowi w Google.
W podobnej hipotezie może się zdarzyć, że użycie dobrze ukierunkowanych tagów tytułów, które są bardziej tekstowo podobne do popularnych haseł wyszukiwania, pomaga zwiększyć procentową zgodność z wyszukiwanymi hasłami Google, a tym samym poprawia ranking.
Jednak jest prawdopodobne, że różne strategie sprawdzają się w przypadku różnych stron internetowych i zalecamy rygorystyczne testy, aby odkryć najlepszą strategię SEO dostosowaną do każdego indywidualnego przypadku.
Na wynos
- Mieć dwie grupy kontrolne do testowania AA. To pozwoliło nam mieć o wiele większe zaufanie do naszych wyników.
- Pakiet CausalImpact można wykorzystać do łatwego uwzględnienia niewielkich różnic w grupach testowych i kontrolnych i dokładniej oszacować różnice w zabiegach.
- W przypadku tagów tytułów najprawdopodobniej najlepszym rozwiązaniem jest użycie frazowania i sformułowań, które zmaksymalizują prawdopodobieństwo niskiego dopasowania odległości Levenshteina do popularnych zapytań docelowych w Google
Kredyty obrazkowe:
Wizualizacja próbkowania warstwowego