- Методологія експерименту
- Вибірка
- Результати
- Тестування А.А.
- Перевірка розгортання після експерименту
- Обговорення
- Винос
Наша команда-партнер Artmisto
Зовнішні пошукові системи, такі як Google і Bing, є основним джерелом трафіку для Etsy, особливо для нашого довшого хвоста, важче знайти елементи, і таким чином пошукова оптимізація (SEO) є важливою для ефективного відкриття лістингу на нашій платформі.
Ми хочемо переконатися, що наша стратегія SEO керується даними, і ми можемо бути впевнені, що будь-які зміни, які ми впроваджуємо, принесуть позитивні результати. У Etsy ми постійно проводимо експерименти для оптимізації роботи та відкриття користувачів на нашій платформі, і тому ми, природно, звернулися до експериментів для поліпшення нашої продуктивності SEO. Хоча відносно просто встановити експеримент на місці на наших власних сторінках і програмах, проведення експериментів з SEO вимагало зміни того, як з'явилися сторінки Etsy в результатах пошуку, над якими ми не мали прямого контролю.
Щоб подолати це обмеження, ми розробили трохи змінену структуру експериментального дизайну, що дозволяє нам ефективно перевіряти, як зміни на наших сторінках впливають на нашу продуктивність SEO. Цей пост пояснює методологію нашого тестування SEO, проблеми, з якими ми зіткнулися, і як ми їх вирішили.
Методологія експерименту
Для одного з наших експериментів ми припустили, що зміна назв, які відображаються на сторінках у результатах пошуку (так звані "теги заголовків"), може збільшити їхню частоту кліків. Etsy має мільйони сформованих сторінок від створеного користувачем контенту, який підходить для тесту. Багато з цих сторінок також отримують більшу частину свого трафіку через SEO.
Нижче наведено приклад шаблону, який ми використовували при створенні нещодавнього експерименту з тегами назви SEO.
Нас надихали тести SEO на Pinterest і Thumbtack і вирішили створити подібний експеримент, де ми випадковим чином розподілили наші сторінки на різні групи і застосували різні фрази назви тегів, показані вище. Ми б виміряли успіх кожної тестової групи, скільки трафіку він відвів у порівнянні з контрольними групами. У цьому експерименті ми також створили дві контрольні групи, щоб мати більш високий ступінь впевненості в наших результатах і щоб мати можливість перевірити якість рандомізованої вибірки після початку експерименту.
Вибірка
Ми взяли невелику вибірку сторінок подібного типу, забезпечуючи при цьому, що наша вибірка була достатньо великою, щоб дозволити нам досягти статистичної значущості протягом розумного періоду часу.
Оскільки відвідування окремих сторінок є дуже мінливими, з великою кількістю викидів і коливань з дня на день, ми повинні були створити відносно великі групи по 1000 сторінок, кожен з яких мав би швидко досягти значущості. Крім того, через високий ступінь розбіжності на наших сторінках, проста довільна вибірка наших сторінок у тестових групах створювала тестові групи, що відрізняються один від одного статистично значущим чином ще до початку експерименту.
Для того, щоб наші тестові групи були більш порівнянні один з одним, ми використовували стратифікована вибірка , де ми вперше класифікували сторінки, щоб вони були частиною тесту, відвідавши групи, розбили їх на групи, а потім випадковим чином розподілили сторінки з кожної групи ntile в одну з тестових груп, забезпечивши отримання сторінки з кожної групи ntile . Це гарантувало, що наші тестові групи були послідовно репрезентативними для загальної вибірки і більш надійно подібні один одному.
Потім ми розглянули статистичні показники для кожної тестової групи протягом попереднього періоду часу, обчисливши середнє значення та значення стандартного відхилення по місяцях і провели t-тести, щоб переконатися, що групи не відрізнялися один від одного статистично значущим чином. Всі тестові групи пройшли цей тест.
Оцінка причинного впливу
Хоча тестові групи в нашому експерименті не відрізнялися один від одного на статистично значущому рівні перед експериментом, були невеликі відмінності, які перешкоджали оцінці точного причинного впливу після лікування. Наприклад, випробувана група XYZ може спостерігати збільшення відносно контролю B, але якщо контроль B був трохи кращим, ніж випробувані групи XYZ ще до початку експерименту, просто прийняття різниці між двома групами не було б найкращою оцінкою різниці. лікування було здійснено.
Один загальний підхід до вирішення цієї проблеми полягає в обчисленні різниці різниць між тестовою та контрольною групами до і після лікування.
Хоча цей підхід працював би добре, він міг би створити два різних оцінюваних розміру ефекту лікування при порівнянні тестових груп проти двох різних контрольних груп. Ми вирішили, що замість цього, використовуючи Байєсовський аналіз структурних часових рядів, щоб створити синтетичну контрольну групу, що включає інформацію з обох контрольних груп, ми могли б отримати більш чистий аналіз результатів.
У цьому підході модель машинного навчання підготовлена з використанням даних попередньої обробки для прогнозування продуктивності кожної групи тестування на основі її коваріації щодо її предикторів - у нашому випадку, двох контрольних груп. Як тільки модель пройшла навчання, вона використовується для створення контрфактичних, синтетичних контрольних груп для кожної з тестових груп, що імітує те, що б сталося, якби лікування не застосовувалося.
Аналіз причинного впливу в цьому експерименті був виконаний з використанням Причинний вплив пакет Google.
Результати
Ми почали бачити наслідки наших тестових процедур вже через кілька днів після дати початку експерименту. Навіть, здавалося б, дуже тонкі зміни тегів заголовків призвели до великих і статистично значущих змін трафіку на наших сторінках.
У деяких випробувальних групах ми спостерігали значне зростання трафіку.
Хоча в інших, ми не бачили змін.
А в деяких інших ми навіть спостерігали сильні негативні зміни в русі.
Тестування А.А.
Дві контрольні групи в цьому тесті не показали статистично значущої різниці в порівнянні один з одним після експерименту. Хоча була виявлена незначна зміна, ефект не досяг значущості.
Перевірка розгортання після експерименту
Як тільки ми визначили найефективніший тег заголовка, лікування було розгорнуто у всіх тестових групах. Інші групи відчували подібні підйоми в перевезенні, а дисперсія по ковшах зникала, що підтверджувало наші результати.
Той факт, що наші дві контрольні групи не бачили жодних змін в порівнянні один з одним, а також той факт, що інші відради відчували таке ж поліпшення показників, як тільки найкраще лікування було застосовано до них, дали нам міцну основу для впевненості в дійсності нашого результатів.
Обговорення
У наших результатах з'явилося, що коротші теги назв краще, ніж довші. Це може бути тому, що для більш коротких, краще націлених тегів заголовків існує більша ймовірність відсоткового співпадання (що може бути обчислено за допомогою показника, подібного Відстань Левенштейна між пошуковим запитом і тегом заголовка) проти пошукового запиту будь-якого користувача на Google.
У подібній гіпотезі може бути, що використання добре націлених тегів заголовків, які є більш текстово схожими на звичайні пошукові терміни, допомагає збільшити відсоткове співвідношення до пошукових термінів Google і таким чином покращити рейтинг.
Тим не менш, цілком імовірно, що різні стратегії працюють добре для різних веб-сайтів, і ми рекомендуємо суворі тестування, щоб розкрити кращу стратегію SEO, розроблену для кожного окремого випадку.
Винос
- Мати дві контрольні групи для тестування АА. Це дозволило нам мати набагато більшу довіру до наших результатів.
- Пакет «Каузальний вплив» може бути використаний для легкого врахування невеликих відмінностей у групах тесту проти контрольної групи і більш точно оцінити відмінності в лікуванні.
- Для тегів заголовків, найімовірніше, найкраще використовувати фразування та формулювання, які б максимально збільшили ймовірність низького відстані в Levenshtein від популярних пошукових запитів у Google
Кредити зображень:
Візуалізація стратифікованої вибірки