Коли ви проводите A/B-тести, більшість команд зупиняються на поверхневому питанні: «Чи змінився показник?» Але що, якщо ми скажемо вам, що існує більш розумний спосіб отримати глибші інсайти з ваших експериментальних даних? Давайте розглянемо, чому лінійна регресія заслуговує на місце у вашому аналітичному арсеналі, навіть коли T-тест здається достатнім.
Класичний підхід: T-тест на даних сесій
Уявімо, що платформа електронної комерції запускає оновлений банер і хоче виміряти його вплив на тривалість користувацької сесії. Прямий шлях? Провести T-тест.
Обчислення дають нам ефект лікування у 0,56 хвилин — тобто користувачі проводять у сесіях приблизно на 33 секунди довше. Це підвищення розраховується як проста різниця між середніми контрольної та експериментальної груп. Чисто, легко пояснити, роботу зроблено, так?
Не зовсім.
Альтернатива лінійної регресії: той самий результат, інша глибина
Тепер розглянемо той самий експеримент через призму лінійної регресії. Ми встановлюємо статус лікування (банер показано: так/ні) як нашу незалежну змінну, а тривалість сесії — як залежну.
Ось де стає цікаво: коефіцієнт регресії для лікування становить 0,56 — ідентичний результату T-тесту.
Це не випадковість. Обидва методи тестують одну й ту саму нульову гіпотезу. Коли ви виконуєте T-тест, ви питаєте: «Чи є значуща різниця у середніх?» Лінійна регресія запитує: «Чи пояснює змінна лікування варіацію у тривалості сесії?» З однією бінарною змінною лікування ці питання зводяться до однієї й тієї ж математичної задачі.
Але погляньте на значення R-квадрат: всього 0,008. Модель майже нічого не пояснює щодо причин варіації тривалості сесії. Це обмеження вказує на критичну недосконалість нашого аналізу.
Прихована проблема: вибіркова упередженість у вашому експерименті
Ось неприємна правда: випадкове призначення у A/B-тестах не усуває вибіркову упередженість — воно лише її зменшує.
Вибіркова упередженість виникає, коли систематичні відмінності між вашими контрольними та експериментальними групами існують поза самим лікуванням. Наприклад:
Повторювані користувачі зустрічають банер частіше, ніж нові відвідувачі
Вплив часу доби корелює з експозицією до лікування
Сегменти користувачів по-різному реагують на банер
У таких випадках ваші 0,56-хвилинні підвищення може бути завищеним або заниженим через ці конфаундери. Ви вимірюєте змішаний ефект: справжній вплив лікування плюс вибіркова упередженість.
Вирішення: додайте контекст за допомогою ковариатів
Саме тут лінійна регресія показує свою силу. Включаючи конфундуючі змінні (ковариати), ви ізолюєте справжній ефект лікування від фонових шумів.
Додамо передекспериментальну тривалість сесії як ковариату — фактично запитуючи: «З урахуванням базових моделей поведінки користувачів, наскільки банер справді змінив їх поведінку?»
Результати змінюються кардинально. R-квадрат зростає до 0,86, тобто тепер модель пояснює 86% варіації. А коефіцієнт лікування знижується до 0,47.
Яке число правильніше — 0,56 чи 0,47? Коли ми моделюємо істинну ситуацію з відомим підвищенням у 0,5 хвилин, 0,47 явно ближче до реальності. Модель з ковариатами — переможець.
Чому це важливо для ваших рішень
Покращення моделі — вона показує, чи справді ваш експеримент захоплює реальні драйвери поведінки користувачів
Автоматичне коригування упередженості — зменшує ризик ухвалення рішень на основі завищених або занижених ефектів
Збільшення впевненості — ви більше не вразливі до прихованих конфаундерів, що спотворюють результати
Поза T-тестом і лінійною регресією
Цей принцип поширюється й на інші статистичні тести — хі-квадрат у R, тест Вельча, та інші спеціалізовані підходи. Кожен з них можна переформулювати через регресію з відповідними налаштуваннями моделі.
Висновок: наступного разу, коли ви захочете довіряти одному статистичному тесту, запитайте себе, чи не приховують змінні, що впливають, вашу картину. Лінійна регресія з ретельно відібраними ковариатами перетворює A/B-тестування із простого проходження/непроходження у тонке причинне дослідження.
Ваші метрики скажуть вам спасибі.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Поза простими метриками: чому ваш A/B тест потребує більше, ніж просто результати T-тесту
Коли ви проводите A/B-тести, більшість команд зупиняються на поверхневому питанні: «Чи змінився показник?» Але що, якщо ми скажемо вам, що існує більш розумний спосіб отримати глибші інсайти з ваших експериментальних даних? Давайте розглянемо, чому лінійна регресія заслуговує на місце у вашому аналітичному арсеналі, навіть коли T-тест здається достатнім.
Класичний підхід: T-тест на даних сесій
Уявімо, що платформа електронної комерції запускає оновлений банер і хоче виміряти його вплив на тривалість користувацької сесії. Прямий шлях? Провести T-тест.
Обчислення дають нам ефект лікування у 0,56 хвилин — тобто користувачі проводять у сесіях приблизно на 33 секунди довше. Це підвищення розраховується як проста різниця між середніми контрольної та експериментальної груп. Чисто, легко пояснити, роботу зроблено, так?
Не зовсім.
Альтернатива лінійної регресії: той самий результат, інша глибина
Тепер розглянемо той самий експеримент через призму лінійної регресії. Ми встановлюємо статус лікування (банер показано: так/ні) як нашу незалежну змінну, а тривалість сесії — як залежну.
Ось де стає цікаво: коефіцієнт регресії для лікування становить 0,56 — ідентичний результату T-тесту.
Це не випадковість. Обидва методи тестують одну й ту саму нульову гіпотезу. Коли ви виконуєте T-тест, ви питаєте: «Чи є значуща різниця у середніх?» Лінійна регресія запитує: «Чи пояснює змінна лікування варіацію у тривалості сесії?» З однією бінарною змінною лікування ці питання зводяться до однієї й тієї ж математичної задачі.
Але погляньте на значення R-квадрат: всього 0,008. Модель майже нічого не пояснює щодо причин варіації тривалості сесії. Це обмеження вказує на критичну недосконалість нашого аналізу.
Прихована проблема: вибіркова упередженість у вашому експерименті
Ось неприємна правда: випадкове призначення у A/B-тестах не усуває вибіркову упередженість — воно лише її зменшує.
Вибіркова упередженість виникає, коли систематичні відмінності між вашими контрольними та експериментальними групами існують поза самим лікуванням. Наприклад:
У таких випадках ваші 0,56-хвилинні підвищення може бути завищеним або заниженим через ці конфаундери. Ви вимірюєте змішаний ефект: справжній вплив лікування плюс вибіркова упередженість.
Вирішення: додайте контекст за допомогою ковариатів
Саме тут лінійна регресія показує свою силу. Включаючи конфундуючі змінні (ковариати), ви ізолюєте справжній ефект лікування від фонових шумів.
Додамо передекспериментальну тривалість сесії як ковариату — фактично запитуючи: «З урахуванням базових моделей поведінки користувачів, наскільки банер справді змінив їх поведінку?»
Результати змінюються кардинально. R-квадрат зростає до 0,86, тобто тепер модель пояснює 86% варіації. А коефіцієнт лікування знижується до 0,47.
Яке число правильніше — 0,56 чи 0,47? Коли ми моделюємо істинну ситуацію з відомим підвищенням у 0,5 хвилин, 0,47 явно ближче до реальності. Модель з ковариатами — переможець.
Чому це важливо для ваших рішень
Поза T-тестом і лінійною регресією
Цей принцип поширюється й на інші статистичні тести — хі-квадрат у R, тест Вельча, та інші спеціалізовані підходи. Кожен з них можна переформулювати через регресію з відповідними налаштуваннями моделі.
Висновок: наступного разу, коли ви захочете довіряти одному статистичному тесту, запитайте себе, чи не приховують змінні, що впливають, вашу картину. Лінійна регресія з ретельно відібраними ковариатами перетворює A/B-тестування із простого проходження/непроходження у тонке причинне дослідження.
Ваші метрики скажуть вам спасибі.