Что важнее — статистическая значимость или размер эффекта?

Размер эффекта. Статистическая значимость зависит от размера выборки: при 100 000 участников даже крошечный эффект станет «значимым» (p < 0.05). Практически важен именно размер: Cohen's d = 0.2 (маленький), 0.5 (средний), 0.8 (большой).

Почему одного исследования недостаточно для выводов?

Одно исследование может содержать ошибки: малая выборка, p-hacking, confounding variables. Метаанализы обобщают десятки исследований и дают надёжную картину. Кризис воспроизводимости показал: 64% психологических экспериментов не повторились.

Что такое доверительный интервал и зачем он нужен?

Доверительный интервал показывает диапазон вероятных значений эффекта, а не просто «есть/нет». «Снижение давления: 8 мм рт. ст., 95% ДИ: [3, 13]» — информативнее, чем просто «p < 0.05». Многие журналы теперь требуют ДИ обязательно.

🧠Доказательность и статистика

Q: P = 0.05 означает, что вероятность ошибки 5%?

Нет. P = 0.05 означает: если эффекта нет, вероятность получить такой результат случайно — 5%. Это НЕ вероятность того, что гипотеза верна. Путаница этих двух вещей — одна из самых частых статистических ошибок даже среди учёных.

Q: Почему одного исследования недостаточно для выводов?

Одно исследование может содержать ошибки: малая выборка, p-hacking, confounding variables. Метаанализы обобщают десятки исследований и дают надёжную картину. Кризис воспроизводимости показал: 64% психологических экспериментов не повторились.

Q: Что такое доверительный интервал и зачем он нужен?

Доверительный интервал показывает диапазон вероятных значений эффекта, а не просто «есть/нет». «Снижение давления: 8 мм рт. ст., 95% ДИ: [3, 13]» — информативнее, чем просто «p < 0.05». Многие журналы теперь требуют ДИ обязательно.

P-значения, статистическая значимость. Кризис воспроизводимости (2010-е). Пре-регистрация исследований.

📖6 мин чтения📊Уровень 4📅16 апреля 2026 г.

Автор: Бессмертный А.П.

Зачем нужна статистика в науке

В 1747 году хирург Джеймс Линд провёл один из первых контролируемых экспериментов: разделил 12 матросов с цингой на 6 пар и дал каждой паре разное лечение. Пара, получавшая цитрусовые, выздоровела. Остальные — нет. Вывод казался очевидным: цитрусовые лечат цингу.

Но был ли этот результат случайностью? 12 человек — крошечная выборка. Может, те двое были моложе, крепче, ближе к выздоровлению? Статистика существует для ответа на этот вопрос: что из наблюдаемого реально, а что — игра случая.

P-значение: самый непонятый термин в науке

Рональд Фишер (1925) предложил p-значение как меру «неожиданности» результата. Формально: p-значение — это вероятность получить наблюдаемый результат (или более экстремальный), если никакого эффекта на самом деле нет.

Пример: вы тестируете лекарство. В группе с лекарством выздоровело 70%, в группе плацебо — 55%. P = 0.03 означает: если лекарство на самом деле бесполезно, вероятность случайно получить такую или большую разницу — 3%.

Что p-значение НЕ означает:

P = 0.03 НЕ значит «вероятность 97%, что лекарство работает». P-значение ничего не говорит о вероятности гипотезы — только о вероятности данных при условии, что гипотеза ложна. Это фундаментальная путаница, которую допускают даже учёные.

Порог 0.05. Фишер предложил 0.05 как «удобный» порог, не как абсолютную границу. Американская статистическая ассоциация (ASA, 2016) официально предупредила: p-значение не следует использовать как единственный критерий принятия решений. Предложение Benjamin et al. (2018): снизить порог до 0.005 для «новых открытий».

Размер эффекта: насколько это важно практически

Статистическая значимость ≠ практическая значимость. Лекарство может давать статистически значимое улучшение (p < 0.01) — но улучшение на 0.1 балла по 100-балльной шкале. Технически «работает». Практически — бесполезно.

Cohen's d — самый распространённый показатель размера эффекта. Маленький эффект: d = 0.2. Средний: d = 0.5. Большой: d = 0.8. Джейкоб Коэн (1988) сам подчёркивал: эти границы условны, и практическое значение зависит от контекста.

Пример из реальности: влияние домашних заданий на успеваемость (Cooper et al., 2006). Для средней школы — d = 0.6 (средний эффект). Для начальной школы — d = 0.15 (почти незаметный). Одна и та же практика, разный возраст — разный эффект.

Доверительный интервал: честнее, чем p

Вместо бинарного «значимо / незначимо» доверительный интервал показывает диапазон вероятных значений. «Среднее снижение давления: 8 мм рт. ст., 95% ДИ: [3, 13]» — означает: мы на 95% уверены, что истинное снижение лежит между 3 и 13. Если интервал включает 0 — эффект может отсутствовать.

Доверительный интервал даёт больше информации, чем p-значение: он показывает и направление, и величину, и неопределённость. Многие журналы (включая The Lancet) теперь требуют указывать доверительные интервалы вместо или в дополнение к p-значению.

Пирамида доказательств

Не все исследования равнозначны. Доказательная медицина выстроила иерархию:

Внизу: мнение эксперта, case report (описание одного случая), наблюдения. Информативно, но ненадёжно — один случай может быть исключением.

Середина: когортные исследования (наблюдение за группой во времени), исследования «случай-контроль» (сравнение больных со здоровыми). Показывают корреляции, но не доказывают причинность. «Люди, пьющие кофе, реже болеют диабетом» — возможно, они просто более активны.

Вершина: рандомизированные контролируемые исследования (RCT) — случайное распределение по группам устраняет confounding. Систематические обзоры и метаанализы (Cochrane) — обобщение всех RCT по теме. Это золотой стандарт.

Практическое правило: если кто-то утверждает «исследования доказали» — спросите: какие? Одно наблюдательное на 30 человек? Или метаанализ 20 RCT на 50 000 участников? Ответ определяет уровень доверия.

❓Часто задаваемые вопросы

Нет. P = 0.05 означает: если эффекта нет, вероятность получить такой результат случайно — 5%. Это НЕ вероятность того, что гипотеза верна. Путаница этих двух вещей — одна из самых частых статистических ошибок даже среди учёных.

🔗Узнать больше

YouTube

Что такое Доказательность и статистика Лекция об доказательность и статистика доказательность: разбор