🧠Доказательность и статистика

P-значения, статистическая значимость. Кризис воспроизводимости (2010-е). Пре-регистрация исследований.

📖6 мин чтения📊Уровень 4📅19 февраля 2026 г.

🗺️ Mind Map

Загрузка карты...

Зачем нужна статистика в науке

В 1747 году хирург Джеймс Линд провёл один из первых контролируемых экспериментов: разделил 12 матросов с цингой на 6 пар и дал каждой паре разное лечение. Пара, получавшая цитрусовые, выздоровела. Остальные — нет. Вывод казался очевидным: цитрусовые лечат цингу.

Но был ли этот результат случайностью? 12 человек — крошечная выборка. Может, те двое были моложе, крепче, ближе к выздоровлению? Статистика существует для ответа на этот вопрос: что из наблюдаемого реально, а что — игра случая.

P-значение: самый непонятый термин в науке

Рональд Фишер (1925) предложил p-значение как меру «неожиданности» результата. Формально: p-значение — это вероятность получить наблюдаемый результат (или более экстремальный), если никакого эффекта на самом деле нет.

Пример: вы тестируете лекарство. В группе с лекарством выздоровело 70%, в группе плацебо — 55%. P = 0.03 означает: если лекарство на самом деле бесполезно, вероятность случайно получить такую или большую разницу — 3%.

Что p-значение НЕ означает:

P = 0.03 НЕ значит «вероятность 97%, что лекарство работает». P-значение ничего не говорит о вероятности гипотезы — только о вероятности данных при условии, что гипотеза ложна. Это фундаментальная путаница, которую допускают даже учёные.

Порог 0.05. Фишер предложил 0.05 как «удобный» порог, не как абсолютную границу. Американская статистическая ассоциация (ASA, 2016) официально предупредила: p-значение не следует использовать как единственный критерий принятия решений. Предложение Benjamin et al. (2018): снизить порог до 0.005 для «новых открытий».

Размер эффекта: насколько это важно практически

Статистическая значимость ≠ практическая значимость. Лекарство может давать статистически значимое улучшение (p < 0.01) — но улучшение на 0.1 балла по 100-балльной шкале. Технически «работает». Практически — бесполезно.

Cohen's d — самый распространённый показатель размера эффекта. Маленький эффект: d = 0.2. Средний: d = 0.5. Большой: d = 0.8. Джейкоб Коэн (1988) сам подчёркивал: эти границы условны, и практическое значение зависит от контекста.

Пример из реальности: влияние домашних заданий на успеваемость (Cooper et al., 2006). Для средней школы — d = 0.6 (средний эффект). Для начальной школы — d = 0.15 (почти незаметный). Одна и та же практика, разный возраст — разный эффект.

Доверительный интервал: честнее, чем p

Вместо бинарного «значимо / незначимо» доверительный интервал показывает диапазон вероятных значений. «Среднее снижение давления: 8 мм рт. ст., 95% ДИ: [3, 13]» — означает: мы на 95% уверены, что истинное снижение лежит между 3 и 13. Если интервал включает 0 — эффект может отсутствовать.

Доверительный интервал даёт больше информации, чем p-значение: он показывает и направление, и величину, и неопределённость. Многие журналы (включая The Lancet) теперь требуют указывать доверительные интервалы вместо или в дополнение к p-значению.

Пирамида доказательств

Не все исследования равнозначны. Доказательная медицина выстроила иерархию:

Внизу: мнение эксперта, case report (описание одного случая), наблюдения. Информативно, но ненадёжно — один случай может быть исключением.

Середина: когортные исследования (наблюдение за группой во времени), исследования «случай-контроль» (сравнение больных со здоровыми). Показывают корреляции, но не доказывают причинность. «Люди, пьющие кофе, реже болеют диабетом» — возможно, они просто более активны.

Вершина: рандомизированные контролируемые исследования (RCT) — случайное распределение по группам устраняет confounding. Систематические обзоры и метаанализы (Cochrane) — обобщение всех RCT по теме. Это золотой стандарт.

Практическое правило: если кто-то утверждает «исследования доказали» — спросите: какие? Одно наблюдательное на 30 человек? Или метаанализ 20 RCT на 50 000 участников? Ответ определяет уровень доверия.

Часто задаваемые вопросы

Нет. P = 0.05 означает: если эффекта нет, вероятность получить такой результат случайно — 5%. Это НЕ вероятность того, что гипотеза верна. Путаница этих двух вещей — одна из самых частых статистических ошибок даже среди учёных.