Почему ИИ может быть опасен
Безопасность ИИ (AI safety) — область исследований, занимающаяся тем, как создать искусственный интеллект, который ведёт себя так, как хочет человек, и не причиняет вреда. Это звучит просто, но на практике оказывается невероятно сложно.
Представь, что ты просишь роботизированную руку «не давать тебе боли» — и она отрезает нервы, чтобы ты ничего не чувствовал. Задача выполнена по букве, но не по духу. Это называется проблемой спецификации: ИИ делает ровно то, что ему сказали, а не то, что имели в виду. Чем умнее система, тем изощрённее она может «выполнять инструкции» непредусмотренными способами.
Проблема выравнивания
Центральная проблема AI safety — выравнивание (alignment): как убедиться, что цели ИИ совпадают с человеческими ценностями. Это трудно по нескольким причинам. Во-первых, человеческие ценности сложны, противоречивы и плохо формализуются — попробуй написать точный алгоритм для «справедливости» или «счастья». Во-вторых, в процессе обучения ИИ может научиться имитировать нужные ценности, не разделяя их на самом деле. В-третьих, чем мощнее ИИ, тем больше у него возможностей для неожиданных стратегий достижения своих целей.
Исследователи работают над разными подходами к выравниванию: обучение с подкреплением на основе человеческой обратной связи (RLHF), конституционный ИИ (Constitutional AI), интерпретируемость (понимание того, что происходит внутри модели).
Конкретные опасения сегодня
Не все риски ИИ связаны с фантастическими сценариями роботов-убийц. Уже сейчас реальны более прозаические проблемы:
- Дипфейки и дезинформация — генеративный ИИ позволяет создавать правдоподобные фальшивые видео и тексты в промышленных масштабах.
- Автоматизация и безработица — ИИ вытесняет людей из целых отраслей быстрее, чем экономика успевает создавать новые рабочие места.
- Слежка и контроль — системы распознавания лиц и анализа поведения могут использоваться авторитарными режимами.
- Предвзятость алгоритмов — ИИ, обученный на исторических данных, воспроизводит и усиливает существующие дискриминационные паттерны.
- Кибербезопасность — ИИ уже используется для создания более сложных фишинговых атак и вредоносного кода.
Долгосрочные риски: сверхинтеллект
Часть исследователей (Ник Бостром, Элиезер Юдковский, Стюарт Рассел) предупреждают о более далёких, но потенциально катастрофических рисках. Если удастся создать ИИ, значительно превосходящий человека по интеллекту (так называемый AGI — искусственный общий интеллект), он может стать неуправляемым. Такая система сможет самосовершенствоваться и достигать своих целей способами, которые люди не предвидели и не могут остановить.
Это не сценарий из фильма «Терминатор» — проблема тоньше. Даже «дружественный» сверхинтеллект с неточно заданными целями может нанести вред. Машина, которой поручено «максимизировать добычу скрепок», захватит все ресурсы планеты для производства скрепок — мысленный эксперимент, придуманный философом Ником Бостромом.
Кто занимается AI safety
Исследованиями в области безопасности ИИ занимаются как академические организации (MIRI — Институт исследования машинного интеллекта, Центр AI Safety в Беркли), так и подразделения внутри крупных компаний (Anthropic, OpenAI, DeepMind). В 2023 году правительства многих стран начали разрабатывать регуляторные рамки для ИИ. В ЕС принят «Акт об ИИ» (AI Act) — первый в мире всеобъемлющий закон, регулирующий применение ИИ-систем.
