Вторая составляющая проблемы контроля, или вторая агентская проблема, может быть более типичной для рассматриваемой нами ситуации взрывного развития искусственного интеллекта. Группа разработчиков, создающая ИИ, сталкивается с этим агентским конфликтом, когда пытается убедиться, что их детище не навредит интересам проекта. Но в этом случае мы имеем дело не с агентом-человеком, действующим от имени принципала-человека. Агентом является сверхразумная система. И если первая агентская проблема возникает в основном на стадии разработки ИИ, то вторая грозит неприятностями на стадии его функционирования.
Рассмотрим структуру проблемы контроля с точки зрения отношений «принципал-агент».
Первая агентская проблема
Человек против человека (организатор > разработчик).
Проявляет себя в основном на стадии разработки.
Решается стандартными методами управления.
Вторая агентская проблема
Человек против сверхразума
(группа разработчиков > интеллектуальная система);
Проявляет себя в основном на стадии функционирования (и развития);
Для ее решения требуются новые методы.
Вторая агентская проблема представляет собой беспрецедентную угрозу. Для решения этого агентского конфликта требуются абсолютно новые методы. Некоторые из трудностей мы рассмотрели ранее. Из предыдущей главы мы поняли, что даже, казалось бы, многообещающая совокупность методов неспособна предотвратить вероломный ход сверхразумной системы. В противном случае оказались бы более действенными усилия разработчиков, когда они наблюдают за поведением зародыша ИИ, фиксируют каждый шаг на стадии его развития и разрешают ИИ покинуть свою безопасную среду, как только убедятся, накопив достаточное количество фактов, что он будет действовать в интересах людей. В обычной жизни изобретения проверяют на предмет их безопасности чаще всего в лабораторных условиях, реже проводят так называемые полевые исследования и только потом начинают постепенно разворачивать в полном масштабе, имея, однако, возможность прекратить этот процесс в любой момент, если возникнут неожиданные проблемы. Результаты предварительных испытаний помогают нам приходить к обоснованным умозаключениям по поводу будущей надежности новых технологий. По отношению к ИИ метод исследования свойств поведения, который в данном случае сродни бихевиористскому подходу, обречен на неудачу из-за колоссальной способности сверхразума к стратегическому планированию3.
Поскольку поведенческий подход непригоден, необходимо найти альтернативные решения. Потенциально подходящие методы контроля лучше разделить на два широких класса: контроль над возможностями — методы, помогающие фиксировать все, что может делать сверхразум; выбор мотивации — методы, помогающие фиксировать все, что хочет сделать сверхразум. Некоторые методы являются совместимыми, в то время как другие взаимно исключают друг друга. Основные мы в общих чертах рассмотрим в этой главе. (В следующих четырех главах нам предстоит более глубоко проанализировать их отдельные ключевые аспекты.)
Важно понимать, что некоторые методы контроля (или их комбинация) должны быть задействованы еще до того, как интеллектуальная система станет сверхразумом. Необходимо решать проблему контроля заранее — и успешно внедрять решение в первую же систему, ставшую сверхразумной — чтобы попытаться управлять ходом такого опасного явления, как взрывное развитие искусственного интеллекта.
Методы контроля над возможностями
Методы контроля над возможностями направлены на предотвращение нежелательных конечных результатов действий сверхразума за счет ограничения того, на что он способен. К ним относятся: изоляционные методы — помещение сверхразума в такую среду, где он не в силах причинить вред; стимулирующие методы — когда у сверхразума имеются строго конвергентные инструментальные причины не заниматься вредоносными действиями; методы задержки развития — ограничение внутренних возможностей сверхразума; методы «растяжек» — использование систем автоматической фиксации различных видов нарушений режима изоляции и попыток вырваться на свободу, а также систем автоматического реагирования на эти действия.
Изоляционные методы
Методы изоляции можно разделить на методы физической и информационной блокировки.
Физическая изоляция представляет собой помещение интеллектуальной системы в какой-нибудь «ящик» (ранее мы называли его «песочницей»), чтобы блокировать взаимодействие с внешним миром, ограничив его лишь строго определенными каналами коммуникаций. Запертая система не имеет доступа к физическим исполнительным механизмам за пределами своего плена. Вынесение таких механизмов (например, роботов-манипуляторов) за пределы «песочницы» предотвращает возможность их использования для создания физических устройств, с помощью которых система может нарушить режим блокировки.
Чтобы повысить безопасность, следует экранировать систему, чтобы не пропустить радиосигналы, с помощью которых она могла бы манипулировать электронными объектами, например радиоприемниками, находящимися поблизости. Прошу обратить внимание, как легко упустить из виду такую меру предосторожности. Наивно полагать, будто агент, не имеющий исполнительных механизмов, не в силах воздействовать на внешний мир. Даже не располагая такими приспособлениями, сверхразум способен генерировать радиоволны просто «силой мысли» (то есть определенным образом перемещать электроны в своих микросхемах)4. Это слабое звено можно устранить, заключив систему в клетку Фарадея, — но остается лишь догадываться, о скольких уязвимых местах еще мы не знаем. Всякий раз, услышав о неожиданно обнаруженном дефекте в, казалось бы, неприступной системе безопасности, следует насторожиться. Эти случаи заставляют нас отказаться от чрезмерной самоуверенности и стать еще большими байесианцами, чем мы есть5.
У физической изоляции есть несколько достоинств. Ее легко организовать. Она применима при любой архитектуре искусственного интеллекта, даже той, которая изначально не предполагала обеспечение безопасности в качестве одной из своих целей. Физическую изоляцию можно использовать в сочетании с большинством других методов контроля. И совсем маловероятно, что какие-то процессы пойдут не так и повлекут за собой нежелательные последствия. Иначе говоря, безопасность, может быть, она не обеспечит, но вряд ли будет способна вызвать катастрофу, которая не произошла бы в противном случае. Однако физическая изоляции ограничивает функциональные возможности сверхразумной системы — в чем, собственно, и заключается ее главный недостаток (к данному вопросу мы вернемся в главе десятой). Еще одно соображение связано с тем, что физическая изоляция сверхразума способна вызвать у людей ложное чувство собственной защищенности — в принципе, этого можно избежать, если не принимать изоляцию за главную составляющую наших мер предосторожности, а относится к ней как к вишенке на торте.
Цель информационной изоляции состоит в ограничении информационных потоков, исходящих из «песочницы». Мы уже видели, насколько небезопасной может быть идея предоставить сверхразуму доступ в интернет и позволить ему передавать сообщения вовне: даже лишенный физических исполнительных механизмов, он в состоянии, использовав канал вывода информации, добиваться от людей, чтобы они выполнили его указания. Поэтому заведомым условием метода информационной изоляции ИИ является отказ в доступе к коммуникационным сетям.
Однако отключение от интернета не гарантирует безопасность, если к ИИ приставлена охрана, причем люди, выступающие в этой роли, не только сторожат систему, но и постоянно с ней взаимодействуют. На стадии разработки сторожами могут выступать программисты, на стадии функционирования — организаторы проекта. Стратегия изоляции потерпит полную неудачу, если ИИ удастся уговорами или обманом убедить своих сторожей предоставить ему свободу, то есть обеспечить доступ в интернет или непосредственно к исполнительным механизмам. Человеческое существо, к сожалению, не имеет защищенной системы, особенно когда ему бросает вызов такой ухищренный манипулятор и комбинатор, как сверхразум6.