Таблица 9. Различные типы «растяжек»
Что берется под контроль
Описание и примеры
Поведение
Вокруг изолированного ИИ разместить датчики для обнаружения попыток вырваться на свободу. Например, они могут фиксировать попытки установить радиосвязь или найти доступ к внешним вычислительным ресурсам, которых «по условиям содержания» у ИИ быть не должно. Кроме того, можно установить сетевой порт-«приманку» — мнимое соединение с интернетом, попытка воспользоваться которым вызывает отключение системы
Когнитивные способности
Через короткие промежутки времени можно проводить автоматическое тестирование когнитивных способностей системы, чтобы держать под контролем уровень навыков ИИ в различных областях. Если скорость их развития окажется неожиданно высокой или ИИ достигнет уровня компетентности, который окажется в непосредственной близости к опасной зоне, его можно замедлить или приостановить, чтобы программисты могли более внимательно следить за дальнейшим прогрессом.
Следует установить надзор за внутренними процессами ИИ, чтобы отследить вовремя действия, вызывающие подозрение. Например, если у системы вдруг меняется собственное представление о своих конечных целях, сразу следует ее автоматическое отключение и программисты приступают к изучению ситуации. Кроме того, необходимо следить за такими подозрительными проявлениями, как использование ИИ ресурсов и алгоритмических методов
Семантическая информация
Более масштабной и многообещающей задачей является постоянный контроль над смысловой и неструктурированной информацией: убеждениями, планами, промежуточными целями и мотивами — с целью удостовериться, что все это по-прежнему соответствует ожиданиям программистов. Раннее выявление процесса рождения недобрых умыслов ИИ облегчит дальнейшее проведение уже более действенных видов контроля над этими семантическим данными. Речь идет о сканировании мыслительных процессов ИИ для обнаружения рождения обмана — того самого уязвимого момента, когда у недружественного ИИ впервые возникает желание скрыть свои истинные намерения21.
Системе контроля над семантической информацией предписано фиксировать все вышеописанные интенции ИИ, чтобы они были прозрачны для программистов или устройств автоматической регистрации. Правда, для некоторых типов архитектуры ИИ осуществление такого контроля может быть невозможно. (Например, непрозрачными являются некоторые нейронные сети, поскольку информация в них представляется целостно и такими способами, которые не всегда соответствуют человеческим понятиям.) По этой причине лучше избегать использовать такие архитектуры
Следует подчеркнуть, что значимость «растяжек» определяется не только механизмом их действия, но и тем, как окружающие реагируют на сигналы аппаратуры и факты регистрации нарушений — в этом случае поведение людей играет критически важную роль. Руководители проекта и разработчики, жаждущие добиться успеха, чаще всего просто включают систему снова или проводят чисто формальную модификацию программного кода, причем иногда делают что-то такое, чтобы в следующий раз «растяжка» промолчала. Конечно, при таком отношении вряд ли удастся обеспечить безопасность даже при условии безотказной работы самих «растяжек».
Методы выбора мотивации
Методы выбора мотивации призваны формировать мотивы поведения сверхразума, чтобы не допустить нежелательных результатов. С их помощью — за счет конструирования системы мотивации агента и его конечных целей — можно создать сверхразум, который не захочет использовать свое решающее стратегическое преимущество против человека. Сверхразумный агент всегда стремится добиться своих конечных целей, и если он выбирает путь ненанесения вреда (имеется в виду и «локальный вред», и «глобальный ущерб»), то, скорее всего, не станет его причинять.
Методы выбора мотивации включают: метод точной спецификации — однозначная формулировка цели и системы правил, которым нужно следовать; метод косвенной нормативности — процедура настройки программы ИИ, чтобы он мог самостоятельно определять приемлемую систему ценностей в соответствии с некоторыми подразумеваемыми условиями, то есть сформулированными неявным, или косвенным, образом; метод приручения — такая компоновка программы, которая приведет ИИ к выбору умеренных, не слишком претенциозных конечных целей; метод приумножения — выбор агента, уже обладающего подходящими мотивами, с тем чтобы расширить его когнитивные способности до уровня сверхразумных, причем с обязательным контролем над его мотивационной системой, которая не должна претерпеть никаких изменений в процессе совершенствования. Последний метод представляет собой вариант, альтернативный первым трем, в которых система мотивации ИИ формируется с чистого листа. Рассмотрим последовательно все методы выбора мотивации.
Метод точной спецификации
Точная спецификация — наиболее прямолинейное решение проблемы контроля; сам подход опирается, с одной стороны, на систему четко прописанных правил; с другой — на принцип консеквенциализма[21]. Метод точной спецификации предполагает попытку дать однозначное определение системе ценностей и системе правил, благодаря которым даже свободный в своих действиях сверхразумный агент поступал бы в интересах принципала и без риска для остальных людей. Однако этот метод может столкнуться с непреодолимыми препятствиями, связанными, во-первых, с проблемой формулировки обоих понятий («правило» и «ценность»), которыми должен руководствоваться ИИ, во-вторых, с проблемой представления этих двух понятий («правило» и «ценность») для записи задания в виде машиночитаемых кодов.
Проблемы метода точной спецификации с точки зрения системы прописанных правил лучше всего проиллюстрировать такой классической концепцией, как «Три закона робототехники». Обязательные правила поведения для роботов были окончательно сформулированы писателем-фантастом Айзеком Азимовым в рассказе, опубликованном в 1942 году22.
Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинен вред.
Робот должен повиноваться всем приказам, которые дает человек, кроме тех случаев, когда эти приказы противоречат первому закону;
Робот должен заботиться о своей безопасности в той мере, в которой это не противоречит первому и второму законам.
К стыду нашего вида, эти правила оставались неизменными более полувека, несмотря на очевиднейшие пробелы, которые, кстати, видел и сам Азимов, на что указывают многие его произведения (наверное, писатель специально изложил законы в таком расплывчатом виде, оставив для себя и своих героев шанс каждый раз трактовать их несколько иначе, а заодно и нарушать разными занимательными способами — довольно плодотворная почва для дальнейшего развития художественной темы)23.
Бертран Рассел, много лет трудившийся над основами математики[22], как-то заметил: «…Степень нечеткости не осознается вплоть до попытки нечто прояснить, а все точное столь далеко от всего того, о чем мы обычно мыслим, что нельзя и на мгновение предположить, что же мы на самом деле имеем в виду, когда выражаем наши мысли»[23]24. Трудно найти лучшего комментария к проблемам, относящимся к методу точной спецификации. Возьмем, например, возможное объяснение первого закона Азимова. Значит ли он, что робот должен минимизировать вероятность нанесения вреда любому человеку? В этом случае остальные законы становятся ненужными, поскольку у ИИ всегда есть возможность совершить некоторое действие, которое будет иметь хотя бы микроскопическую вероятность причинить вред кому-то из людей. Как роботу сопоставить высокий риск причинения вреда нескольким людям и небольшой риск причинения вреда множеству людей? Другой мучительный вопрос: как нам определить само понятие «вред»? На каких весах взвесить разницу между вредом, причиненным физической болью, вредом, нанесенным нашему вкусу архитектурным уродом, и вредом, приносимым социальной несправедливостью? Будет ли нанесен вред садисту, которому не дадут мучить его жертву? А как мы определим понятие «человек»? Почему не принимаются во внимание остальные обладающие разными добродетелями существа, скажем, животные, наделенные чувствами, и системы машинного интеллекта? Чем больше думаешь над этим, тем больше вопросов возникает.