Возможный скепсис в этом вопросе понятен. Известно, что несмотря на весь наш огромный опыт наблюдения за агентами-людьми, мы до сих пор не в состоянии предсказывать начало и исход революций: социальные науки могут в лучшем случае описать некоторые их статистические закономерности37. А поскольку мы не можем надежно предсказывать стабильность социальных структур, состоящих из обычных человеческих существ (о которых знаем так много), возникает соблазн заключить, что у нас нет надежды выстроить стабильные социальные структуры для когнитивно улучшенных человекоподобных агентов (о которых мы не знаем ничего), и тем более для ИИ-агентов (которые даже не похожи на агентов, о которых мы что-то знаем).

Однако все не так уж плохо. Люди и человекоподобные субъекты чрезвычайно сложны, в то время как искусственные агенты могут иметь сравнительно простую архитектуру. У искусственных агентов также может быть простая и явно задаваемая мотивация. Более того, цифровые агенты в целом (и эмуляторы и ИИ) поддаются копированию: это преимущество способно вызвать революцию в управлении, как взаимозаменямые комплектующие вызвали революцию в производстве. Эти отличия в сочетании с возможностью работать с агентами, которые вначале бессильны, и создавать институциональные­ структуры, в которых используются перечисленные выше методы контроля, могут сделать возможным получение нужного институционального результата — например, системы, в которой не будет революций, — причем с большей вероятностью, чем в случае с людьми.

Впрочем, нужно сказать, что у искусственных агентов могут отсутствовать многие свойства, знание которых позволяет нам прогнозировать поведение человекоподобных агентов. Им не нужно иметь никаких социальных эмоций, которые определяют человеческое поведение, таких как страх, гордость и угрызения совести. Им не нужны дружественные и семейные связи. Им не нужен «язык тела», который не позволяет нам, людям, скрыть свои намерения. Эти факторы могут дестабилизировать организации, состоящие из искусственных агентов. Более того, такие агенты способны совершать большие скачки в когнитивной производительности в результате внешне незначительных изменений в их алгоритмах или архитектуре. Безжалостно оптимальные искусственные агенты будут готовы пускаться в такие рискованные авантюры, результатом которых может стать сокращение размеров человечества38. А еще агенты, обладающие сверхразумом, смогут удивить нас способностью координировать свои действия, почти или совсем не связываясь друг с другом (например, посредством внутреннего моделирования гипотетической реакции партнеров на различные обстоятельства).

Эти и другие особенности повышают вероятность внезапного краха организации, состоящей из искусственных агентов, невзирая даже на, казалось бы, пуленепробиваемые методы социального контроля.

Итак, пока неясно, насколько многообещающим является метод институционального конструирования и будет ли он более эффективным в случае антропоморфных, нежели искусственных, агентов. Может показаться, что создание института с адекватной системой сдержек и противовесов повысит нашу безопасность — или по крайней мере не снизит ее, — поэтому с точки зрения снижения рисков данный метод лучше применять всегда. Но на самом деле даже это нельзя сказать с определенностью. Использование метода повышает сложность системы, создавая тем самым новые возможности для неблагоприятного развития ситуации, которые отсутствуют в случае агентов, не имеющих в качестве составляющих интеллектуальных суб­агентов. Тем не менее метод институционального конструирования заслуживает дальнейшего изучения39.

Резюме

Инжиниринг системы целей — еще не установленная дисциплина. Пока нет полной ясности в том, как загружать в компьютер человеческие ценности, даже если речь идет о машинном интеллекте человеческого уровня. Изучив множество подходов, мы обнаружили, что некоторые из них, похоже, ведут в тупик, но есть и такие, которые кажутся многообещающими и должны стать предметом дальнейшего анализа. Обобщим изученный материал в табл. 12.

Таблица 12. Обобщение методов загрузки ценностей

Представление в явной форме

Кажется многообещающим в качестве способа загрузки ценностей при использовании метода приручения. Вряд ли полезен в случае более сложных целей

Естественный отбор

Менее перспективный. Полным перебором можно обнаружить схемы, удовлетворяющие формальному критерию поиска, но не соответствующие нашим намерениям. Более того, если варианты схем оценивать путем их реализации — включая те, которые не удовлетворяют даже формальному критерию, — резко повышаются риски. В случае применения метода естественного отбора сложнее избежать преступной безнравственности, особенно если мозг агентов похож на человеческий

Обучение с подкреплением

Для решения задачи обучения с подкреплением могут использоваться различные методы, но обычно это происходит путем создания системы, которая стремится максимизировать сигнал о вознаграждении. По мере развития интеллекта таких систем у них проявляется внутренне присущая им тенденция отказа по типу самостимулирования. Методы обучения с подкреплением не кажутся перспективными

Модель ценностного приращения

Человек получает большую часть информации о своих конкретных целях благодаря обогащенному опыту. И хотя, в принципе, метод ценностного приращения может использоваться для создания агента с человеческой мотивацией, присущие людям особенности приращения целей слишком сложно воспроизводить, если начинаешь работу с зародыша ИИ. Неверная аппроксимация способна привести к тому, что ИИ будет обобщать информацию не так, как люди, вследствие чего приобретет не те конечные цели, которые предполагались. Чтобы определить с достаточной точностью, насколько трудна может оказаться работа по ценностному приращению, требуются дополнительные исследования

Строительные леса для мотивационной системы

Пока рано говорить, насколько трудно будет добиться от системы выработки внутренних представлений высокого уровня, прозрачных для людей (и при этом удержать возможности системы на безопасном уровне), чтобы при помощи таких представлений создать новую систему ценностей. Метод кажется очень перспективным. (Но поскольку в этом случае, как при любом неопробованном методе, большая часть работы по созданию системы безопасности откладывается до момента появления ИИЧУ, нельзя допустить, чтобы это стало оправданием для игнорирования проблемы контроля в течение всего времени, предшествующего этому моменту.)

Обучение ценностям

Потенциально многообещающий подход, но нужно провести дополнительные исследования, чтобы определить, насколько трудно будет формально определить ссылки на важную внешнюю информацию о человеческих ценностях (и насколько трудно при помощи такой ссылки задать критерий правильности для функции полезности). В рамках этого подхода стоят пристального изучения предложения вроде метода «Аве Мария» и конструкции Пола Кристиано

Эмуляторы и цифровые модуляции

Если машинный интеллект создан в результате полной эмуляции головного мозга, скорее всего, будет возможно корректировать его мотивацию при помощи цифрового эквивалента лекарственных препаратов или иных средств. Позволит ли это загрузить цели с достаточной точностью, чтобы обеспечить безопасность даже в случае превращения эмулятора в сверхразум, — вопрос пока открытый. (Повлиять на развитие процесса могут этические ограничения.)