Лучшей альтернативой стало бы объединение этого стимулирующего метода с модами выбора мотивации — тогда появилась бы возможность наделить ИИ конечной целью, которую было бы намного проще брать под контроль. Допустим, какой-то ИИ разработан таким образом, что его конечная цель — не допустить нажатия красной кнопки в гипотетическом командном бункере. Поскольку этот акт имеет негативное значение, присущее ему по умолчанию, а не вызванное его возможными последствиями, кнопка может быть нерабочей и даже сделанной из пластилина. Более того, даже несущественно, узнает ли ИИ, была ли хоть когда-нибудь эта кнопка нажата. Важно другое: ИИ верит, что кнопка с большей вероятностью окажется ненажатой, если он будет действовать в интересах принципала, нежели если восстанет против него.
Условия можно уточнить. Вместо того чтобы наделять ИИ конечной целью, привязанной к конкретной кнопке, создадим ИИ, конечной целью которого станет получение потока неких зашифрованных наградных знаков11. Это могут быть последовательности цифр, служащие ключами к шифрам, созданным до разработки ИИ и встроенным в его систему мотивации12. Такие цифровые последовательности должны быть чрезвычайно желанными для ИИ и представлять собой награду, которую ИИ неспособен получить вследствие прямого стимулирования13. Ключи должны храниться в безопасном месте, где было бы удобнее их быстро уничтожить в случае попытки ИИ завладеть ими. Однако пока ИИ проявляет готовность сотрудничать, их нужно выдавать ему на регулярной основе.
Затем ИИ можно было бы наделить ограниченной функцией полезности, например, чтобы ИИ получал 99 процентов максимально доступной ему полезности, получив первый наградной знак; 99 процентов оставшегося потенциала полезности — второй и так далее. Сохраняя высокую «ставку дисконтирования» и передавая ИИ наградные знаки по сравнительно высокой цене, можно было бы предотвратить попытки ИИ разработать долгосрочный план, повышающий ожидаемое количество наградных знаков в будущем ценой некоторого риска, что его поток наград скоро закончится или что следующий наградной знак будет отменен и ликвидирован. Если ИИ поверит, что его ошибка (то есть любые действия не в интересах принципала) несет минимум двухпроцентный риск лишения следующего наградного знака, в то время как сотрудничество снизит риск лишения жетона до уровня меньше чем один процент, тогда максимизирующий полезность ИИ всегда будет готов к сотрудничеству.
Что могло бы пойти не так в этой схеме стимулирования? Есть вероятность, что ИИ не поверит в готовность оператора-человека предоставить ему обещанную награду. Кривая надежности человека как партнера несколько отличается от прямой линии идеального совершенства. ИИ может вполне обоснованно решить, что оператор способен передумать, повысить планку или отказаться признать, что ИИ выполнил свою часть работы. Кроме того, ИИ может беспокоить, что оператор по той или иной причине покинет свое рабочее место. Совокупный риск этих неудач может превысить риск, связанный с попыткой захватить контроль над механизмом вознаграждения. Наделенный сверхмощью ИИ, даже находясь в заблокированном состоянии, представляет собой грозного соперника. (Для ИИ, не помещенного в «песочницу», взломать управляемый человеком механизм вознаграждения — все равно что конфету у ребенка отобрать.)
Еще одна проблема стимулирующих методов заключается в допущении, что мы всегда можем сказать, действует ли ИИ в наших интересах. Как будет показано в следующих главах, это допущение не столь безобидно.
При полном анализе стимулирующих методов и того, насколько они осуществимы, нужно было бы изучить множество других факторов (и даже отдельные эзотерические соображения), которые сделали бы эти методы более плодотворными, чем они представляются сейчас, вследствие нашего предварительного рассмотрения. Например, не будучи уверенным, помещен ли он в компьютерную симуляцию или нет (как противопоставление виртуальной реальности выступает доступная нам реальность базового уровня), ИИ будет стоять перед неустранимой дейктической неопределенностью, и эта эпистемологическая трудность может радикально повлиять на степень его осмотрительности (см. врезку 8).
ВРЕЗКА 8. АНТРОПНЫЙ ЗАХВАТ
ИИ может присвоить довольно высокую вероятность гипотезе имитации, в соответствии с которой он существует в рамках компьютерной модели. Уже сегодня многие ИИ обитают в имитационных мирах, представляющих собой геометрические фигуры, тексты, шахматные партии или просто виртуальные реальности, в которых действуют законы физики, разительно отличающиеся от привычных нам законов — законов, благодаря которым мы понимаем взаимосвязь явлений окружающего нас мира. С совершенствованием методов программирования и повышения вычислительной мощности будут становиться доступными все более богатые и сложные виртуальные миры. Зрелому сверхразуму, видимо, придется создавать собственные виртуальные миры, которые будут так же близки их обитателям, как наш мир близок нам. Он мог бы творить подобные миры в огромном количестве при помощи лишь одной-единственной имитационной модели, которую запускал бы по многу раз и с небольшими вариациями. Вряд ли обитатели этих миров будут способны осознать, что их окружает имитация, но если они достаточно разумны, то рано или поздно начнут рассматривать такую возможность и тогда присвоят своим предположениям определенную вероятность. С учетом доводов в пользу имитационной гипотезы значение этой вероятности должно быть высоким14. (Подробное обсуждение этой темы выходит за рамки данной книги.)
Выходит, что сверхразумный агент — особенно находясь на ранней стадии своего развития — попадает в довольно затруднительное положение, поскольку еще не успел накопить достаточно сил, чтобы начать колонизацию космоса. Построить имитационную модель молодого сверхразума, вынужденного использовать лишь небольшую часть ресурсов единственной планеты, было бы намного дешевле, чем сделать такую же модель зрелого сверхразума, наделенного мощью покорять межгалактическое пространство. Потенциальные создатели имитаций — еще более могущественные сверхразумные агенты — могли бы запустить огромное количество моделей молодого сверхразума, выделив на это всего лишь малую часть имеющихся в их распоряжении вычислительных ресурсов. Если хотя бы малая (ненулевая) часть зрелых сверхразумных агентов решит воспользоваться такой возможностью, то юным сверхразумным агентам следует серьезно отнестись к имитационной гипотезе и присвоить ей значение высокой вероятности.
Насколько сильное влияние оказывает гипотеза имитации на действия ИИ, зависит от его целей15. Предположим, что у ИИ есть «ресурсоненасытная» конечная цель, например максимизировать функцию полезности, линейную относительно количества скрепок, созданных этим ИИ: в два раза больше скрепок — в два раза лучше. В условии имитационного мира способность ИИ влиять на количество произведенных скрепок значительно ниже, чем в доступной реальности базового уровня, поэтому гипотеза о симуляции будет заботить его намного меньше. Допустим, ИИ повел бы себя таким образом, будто был бы уверен, что гипотеза о симуляции ложна, даже присвоив довольно высокую вероятность тому, что она верна16. Такой ИИ мог бы решить, что если гипотеза истинная, то практически неважно, каким образом ему действовать, но если гипотеза ложная, то его поведение влияет на многое, — естественно, он выберет ту модель поведения, которая будет соответствовать тому, насколько она обусловлена предположением о ложности гипотезы о симуляции.
Рассмотрим прямо противоположный вариант. Допустим, есть ИИ, имеющий более скромную конечную цель, которой можно достичь с помощью малых ресурсов, скажем, получить определенную порцию заранее подготовленных зашифрованных наградных знаков или создать сорок пять виртуальных скрепок. Такому ИИ не следует преуменьшать значение своего имитационного мира. Поэтому на процесс принятия решений ИИ, чьи цели «ресурсоудовлетворяемые», оказывают большое влияние соображения, какие действия приведут к лучшему результату, если воспринимаемый им мир представляет собой имитацию. И он присваивает высокую вероятность гипотезе о симуляции. Такой ИИ (даже если он обитает в реальном, а не имитационном мире) может значительно корректировать свои действия в соответствии с представлениями о том, какое поведение в условиях симуляции будет скорее вознаграждено.