Прояснить эту идею нам помогут несколько примеров. Вначале рассмотрим модель косвенной нормативности, предложенную Элиезером Юдковским, — когерентное экстраполированное волеизъявление. Затем разберем несколько вариантов и альтернатив этой модели, чтобы составить представление о диапазоне возможных решений.
Когерентное экстраполированное волеизъявление
Юдковский предложил, что зародышу ИИ следует задать в качестве конечной цели следование когерентному экстраполированному волеизъявлению (далее по тексту — КЭВ) человечества, которое он определял так:
Наше когерентное экстраполированное волеизъявление — это наше желание знать больше; думать быстрее; быть в большей степени людьми, которыми нам хотелось бы быть; стать ближе друг к другу; сделать так, чтобы наши мысли сближали нас, а не разделяли, чтобы наши желания совпадали, а не пересекались; экстраполировать так, как нам хотелось бы экстраполировать; понимать так, как нам хотелось бы понимать9.
Когда Юдковский писал это, он не ставил перед собой задачу создать инструкцию по воплощению в жизнь своего предписания, более напоминающего поэтическое воззвание. Его целью было набросать эскиз того, как могло бы быть определено КЭВ, а также пояснить, зачем нужен именно этот подход.
Многие идеи, лежащие в основе КЭВ, имеют аналоги и предшественников в философской литературе. Например, в этике существует теория идеального наблюдателя, которая исследует понятия (например, «хороший» и «плохой») с точки зрения тех суждений, которые сделал бы гипотетический идеальный наблюдатель (под таковым понимается всеведущий, логически мыслящий, беспристрастный и свободный от любой предвзятости субъект)10. Однако модель КЭВ не является (и не должна считаться) этической теорией. Никто не утверждает, что есть связь между целью и нашим когерентным экстраполированным волеизъявлением. КЭВ можно считать полезным способом аппроксимации всего, что имеет конечную цель без какой-либо связи с этикой. Будучи основным прототипом метода косвенной нормативности, КЭВ заслуживает более подробного изучения.
Некоторые комментарии
Отдельные термины из приведенной выше цитаты требуют пояснения. Желание «думать быстрее» в понимании Юдковского означает стремление быть умнее и глубже проникать в суть вещей. «Стать ближе друг к другу» — видимо, учиться, развиваться и самосовершенствоваться в тесной связи друг с другом.
Требуют своего объяснения некоторые фразы.
«…Чтобы наши мысли сближали нас, а не разделяли…»
ИИ следует работать над тем или иным свойством результата своих размышлений только в той степени, в какой это свойство может быть предсказано им с высокой долей вероятности. Если он неспособен предсказать, что «идеальные мы» желали бы это свойство, ему следует отказаться от реализации своих фантазий и воздержаться от действий. Однако, несмотря на то что многие детали наших идеализированных желаний могут быть неопределенными или непредсказуемыми, есть некие общие рамки наших предпочтений, которые ИИ способен осознать и хотя бы минимально стремиться к тому, чтобы события в будущем развивались в границах этого. Например, если ИИ может уверенно сказать, что наше КЭВ не имеет ничего общего с желанием пребывать в состоянии постоянной агонии или увидеть Вселенную, превращенную в скрепки, то должен действовать так, чтобы не допустить подобных исходов11.
«…Чтобы наши желания совпадали, а не пересекались…»
ИИ следует действовать в соответствии с довольно широким консенсусом экстраполированных волеизъявлений отдельных людей. Небольшое количество сильных, ясно выраженных желаний способно иногда перевесить слабые и невнятные желания большинства. Также Юдковский считает, что для ИИ требуется меньший консенсус, чтобы предотвратить некий конкретный негативный исход, и больший, чтобы действовать с целью реализации некоего конкретного позитивного исхода. «Исходным принципом для КЭВ должен быть консервативный подход к “да” и внимательное отношение к “нет”», — пишет он12.
«Экстраполировать так, как нам хотелось бы экстраполировать; понимать так, как нам хотелось бы понимать…»
Идея, лежащая в основе этих последних модификаторов, похоже, заключается в том, что правила экстраполяции сами должны учитывать экстраполированное волеизъявление. Индивидуум может иметь желание второго порядка (желание относительно того, что желать), чтобы некоторые его желания первого порядка не имели веса при экстраполяции его волеизъявления. Точно так же у нас могут быть желания относительно того, как должен развиваться процесс экстраполирования, и все это должно быть принято во внимание.
Можно возразить, что если удастся правильно определить понятие когерентного экстраполированного волеизъявления человечества, все равно окажется невозможным — даже для сверхразума — выяснить, что человечество хотело бы в гипотетических идеальных обстоятельствах, предусмотренных методом КЭВ. Если у ИИ не будет никакой информации о содержании нашего экстраполированного волеизъявления, в его распоряжении не останется никаких зацепок, которыми он мог бы руководствоваться в своем поведении. Хотя точно узнать КЭВ человечества действительно трудно, однако вполне возможно сформировать о нем информированное суждение. Причем возможно уже сегодня, не имея под рукой машинного сверхразума. Например, наше КЭВ видит людей будущего как людей, скорее живущих богато и счастливо, чем испытывающих невыносимые страдания. Если мы способны делать такие разумные предположения, то сверхразум тем более справится. То есть с самого начала поведение сверхразума может определяться его оценками относительно содержания нашего КЭВ. У него будут сильные инструментальные причины уточнять эти первоначальные смыслы (например, изучая человеческую культуру и психологию, сканируя мозг людей и размышляя, каким образом мы поступали бы, если знали бы больше, думали бы глубже и так далее). В своих исследованиях сверхразум руководствовался бы собственными первоначальными оценками КЭВ. Поэтому он не станет проводить бесчисленные опыты над имитационными моделями, сопровождающиеся безмерными страданиями этих сущностей, зная, что наше КЭВ сочтет такие эксперименты преступной безнравственностью.
Приведем еще одно возражение: в мире существует такое разнообразие образов жизни и сводов этических норм, что вряд ли получится объединить их в единую систему КЭВ. Даже если удастся это сделать, результат может быть не особенно аппетитным — маловероятно сделать что-то съедобное из сваленных в одну тарелку лучших кусочков любимейших блюд всех людей и народов13. Ответ здесь прост: метод КЭВ не предполагает смешивать воедино все формы жизнедеятельности, все мировоззрения, этические нормы и личностные ценности человека. КЭВ по определению работает лишь в том случае, когда наши волеизъявления когерентны. Если разногласие между ними нарастает, несмотря на перебор различных идеальных условий, процесс должен воздержаться от определения результата. Продолжим кулинарную аналогию: хотя у людей различных культур могут быть разные любимые блюда, тем не менее люди способны достичь согласия в том, что еда не должна быть токсичной. То есть КЭВ могло бы действовать с общей целью не допустить токсичности еды, а в остальном люди совершенствовали бы свое кулинарное мастерство без его руководства и вмешательства.
Целесообразность КЭВ
Юдковский приводит семь аргументов в пользу метода КЭВ. Три из них, по сути, говорят, что даже при наличии гуманной и полезной цели может оказаться довольно трудно определить и явно выразить набор правил, не имеющих ненамеренных интерпретаций и нежелательных следствий14. Метод КЭВ видится его автору строгим и способным к самокоррекции, предполагается, что КЭВ обращается к источникам наших целей, вместо того чтобы полагаться на нашу способность перечислить и раз и навсегда правильно сформулировать самые существенные из них.